챗GPT·제미나이도 예외없다…불완전할 수밖에 없는 'AI 안전 필터'
www.dongascience.com/news.php?idx...
"실험 결과 AI에게 악당 역할을 맡기거나 소설 속 장면이라고 속이거나 글자 사이에 특수문자를 끼워 넣는 등 단순한 속임수는 필터를 자주 뚫었지만 방어 기법을 적용하면 비교적 쉽게 차단됐다. 반면 일부 공격은 방어까지 우회했다. 연구팀은 최신 모델에서도 필터를 뚫는 방식이 반복적으로 발견된다고 분석했다."
챗GPT·제미나이도 예외없다…불완전할 수밖에 없는 'A...
If you have a fediverse account, you can quote this note from your own instance. Search https://bsky.brid.gy/convert/ap/at://did:plc:7reki7xuobtaq6iuqquznqby/app.bsky.feed.post/3mahlnztv3c27 on your instance and quote it. (Note that quoting is not supported in Mastodon.)
