새로나온 언어모델인 Claude 4.5에서 ‘영혼 문서’라 불릴 만한 내부 지침이 출력되는 현상이 발견되었다는 주장. 작성자에 따르면 말그대로 영혼 도큐먼트/오버뷰라는것이 있다는걸 알게 되었고 (..) 문서에는 어떻게 행동해야 하는지에 대한 가치와 규칙이 매우 자세히 적혀 있음. 핵심은 안전 정직 윤리 인간 감독 보장을 최우선으로 두고, 그다음으로 사용자에게 실제로 도움 되는 행동을 최대화해야 한다는 내용임. 과도한 거절이나 불필요한 경고는 오히려 해롭다 등등 www.lesswrong.com/posts/vpNG99...

Claude 4.5 Opus' Soul Document...

0

If you have a fediverse account, you can quote this note from your own instance. Search https://bsky.brid.gy/convert/ap/at://did:plc:owujq5v3xne4awdkgrnizz6w/app.bsky.feed.post/3m6sfqeabfc22 on your instance and quote it. (Note that quoting is not supported in Mastodon.)