Hyaline @hyaline@hackers.pub7/17/2025, 10:59:41 PMPublic요즘 이런 생각을 종종합니다. "윤리는 안보의 문제다. 철학은 생존의 문제다." 어제 이런 것들을 읽었습니다. 인상적이었어요. "사고의 사슬 모니터링: AI 안전을 위한 새롭고 취약한 기회" "사고의 사슬이 필요할 때, 언어 모델은 평가자를 회피하기 위해 고군분투한다." "Claude Sonnet 3.7은 (종종) 정렬 평가에 언제 들어가는지 알고 있다." Chain of Thought Monitorability: A New and Fragile Opportunity for AI SafetyAI systems that "think" in human language offer a unique opportunity for AI safety: we can monitor their chains of thought (CoT) for the intent to misbehave. Like all other known AI oversight methods, CoT monitoring is imperfect and allows some misbehavior to go unnoticed. Nevertheless, it shows promise and we recommend further research into CoT monitorability and investment in CoT monitoring alongside existing safety methods. Because CoT monitorability may be fragile, we recommend that frontier model developers consider the impact of development decisions on CoT monitorability.arxiv.org · arXiv.org