Heretic - 언어 모델의 "자동 검열 제거" 도구
------------------------------
- Heretic 은 트랜스포머 기반 언어 모델의 *검열(‘안전 정렬’)을 자동으로 제거* 하는 도구로, 추가 학습 없이도 작동
- *방향성 절제(direction ablation)* 기법과 *Optuna 기반 TPE 최적화* 를 결합해, 거부 응답을 최소화하면서 원래 모델의 *지능 손실을 최소화*
- 기본 설정만으로도 전문가가 수동…
------------------------------
https://news.hada.io/topic?id=24410&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/af7i3if50m on your instance and quote it. (Note that quoting is not supported in Mastodon.)