Andrej Karpathy의 2025년 LLM 연간 리뷰
------------------------------
- 2025년은 *검증 가능한 보상 기반 강화학습(RLVR)* 이 LLM 훈련의 새로운 핵심 단계로 부상하며, 기존 사전훈련-SFT-RLHF 파이프라인에 추가됨
- LLM이 수학·코드 퍼즐 등 *검증 가능한 환경* 에서 스스로 추론 전략을 발전시키며, 인간이 보기에 "사고"처럼 보이는 문제 해결 방식을 습득함
- Cursor가 *LLM …
------------------------------
https://news.hada.io/topic?id=25208&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/agil51w4zt on your instance and quote it. (Note that quoting is not supported in Mastodon.)