11월 나온 모델만 가지고 regression 때리면 내년 1월 중순에 SWE-Bench 가 saturate되네요. 굉장히 optimistic 한 전망이지만 반대로 갑자기 exponential grokking이 발생할수도 있으니 무섭네요
큐리아
@qria@hackers.pub · 2 following · 4 followers
10+년차 풀스택 개발자입니다.
현재 AI 교육 분야로 샌프란시스코에서 스타트업을 하고 있습니다.
@qria@hackers.pub · 2 following · 4 followers
10+년차 풀스택 개발자입니다.
현재 AI 교육 분야로 샌프란시스코에서 스타트업을 하고 있습니다.
11월 나온 모델만 가지고 regression 때리면 내년 1월 중순에 SWE-Bench 가 saturate되네요. 굉장히 optimistic 한 전망이지만 반대로 갑자기 exponential grokking이 발생할수도 있으니 무섭네요