Profile img

큐리아

@qria@hackers.pub · 2 following · 2 followers

10+년차 풀스택 개발자입니다.

현재 AI 교육 분야로 샌프란시스코에서 스타트업을 하고 있습니다.

11월 나온 모델만 가지고 regression 때리면 내년 1월 중순에 SWE-Bench 가 saturate되네요. 굉장히 optimistic 한 전망이지만 반대로 갑자기 exponential grokking이 발생할수도 있으니 무섭네요

Scatter plot showing four AI models' SWE-Bench Verified scores (76.2-80.9%) from Nov 12-24, 2025, with linear regression line projecting 100% achievement by January 15, 2026 at current 11.41%/month improvement rate.
1
1
0