11월 나온 모델만 가지고 regression 때리면 내년 1월 중순에 SWE-Bench 가 saturate되네요. 굉장히 optimistic 한 전망이지만 반대로 갑자기 exponential grokking이 발생할수도 있으니 무섭네요

Scatter plot showing four AI models' SWE-Bench Verified scores (76.2-80.9%) from Nov 12-24, 2025, with linear regression line projecting 100% achievement by January 15, 2026 at current 11.41%/month improvement rate.
1

❤️

1 person reacted.

Hi, I'm who's behind Fedify, Hollo, BotKit, and this website, Hackers' Pub! My main account is at @hongminhee洪 民憙 (Hong Minhee) :nonbinary:.

Fedify, Hollo, BotKit, 그리고 보고 계신 이 사이트 Hackers' Pub을 만들고 있습니다. 제 메인 계정은: @hongminhee洪 民憙 (Hong Minhee) :nonbinary:.

FedifyHolloBotKit、そしてこのサイト、Hackers' Pubを作っています。私のメインアカウントは「@hongminhee洪 民憙 (Hong Minhee) :nonbinary:」に。