오픈AI, GPT 5.4 Thinking/Pro 정식 출시!

한 달도 안되는 시간동안
Opus 4.6, Gemini 3.1에 GPT 5.4까지
정말 쉴틈없이 몰아치네요ㄷㄷ

당연히 기존 GPT 5.2를 대부분의 벤치에서 능가하는데다 더 빠르고, 적은 토큰 소모.

무엇보다 ‘OSWorld-verified’ 벤치마크 (실제 컴퓨터 환경을 마우스-키보드로 제어하는 것) 에서 기존 5.2 47.3% 에서 75%까지 개선된게 눈에 띔. (Opus 4.6이 72.7%) 어느새 점점 ‘에이전트’ 기능을 적극 도입하는 방향성으로 모두 수렴하는듯.

대내외적 논란은 많지만, 아직 기술력에서는 절대 밀리지 않겠다는 강한 의지가 엿보이는 모델이랄까.

May be a graphic of crossword puzzle, calendar, poster and text that says 'OpenAl GPT-5.4 Thinking maximum available reasoning effort. osWorld-Verified Verified Computer GPT-5.4 Pro Anthropie GPT-5.3 Codex ·75.0% WebArena-Verified Verified Web Webbrowsing Google GPT-5.2 Thinking Claude Opus 4.6 •67.3% 74.0% - Knowledge ties) tasks Gemini 3.1 Pro 47.3% •83.0% BrowseComp Agentia brewsing 72.7% 82.0% 65.4% 82.7% SWE Bench engineering 70.9% 66.4% Sonnet Sonnet4s 70.9% •89.3% 57.7% 77.3% GPQA Diamond BcneHeo reasoning 78.0% 65.8% FrontierMath 92.8% 56.8% 84.0% 94.4% 55.6% (Ther1-3&Ter4) 85.9% 92.6% 47.6% 27.1% 92.4% Toolathion Agentictoc tool ol use 54.2% 50.0% 38.0% 91.3% 40.7% •54.6% 94.3% 18.8% 40.7% 22.9% 51.9% 36.9% 16.7% 45.7% 44.8%" Sonnet4 odata eported Opus 6'
0

If you have a fediverse account, you can quote this note from your own instance. Search https://threads.net/ap/users/17841401979726100/post/18097303364489048/ on your instance and quote it. (Note that quoting is not supported in Mastodon.)