AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”
------------------------------
- 53개의 주요 *AI 모델* 을 대상으로 테스트한 결과, 대부분이 *기초적 추론에 실패* 함
- 정답은 *‘운전’* 이지만 53개 중 42개 모델이 *‘걷기’* 를 선택
- *Claude Opus 4.6, Gemini 3 시리즈, Grok-4* 등 5개 모델만이 10회 반복 테스트에서도 *100% 일관된 정답* 을 냄
- *GPT-5* 는 10회 중 …
------------------------------
https://news.hada.io/topic?id=26975&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/aj547356c6 on your instance and quote it. (Note that quoting is not supported in Mastodon.)