OpenAI 직원이 xAI의 최신 AI 모델 Grok3의 벤치마크 테스트 결과가 오해를 불러일으킨다고 공개적으로 비난했습니다

2025-02-23 11:03:04

수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 OpenAI의 한 직원이 머스크 소속의 xAI 회사를 공개적으로 비난하며, 그들이 발표한 최신 AI 모델 Grok3의 벤치마크 결과가 오해를 불러일으킨다고 주장했습니다. 이에 대해 xAI의 공동 창립자 이고르 바부쉬킨(Igor Babushkin)은 회사에 부당한 점이 없다고 주장했습니다.

xAI의 그래프에 따르면, Grok3의 두 가지 버전인 Grok3 Reasoning Beta와 Grok3 mini Reasoning이 AIME 2025에서 OpenAI의 현재 가장 강력한 사용 가능한 모델인 o3-mini-high를 초과하는 성능을 보였습니다. 그러나 OpenAI의 직원들은 곧 X 플랫폼에서 xAI의 그래프가 "cons@64" 조건에서 o3-mini-high의 AIME 2025 점수를 포함하지 않았다고 지적했습니다.

바부쉬킨은 X 플랫폼에서 OpenAI가 과거에도 유사한 오해를 불러일으키는 벤치마크 그래프를 발표한 적이 있다고 주장했습니다. 비록 이러한 그래프가 자사 모델의 성능을 비교하기 위해 사용되었지만.

원천

위험 경고