xAI подверглась критике за некорректное сравнение Grok 3 с моделями OpenAI

Вокруг результатов бенчмарка Grok 3 от xAI разгорелся спор: сотрудник OpenAI обвинил компанию в манипуляции данными при сравнении. Несмотря на защиту сооснователя xAI Игоря Бабушкина, ситуация оказалась неоднозначной.

Как сообщает издание TechCrunch, xAI опубликовала график, показывающий превосходство Grok 3 над o3-mini-high от OpenAI в математическом тесте AIME 2025. Однако, по мнению сотрудников OpenAI, xAI не учла ключевую метрику «cons@64», предоставляющую моделям ИИ 64 попытки для правильного ответа. При использовании этой метрики баллы значительно возрастают, и без нее модели OpenAI могут демонстрировать лучшие результаты.

При стандартных настройках «@1», когда ИИ имеет только одну попытку, Grok 3 Reasoning Beta и Grok 3 mini Reasoning набирают меньше баллов, чем o3-mini-high от OpenAI. Несмотря на это, xAI продолжает утверждать, что Grok 3 — «самый умный ИИ в мире».

Бабушкин сообщил, что OpenAI до этого прибегала к подобным методам.

Ранее ITinfo сообщало, что Северная Корея изучает ChatGPT для развития искусственного интеллекта.