Математический бенчмарк FrontierMath поставил ИИ в тупик

Epoch AI анонсировала создание нового математического бенчмарка под названием FrontierMath. Этот набор задач представляет собой сотни сложных математических вопросов, которые оказались не под силу даже самым продвинутым моделям искусственного интеллекта, таким как GPT-4o и Claude 3.5 Sonnet. Они решают их менее чем в 2% случаев.

Решение этих задач требует от математиков нескольких часов или даже дней напряжённой работы. Они охватывают широкий спектр дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.

Набор задач остаётся неопубликованным, чтобы избежать загрязнения данных и обеспечить подлинное испытание для ИИ, который не будет полагаться на уже существующие наборы.

Несмотря на то, что ИИ-модели успешно справляются с более простыми задачами, такими как GSM8K, они с трудом решают более сложные задачи FrontierMath.

Разработку этого бенчмарка вели более 60 математиков, а его рецензирование осуществлялось лауреатами Филдсовской премии. Решения могут быть проверены вычислениями, которые требуют сложных алгоритмов или больших числовых ответов.

Epoch AI планирует продолжать расширять этот бенчмарк, выпуская новые задачи для дальнейшего изучения и проверки пределов возможностей ИИ в математике.

Ранее ITinfo сообщало, что директор Microsoft Gaming Спенсер видит рост Xbox в будущем и купил новые студии.