Новый экзамен по математике для ИИ: проверка на нерешенных задачах

4

Ведущие математики запустили проект «Первое доказательство» – уникальный вызов, разработанный для строгой оценки математических способностей искусственного интеллекта. Экзамен представляет ИИ-системам реальные, нерешенные задачи, взятые непосредственно из текущих исследований, давая им неделю на поиск решений. Это значительный шаг вперед по сравнению с существующими тестами, которые часто полагаются на предварительно подготовленные наборы данных или соревновательные задачи.

Проблема с существующими тестами для ИИ в математике

Предыдущие попытки оценить математическую мощь ИИ были несовершенны. Хотя такие модели, как Google Gemini Deep Think, добивались высоких результатов на Международной математической олимпиаде, эти тесты используют стандартизированные задачи, которые не соответствуют реальным исследованиям. Более того, некоторые «решения», сгенерированные ИИ, оказались повторным открытием малоизвестных, ранее опубликованных доказательств – по сути, продвинутым поиском в литературе, замаскированным под оригинальную работу. Как отмечает профессор Йельского университета Даниэль Шпильман, многие заявленные прорывы исходят от компаний, разрабатывающих ИИ, что вызывает вопросы об объективности.

«Первое доказательство»: контролируемый эксперимент

Инициатива «Первое доказательство» направлена на исправление этих недостатков. Одиннадцать ведущих математиков, включая лауреата Филдсовской премии, разработали оригинальные задачи, которые никогда не появлялись ни в каких данных для обучения ИИ. Решения зашифрованы и будут обнародованы 13 февраля, чтобы обеспечить справедливое тестирование.

Задачи не предназначены для того, чтобы быть новаторскими теоремами, а скорее «леммами» – небольшими, но важными шагами в более крупных доказательствах. Это именно те утомительные, но критически важные вычисления, которые занимают время математиков. Решение этих задач продемонстрирует потенциал ИИ для ускорения исследований за счет автоматизации этих фундаментальных задач.

Почему это важно: будущее ИИ в математике

Акцент на практической пользе, а не на эффектных результатах, имеет ключевое значение. Математик Эндрю Сазерленд предполагает, что влияние ИИ в ближайшей перспективе будет ощущаться не в решении глобальных нерешенных проблем, а в становлении незаменимым инструментом для работающих математиков. Если ИИ сможет надежно справляться с «черновой работой» при доказательстве теорем, это позволит исследователям сосредоточиться на более творческих и концептуальных задачах.

«Этот год может стать поворотным, когда многие начнут обращать больше внимания»
— Эндрю Сазерленд, MIT

«Первое доказательство» – это не просто тест; это эталон для будущего математики с помощью ИИ, способный изменить то, как проводятся исследования.

попередня статтяСупервулкан Йеллоустоуна демонстрирует необычное поднятие земной поверхности