Искусственный интеллект пока не способен заменить человеческих математиков, согласно результатам «Первого теста-доказательства» – строгого испытания, разработанного для оценки способности больших языковых моделей (LLM) проводить оригинальные математические исследования. Представленное в День святого Валентина испытание включало в себя десять сложных «лемм» (небольших теорем), задачи, которые обычно поручают одаренным аспирантам. Итог? Ни одна LLM не решила все десять задач самостоятельно.
Испытание и Его Цель
Инициатива «Первый тест-доказательства», возглавляемая одиннадцатью ведущими математиками, была направлена на то, чтобы вывести ИИ за рамки простого воспроизведения существующих техник. Задачи были разработаны таким образом, чтобы требовать подлинной оригинальности, вынуждая LLM синтезировать новые решения, а не просто смешивать известные. Этот тест подчеркивает критическую реальность: в то время как ИИ преуспевает в распознавании закономерностей и обработке данных, ему все еще трудно дается креативность и абстрактное мышление, которые движут математическими прорывами.
Неожиданный Интерес от Разработчиков ИИ
Испытание неожиданно привлекло значительное внимание со стороны ИИ-компаний, таких как OpenAI, которые направили существенные ресурсы на решение задач. Мухаммед Абузаид из Стэнфордского университета, член команды «Первого теста-доказательства», отметил: «Мы не ожидали, что ИИ-компании воспримут это так серьезно и приложат столько усилий». Это подчеркивает растущую конкуренцию в ИИ-индустрии за разработку моделей, способных к подлинному математическому мышлению.
Результаты: Уверенность Не Равна Правильности
Команда «Первого теста-доказательства» сообщила, что LLM уверенно представили доказательства для всех десяти задач, но только два были признаны верными. Одно из этих доказательств уже было задокументировано, а другое частично основано на архивном наброске известного математика. Кроме того, многие представленные решения оказались убедительными, но в конечном итоге ошибочными, что подчеркивает сложность различения между подлинным озарением и правдоподобностью, сгенерированной ИИ.
Взгляд на «Стиль» Математического Мышления ИИ
Интересно, что правильные решения, сгенерированные ИИ, демонстрировали отчетливо выраженный математический подход XIX века, по словам Абузаида. Это говорит о том, что, хотя ИИ может имитировать устоявшиеся методы, ему еще предстоит развиться в направлении передовых техник, определяющих современную математику.
Будущее ИИ в Математике
Эксперимент «Первый тест-доказательства» – это не только о неудаче. Это возможность для обучения. Команда планирует второй раунд с более строгими правилами, что свидетельствует о приверженности совершенствованию методологии и дальнейшему развитию ИИ. Несмотря на текущие ограничения, быстрый прогресс в возможностях LLM позволяет предположить, что ИИ продолжит играть все более важную роль в математических исследованиях. Некоторые математики считают, что ИИ-инструменты уже готовы изменить эту область, как отметил Скотт Армстронг из Сорбонны: «Эти инструменты придут, чтобы изменить математику, и это происходит прямо сейчас».
Испытание «Первый тест-доказательства» подтверждает ключевой момент: хотя ИИ может ускорить определенные аспекты математической работы, он еще не достиг независимого, творческого мышления, необходимого для замены человеческих математиков.
