Новий іспит з математики для ШІ: тестування на невирішених задачах

по

-

12.02.2026

15

<br>

Провідні математики запустили Project First Proof, унікальний виклик, призначений для ретельної оцінки математичних здібностей штучного інтелекту. Іспит представляє системи штучного інтелекту з реальними, невирішеними проблемами, взятими безпосередньо з поточних досліджень, що дає їм тиждень, щоб знайти рішення. Це значне покращення порівняно з існуючими тестами, які часто спираються на попередньо підготовлені набори даних або конкурентні завдання.

Проблема з існуючими тестами для ШІ з математики

Попередні спроби оцінити математичну потужність ШІ були помилковими. Хоча такі моделі, як Google Gemini Deep Think, досягли високих результатів на Міжнародній математичній олімпіаді, ці тести використовують стандартизовані завдання, які не відповідають реальним дослідженням. Більше того, деякі зі створених ШІ «рішень» виявилися повторними відкриттями маловідомих, раніше опублікованих доказів — по суті, передових пошуків літератури, замаскованих під оригінальну роботу. Як зазначає професор Єльського університету Деніел Спілман, багато заявлених проривів прийшли завдяки компаніям, які розробляють ШІ, що викликає сумніви щодо об’єктивності.

«Перший доказ»: контрольований експеримент

Ініціатива Proof First Initiative має на меті виправити ці недоліки. Одинадцять провідних математиків, у тому числі лауреат медалі Філдса, розробили оригінальні задачі, які ніколи не фігурували в жодних навчальних даних ШІ. Рішення зашифровані та будуть оприлюднені 13 лютого, щоб забезпечити чесне тестування.

Проблеми не мають на меті бути новаторськими теоремами, а скоріше “лемами” – маленькими, але важливими кроками в більших доказах. Саме ці нудні, але критичні обчислення забирають час математиків. Вирішення цих проблем продемонструє потенціал ШІ для прискорення досліджень шляхом автоматизації цих фундаментальних завдань.

Чому це важливо: майбутнє ШІ в математиці

Ключовим є зосередження на практичних перевагах, а не на яскравих результатах. Математик Ендрю Сазерленд припускає, що вплив штучного інтелекту в найближчій перспективі буде відчуватися не у вирішенні глобальних невирішених проблем, а в тому, що він стане незамінним інструментом для працюючих математиків. Якщо ШІ зможе надійно впоратися з важкою роботою з доведення теорем, це дозволить дослідникам зосередитися на більш творчих і концептуальних завданнях.

«Цей рік може стати переломним моментом, коли багато людей почнуть приділяти більше уваги».
– Ендрю Сазерленд, MIT

«Перший доказ» — це не просто тест; це орієнтир для майбутнього математики з ШІ, який може змінити спосіб дослідження.