Чи може ІІ Вирішувати Реальні Математичні Докази? Дослідники Перевіряють Генеративні Моделі

по

-

25.03.2026

У 2026 році питання полягає не в тому, чи зможуть машини перехитрити нас, а де саме. Поки Deep Blue обіграв чемпіона з шахів Гарі Каспарова в 1997 році, справжнє питання ніколи не стосувалося брутальної обчислювальної потужності. Сьогодні генеративний ІІ змушує нас до подібного переосмислення в області, набагато абстрактнішій: математики. Дослідники з’ясовують, чи можуть ці моделі справді “просувати” математику вперед, а не просто вирішувати завдання з підручників.

Різниця Між Обчисленням та Відкриттям

Більшість людей асоціюють математику з числами та формулами. Але на дослідницькому рівні математика полягає у доказі істинності чи хибності тверджень – часто про концепції, які надто складні для візуалізації. На відміну від домашнього завдання, де відповідь – одне значення, математики мають справу з абстрактними формами у багатовимірному просторі, доводячи їх властивості з допомогою рівнянь. Не питання обчислень, а питання концептуального розуміння.

ІІ вже продемонстрував вражаючі результати на стандартизованих тестах, таких як Міжнародна математична олімпіада, і навіть вирішив деякі проблеми Ердеша. Однак ці тести вводять в оману. Вони більше схожі на домашнє завдання, ніж передові дослідження. Як калькулятор відрізняється від математика, і успішна здача тесту не рівнозначна справжньої математичної інтуїції. Основне питання полягає в тому, чи може ІІ принципово змінити те, як робиться математика, а не просто прискорити існуючі процеси.

Перший Виклик Докази: Суворий Тест

Щоб визначити справжні можливості ШІ, група з 11 математиків запустила «Перший виклик докази». Вони представили реальні невирішені дослідницькі проблеми, розбивши їх у більш дрібні «леми» (приватні докази) з майбутніх статей. Це гарантувало, що питання не містяться в даних для навчання ІІ, за винятком можливості повторення. Мета була простою: чи може ІІ зробити внесок в оригінальне математичне відкриття?

Початкові результати неоднозначні. Початкові тести із загальнодоступними чат-ботами дали лише дві правильні відповіді з десяти. Проте більші компанії, що використовують пропрієтарні моделі та людський контроль, досягли значно кращих результатів. OpenAI заявила про шість правильних рішень, а Google Gemini повідомила про аналогічний успіх. Співтовариство ентузіастів математики також зробило свій внесок, розширюючи межі можливого за допомогою LLM.

Розквіт Співробітництва з ІІ: Підтримка та Ітерація

Найбільш помітним висновком стала відмінність у продуктивності між загальнодоступним та приватним ІІ. Внутрішні моделі значно перевершували відкрито доступні. Але виникла й інша тенденція: «підтримка». Дослідники не покладаються на одну LLM, а радше організують кілька взаємодій ІІ, використовуючи їх для перевірки та уточнення роботи один одного. Цей ітеративний процес підвищує точність, але розмиває межу між внеском ІІ та людини.

Математика XIX Століття: Проблема Стилю?

Навіть коли ІІ приходить до правильних доказів, математики помічають різницю в стилі. Рішення ІІ часто нагадують методи XIX століття – трудомісткі, манівці та позбавлені елегантності. Справжнє математичне відкриття передбачає створення нових концепцій, які спрощують розуміння, процесу, який ІІ ще належить опанувати. Однак деякі докази, згенеровані ІІ, здивували дослідників своєю креативністю, що вказує на потенціал для справжніх проривів.

Майбутнє ІІ в Математиці

Команда «Першого виклику доказу» планує продовжити випробування з суворішим контролем, надаючи чіткіше уявлення про можливості ІІ. Мета не в тому, щоб замінити математиків, а в тому, щоб зрозуміти, чи є ІІ потужним інструментом чи революційною силою. Якщо ІІ зможе послідовно генерувати оригінальні, елегантні докази, може змінити цю область. Поки що питання залишається відкритим. Наступні раунди тестування покажуть, чи справді ШІ може просунути математику вперед або просто прискорити існуючі методи.

Exit mobile version