Jak wynika z pierwszego testu dowodowego, rygorystycznego testu mającego na celu ocenę zdolności dużych modeli językowych (LLM) do tworzenia oryginalnych badań matematycznych, sztuczna inteligencja nie jest jeszcze w stanie zastąpić ludzkich matematyków. Zaprezentowane w Walentynki wyzwanie obejmowało dziesięć trudnych „lematów” (małych twierdzeń), czyli problemów zwykle przypisywanych utalentowanym doktorantom. Wynik? Żaden LLM nie rozwiązał niezależnie wszystkich dziesięciu problemów.
Test i jego cel
Inicjatywa First Test-Proof, prowadzona przez jedenastu czołowych matematyków, miała na celu wyniesienie sztucznej inteligencji poza zwykłe replikowanie istniejących technik. Problemy zaprojektowano tak, aby wymagały prawdziwej oryginalności, co zmusiło władze LLM do syntezy nowych rozwiązań, a nie po prostu mieszania znanych. Ten test uwydatnia krytyczną rzeczywistość: chociaż sztuczna inteligencja przoduje w rozpoznawaniu wzorców i przetwarzaniu danych, nadal boryka się z kreatywnością i abstrakcyjnym myśleniem, które napędzają przełomy w matematyce.
Nieoczekiwane zainteresowanie ze strony twórców sztucznej inteligencji
Próba nieoczekiwanie przyciągnęła znaczną uwagę firm zajmujących się sztuczną inteligencją, takich jak OpenAI, które przeznaczyły znaczne zasoby na rozwiązanie problemów. Muhammad Abuzaid z Uniwersytetu Stanforda, członek zespołu First Proof Test, powiedział: „Nie spodziewaliśmy się, że firmy zajmujące się sztuczną inteligencją potraktują to tak poważnie i włożą w to tyle wysiłku”. Podkreśla to rosnącą konkurencję w branży sztucznej inteligencji w zakresie opracowywania modeli zdolnych do prawdziwego rozumowania matematycznego.
Wyniki: pewność nie równa się poprawność
Zespół First Proof Test poinformował, że LLM z pewnością przedstawili dowody na wszystkie dziesięć problemów, ale tylko dwa okazały się poprawne. Jeden z tych dowodów został już udokumentowany, a drugi opiera się częściowo na archiwalnym szkicu słynnego matematyka. Ponadto wiele z przedstawionych rozwiązań było przekonujących, ale ostatecznie błędnych, co uwydatniło trudność w rozróżnieniu pomiędzy prawdziwym spostrzeżeniem a wiarygodnością generowaną przez sztuczną inteligencję.
Spójrz na „styl” myślenia matematycznego sztucznej inteligencji
Co ciekawe, zdaniem Abouzaida prawidłowe rozwiązania wygenerowane przez sztuczną inteligencję wykazywały wyraźnie XIX-wieczne podejście matematyczne. Sugeruje to, że chociaż sztuczna inteligencja może naśladować ustalone metody, musi jeszcze ewoluować w kierunku zaawansowanych technik, które definiują współczesną matematykę.
Przyszłość sztucznej inteligencji w matematyce
Eksperyment „Pierwszy test dowodów” to nie tylko porażka. To okazja do nauki. Zespół planuje drugą rundę z bardziej rygorystycznymi zasadami, sygnalizując zaangażowanie w ulepszanie metodologii i dalszy rozwój sztucznej inteligencji. Pomimo obecnych ograniczeń szybki postęp w możliwościach LLM sugeruje, że sztuczna inteligencja będzie nadal odgrywać coraz ważniejszą rolę w badaniach matematycznych. Niektórzy matematycy uważają, że narzędzia sztucznej inteligencji są już gotowe do zmiany tej dziedziny, jak zauważył Scott Armstrong z Sorbony: „Te narzędzia wkrótce zmienią matematykę i dzieje się to już teraz”.
Test First Proof Test potwierdza kluczową kwestię: chociaż sztuczna inteligencja może przyspieszyć niektóre aspekty pracy matematycznej, nie osiągnęła jeszcze niezależnego, twórczego myślenia potrzebnego do zastąpienia ludzkich matematyków.


























