Přední matematici spustili Project First Proof, jedinečnou výzvu určenou k přísnému hodnocení matematických schopností umělé inteligence. Zkouška představuje systémy umělé inteligence s skutečnými, nevyřešenými problémy převzatými přímo z aktuálního výzkumu, což jim dává týden na to, aby přišli s řešením. Jde o výrazné zlepšení oproti stávajícím benchmarkům, které často spoléhají na předem připravené datové sady nebo konkurenční úkoly.
Problém se stávajícími testy pro umělou inteligenci v matematice
Předchozí pokusy posoudit matematickou sílu AI byly chybné. Přestože modely jako Google Gemini Deep Think dosáhly vysokých výsledků v Mezinárodní matematické olympiádě, tyto testy využívají standardizované problémy, které neodpovídají reálnému výzkumu. Některá „řešení“ generovaná umělou inteligencí se navíc ukázala jako znovuobjevení málo známých, dříve publikovaných důkazů – v podstatě pokročilé vyhledávání literatury maskované jako originální dílo. Jak zdůrazňuje profesor Yale University Daniel Spielman, mnoho z uváděných průlomů pochází od společností vyvíjejících AI, což vyvolává otázky o objektivitě.
“První důkaz”: kontrolovaný experiment
Cílem iniciativy Proof First Initiative je tyto nedostatky napravit. Jedenáct předních matematiků, včetně vítěze Fieldsovy medaile, vyvinulo originální problémy, které se nikdy neobjevily v žádných tréninkových datech AI. Rozhodnutí jsou zašifrována a budou zveřejněna 13. února, aby bylo zajištěno spravedlivé testování.
Problémy nejsou zamýšleny jako převratné teorémy, ale spíše “lemmata” – malé, ale důležité kroky ve větších důkazech. Jsou to ty nudné, ale kritické výpočty, které zabírají čas matematiků. Řešení těchto výzev ukáže potenciál AI urychlit výzkum automatizací těchto základních úkolů.
Proč na tom záleží: Budoucnost umělé inteligence v matematice
Klíčové je zaměřit se spíše na praktické výhody než na okázalé výsledky. Matematik Andrew Sutherland naznačuje, že dopad umělé inteligence se v blízké budoucnosti neprojeví v řešení globálních nevyřešených problémů, ale v tom, že se stane nepostradatelným nástrojem pro pracující matematiky. Pokud umělá inteligence dokáže spolehlivě zvládnout práci na dokazování teorémů, umožní to výzkumníkům soustředit se na kreativnější a koncepčnější úkoly.
“Letošní rok by mohl být zlomovým bodem, kdy mnoho lidí začne věnovat větší pozornost.”
– Andrew Sutherland, MIT
„První důkaz“ není jen test; je to měřítko pro budoucnost matematiky s umělou inteligencí s potenciálem změnit způsob, jakým se provádí výzkum.
