Nieuw AI-wiskundeexamen test machines op onopgeloste problemen

20
Nieuw AI-wiskundeexamen test machines op onopgeloste problemen

Topwiskundigen hebben ‘First Proof’ gelanceerd, een unieke uitdaging die is ontworpen om de wiskundige mogelijkheden van kunstmatige intelligentie rigoureus te testen. Het examen presenteert AI-systemen met werkelijke, onopgeloste problemen die rechtstreeks uit huidig ​​onderzoek zijn ontleend, waardoor ze een week de tijd krijgen om oplossingen te vinden. Dit betekent een belangrijke stap verder dan bestaande tests, die vaak afhankelijk zijn van reeds bestaande datasets of concurrentieproblemen.

Het probleem met de huidige AI-wiskundetests

Eerdere pogingen om de wiskundige bekwaamheid van AI te meten waren gebrekkig. Hoewel modellen als Gemini Deep Think van Google hoge scores hebben behaald op de Internationale Wiskundeolympiade, gebruiken deze tests gestandaardiseerde problemen die geen echt onderzoek weerspiegelen. Bovendien zijn sommige door AI gegenereerde ‘oplossingen’ herontdekkingen gebleken van obscure, eerder gepubliceerde bewijzen – in wezen verfijnde literatuuronderzoeken die zich voordoen als origineel werk. Zoals Yale-professor Daniel Spielman opmerkt, komen veel gemelde doorbraken voort uit de bedrijven die de AI zelf ontwikkelen, wat vragen oproept over de objectiviteit.

Eerste bewijs: een gecontroleerd experiment

Het First Proof-initiatief heeft tot doel deze problemen te corrigeren. Elf vooraanstaande wiskundigen, waaronder een winnaar van de Fields Medal, hebben originele problemen bedacht die nog nooit in AI-trainingsgegevens zijn verschenen. De oplossingen zijn gecodeerd en worden op 13 februari onthuld, wat een eerlijke test garandeert.

De problemen zijn niet bedoeld als baanbrekende stellingen, maar eerder als ‘lemma’s’: kleine, essentiële stappen in grotere bewijzen. Dit zijn het soort vervelende, maar cruciale berekeningen die de tijd van wiskundigen in beslag nemen. Het oplossen ervan zou het potentieel van AI aantonen om onderzoek te versnellen door deze fundamentele taken te automatiseren.

Waarom dit ertoe doet: de toekomst van AI in de wiskunde

De focus op praktisch nut boven flitsende resultaten is van cruciaal belang. Wiskundige Andrew Sutherland suggereert dat de impact van AI op de korte termijn niet zal worden gevoeld in het oplossen van grote onopgeloste problemen, maar in het feit dat het een onmisbaar hulpmiddel wordt voor werkende wiskundigen. Als AI op betrouwbare wijze het ‘gromwerk’ van het bewijzen van stellingen aankan, zou het onderzoekers de ruimte kunnen geven om zich te concentreren op meer creatieve en conceptuele taken.

“Dit kan het jaar zijn waarin veel meer mensen op gaan letten”
– Andrew Sutherland, MIT

First Proof is niet zomaar een test; het is een maatstaf voor de toekomst van AI-ondersteunde wiskunde, met het potentieel om de manier waarop onderzoek wordt uitgevoerd opnieuw vorm te geven.