AI schiet tekort in historische wiskundetest: eerste proefuitdaging onthult beperkingen

Kunstmatige intelligentie is nog niet in staat menselijke wiskundigen te vervangen, zo blijkt uit de resultaten van de ‘First Proof’-uitdaging – een rigoureuze test die is ontworpen om het vermogen van grote taalmodellen (LLM’s) om origineel wiskundig onderzoek uit te voeren te beoordelen. De uitdaging, die op Valentijnsdag werd uitgebracht, presenteerde tien complexe ‘lemma’s’ (kleine stellingen) aan AI’s, taken die doorgaans worden toegewezen aan hoogbegaafde studenten. De uitkomst? Geen enkele LLM loste alle tien de problemen onafhankelijk op.

De uitdaging en het doel ervan

Het First Proof-initiatief, onder leiding van elf vooraanstaande wiskundigen, had tot doel AI verder te brengen dan het opnieuw uitbraken van bestaande technieken. De problemen waren bedoeld om echte originaliteit te eisen, waardoor LLM’s werden gedwongen nieuwe oplossingen te synthetiseren in plaats van simpelweg bekende oplossingen te remixen. Deze test onderstreept een cruciale realiteit: hoewel AI uitblinkt in patroonherkenning en gegevensverwerking, worstelt het nog steeds met de creativiteit en het abstracte denken die wiskundige doorbraken aandrijven.

Onverwachte betrokkenheid van AI-ontwikkelaars

De uitdaging trok onverwacht veel aandacht van AI-bedrijven als OpenAI, die aanzienlijke middelen hebben ingezet om de problemen aan te pakken. Mohammed Abouzaid van Stanford University, lid van het First Proof-team, merkte op: “We hadden niet verwacht dat de AI-bedrijven het zo serieus zouden nemen en er zoveel werk in zouden steken.” Dit benadrukt de groeiende concurrentie binnen de AI-industrie om modellen te ontwikkelen die in staat zijn tot echt wiskundig redeneren.

Resultaten: vertrouwen staat niet gelijk aan correctheid

Het First Proof-team onthulde dat LLM’s vol vertrouwen bewijzen produceerden voor alle tien problemen, maar dat slechts twee ervan als correct werden geverifieerd. Eén van deze bewijzen was al gedocumenteerd en een ander was gedeeltelijk afgeleid van een gearchiveerde schets van een gerenommeerd wiskundige. Bovendien bleken veel ingediende oplossingen overtuigend maar uiteindelijk gebrekkig, wat de moeilijkheid onderstreept om onderscheid te maken tussen echt inzicht en door AI gegenereerde plausibiliteit.

Een glimp van de wiskundige ‘stijl’ van AI

Interessant genoeg vertoonden de juiste oplossingen die door AI’s werden gegenereerd volgens Abouzaid een duidelijk 19e-eeuwse wiskundige benadering. Dit suggereert dat hoewel AI gevestigde methoden kan nabootsen, het nog moet evolueren in de richting van de allernieuwste technieken die de moderne wiskunde bepalen.

De toekomst van AI in de wiskunde

Het First Proof-experiment gaat niet alleen over falen. Het is een leermogelijkheid. Het team plant een tweede ronde met strengere controles, wat aangeeft dat ze zich inzetten om de methodologie te verfijnen en AI verder te stimuleren. Ondanks de huidige beperkingen duidt de snelle vooruitgang op het gebied van LLM-mogelijkheden erop dat AI een steeds grotere rol zal blijven spelen in wiskundig onderzoek. Sommige wiskundigen geloven dat AI-ondersteunde tools al klaar zijn om het vakgebied te veranderen, zoals opgemerkt door Scott Armstrong van de Sorbonne Universiteit: “Deze tools komen de wiskunde veranderen, en dat gebeurt nu.”

De First Proof-uitdaging versterkt een cruciaal punt: hoewel AI bepaalde aspecten van wiskundig werk kan versnellen, heeft het nog niet de onafhankelijke, creatieve redenering bereikt die nodig is om menselijke wiskundigen te vervangen.

Exit mobile version