In 2026 is de vraag niet of machines ons te slim af kunnen zijn, maar waar. Terwijl Deep Blue in 1997 schaakkampioen Garry Kasparov versloeg, ging de echte vraag nooit over de pure verwerkingskracht. Tegenwoordig dwingt generatieve AI een soortgelijke afrekening af op een veel abstracter gebied: de wiskunde. Onderzoekers onderzoeken of deze modellen de wiskunde daadwerkelijk kunnen vooruitgang brengen, en niet alleen problemen uit de schoolboeken kunnen oplossen.
Het verschil tussen berekening en ontdekking
De meeste mensen associëren wiskunde met getallen en formules. Maar op onderzoeksniveau gaat wiskunde over het bewijzen dat beweringen waar of onwaar zijn – vaak over concepten die te complex zijn om te visualiseren. In tegenstelling tot huiswerk waarbij het antwoord één enkele waarde is, behandelen wiskundigen abstracte vormen in meerdere dimensies en bewijzen ze hun eigenschappen met behulp van vergelijkingen. Dit is geen kwestie van berekenen, maar van conceptueel begrijpen.
AI heeft al indrukwekkende prestaties laten zien op gestandaardiseerde tests zoals de Internationale Wiskundeolympiade en heeft zelfs bepaalde Erdős-problemen ‘opgelost’. Deze benchmarks zijn echter misleidend. Ze lijken meer op huiswerk dan op geavanceerd onderzoek. Net zoals een rekenmachine anders is dan een wiskundige, staat het slagen voor een toets niet gelijk aan echt wiskundig inzicht. De kernvraag is of AI de manier waarop wiskunde wordt gedaan fundamenteel kan veranderen en niet alleen bestaande processen kan versnellen.
De eerste proefuitdaging: een rigoureuze test
Om de ware capaciteiten van AI te bepalen, lanceerde een team van elf wiskundigen de ‘First Proof’-uitdaging. Ze stelden feitelijke onopgeloste onderzoeksproblemen op en splitsten deze op in kleinere ‘lemma’s’ (sub-bewijzen) uit hun eigen aanstaande artikelen. Dit zorgde ervoor dat de vragen niet in AI-trainingsgegevens stonden, waardoor de mogelijkheid van oprispingen werd geëlimineerd. Het doel was simpel: kan AI bijdragen aan originele wiskundige ontdekkingen?
De eerste resultaten zijn gemengd. De eerste tests met publiekelijk beschikbare chatbots leverden slechts twee op de tien juiste antwoorden op. Grotere AI-bedrijven behaalden echter aanzienlijk betere scores, gebruikmakend van eigen modellen en menselijk toezicht. OpenAI claimde zes correcte oplossingen en Google Gemini rapporteerde vergelijkbaar succes. Een gemeenschap van wiskundeliefhebbers heeft ook bijgedragen en heeft de grenzen verlegd van wat mogelijk is met LLM’s.
De opkomst van AI-samenwerking: steigers en iteratie
De meest opvallende bevinding was het verschil tussen publieke en private AI-prestaties. Interne modellen presteerden veel beter dan open toegankelijke modellen. Maar er ontstond een andere trend: ‘steigers’. Onderzoekers vertrouwen niet op afzonderlijke LLM’s, maar orkestreren eerder meerdere AI-interacties en gebruiken deze om elkaars werk te ondervragen en te verfijnen. Dit iteratieve proces vergroot de nauwkeurigheid, maar vervaagt de grens tussen AI en menselijke bijdrage.
19e-eeuwse wiskunde: een stijlprobleem?
Zelfs als AI tot correcte bewijzen komt, merken wiskundigen een verschil in stijl. AI-oplossingen lijken vaak op 19e-eeuwse methoden: bewerkelijk, omslachtig en zonder elegantie. Echte wiskundige ontdekkingen omvatten het creëren van nieuwe concepten die het begrip stroomlijnen, een proces dat AI nog niet onder de knie heeft. Sommige door AI gegenereerde bewijzen hebben onderzoekers echter verrast met hun creativiteit, wat wijst op het potentieel voor echte doorbraken.
De toekomst van AI in de wiskunde
Het First Proof-team is van plan de uitdaging voort te zetten met strengere controles, waardoor duidelijker inzicht ontstaat in de AI-mogelijkheden. Het doel is niet om wiskundigen te vervangen, maar om te begrijpen of AI een krachtig hulpmiddel of een revolutionaire kracht is. Als AI consistent originele, elegante proefdrukken kan produceren, kan dit het veld opnieuw vormgeven. Voorlopig blijft de vraag open. De volgende testrondes zullen uitwijzen of AI de wiskunde echt vooruit kan helpen of eenvoudigweg bestaande methoden kan versnellen.
