Künstliche Intelligenz ist noch nicht in der Lage, menschliche Mathematiker zu ersetzen, so die Ergebnisse der „First Proof“-Challenge – einem strengen Test zur Beurteilung der Fähigkeit großer Sprachmodelle (LLMs), originelle mathematische Forschung durchzuführen. Die am Valentinstag veröffentlichte Herausforderung stellte KIs zehn komplexe „Lemmas“ (Nebentheoreme) vor, Aufgaben, die normalerweise begabten Doktoranden zugewiesen werden. Das Ergebnis? Kein LLM löste alle zehn Probleme unabhängig voneinander.
Die Herausforderung und ihr Zweck
Die First Proof-Initiative, angeführt von elf führenden Mathematikern, zielte darauf ab, die KI über das Wiederkäuen bestehender Techniken hinaus voranzutreiben. Die Probleme sollten echte Originalität erfordern und LLMs dazu zwingen, neue Lösungen zu synthetisieren, anstatt nur bekannte neu zu mischen. Dieser Test unterstreicht eine entscheidende Realität: Während KI bei der Mustererkennung und Datenverarbeitung hervorragende Leistungen erbringt, hat sie immer noch Probleme mit der Kreativität und dem abstrakten Denken, die mathematische Durchbrüche vorantreiben.
Unerwartetes Engagement von KI-Entwicklern
Die Herausforderung erregte unerwartet große Aufmerksamkeit von KI-Unternehmen wie OpenAI, die erhebliche Ressourcen zur Bewältigung der Probleme aufwendeten. Mohammed Abouzaid von der Stanford University, ein Mitglied des First Proof-Teams, bemerkte: „Wir hatten nicht erwartet, dass die KI-Unternehmen die Sache so ernst nehmen und so viel Arbeit hineinstecken würden.“ Dies verdeutlicht den wachsenden Wettbewerb innerhalb der KI-Branche um die Entwicklung von Modellen, die zu echten mathematischen Überlegungen fähig sind.
Ergebnisse: Vertrauen ist nicht gleichbedeutend mit Korrektheit
Das First Proof-Team stellte fest, dass LLMs zuversichtlich Beweise für alle zehn Probleme lieferten, aber nur zwei als korrekt verifiziert wurden. Einer dieser Beweise war bereits dokumentiert und ein anderer wurde teilweise aus einer archivierten Skizze eines renommierten Mathematikers abgeleitet. Darüber hinaus erwiesen sich viele eingereichte Lösungen als überzeugend, aber letztendlich als fehlerhaft, was die Schwierigkeit unterstreicht, zwischen echten Erkenntnissen und KI-generierter Plausibilität zu unterscheiden.
Ein Einblick in den mathematischen „Stil“ der KI
Interessanterweise wiesen die von KIs generierten korrekten Lösungen laut Abouzaid einen eindeutig mathematischen Ansatz des 19. Jahrhunderts auf. Dies deutet darauf hin, dass KI zwar etablierte Methoden nachahmen kann, sich jedoch noch nicht zu den modernsten Techniken weiterentwickelt hat, die die moderne Mathematik definieren.
Die Zukunft der KI in der Mathematik
Beim First Proof-Experiment geht es nicht nur ums Scheitern. Es ist eine Lernmöglichkeit. Das Team plant eine zweite Runde mit strengeren Kontrollen, was auf die Verpflichtung hindeutet, die Methodik zu verfeinern und die KI weiter voranzutreiben. Trotz aktueller Einschränkungen deuten die raschen Fortschritte bei den LLM-Fähigkeiten darauf hin, dass KI weiterhin eine zunehmende Rolle in der mathematischen Forschung spielen wird. Einige Mathematiker glauben, dass KI-gestützte Werkzeuge bereits bereit sind, das Fachgebiet zu verändern, wie Scott Armstrong von der Sorbonne-Universität feststellte: „Diese Werkzeuge werden die Mathematik verändern, und das geschieht jetzt.“
Die „First Proof“-Herausforderung unterstreicht einen entscheidenden Punkt: Während KI bestimmte Aspekte der mathematischen Arbeit beschleunigen kann, hat sie noch nicht das unabhängige, kreative Denken erreicht, das erforderlich ist, um menschliche Mathematiker zu ersetzen.


























