L’IA échoue dans un test de mathématiques historique : le premier défi de preuve révèle ses limites

L’intelligence artificielle n’est pas encore capable de remplacer les mathématiciens humains, selon les résultats du défi « First Proof », un test rigoureux conçu pour évaluer la capacité des grands modèles de langage (LLM) à mener des recherches mathématiques originales. Lancé le jour de la Saint-Valentin, le défi présentait dix « lemmes » (théorèmes mineurs) complexes aux IA, tâches généralement assignées aux étudiants diplômés doués. Le résultat ? Aucun LLM n’a résolu les dix problèmes de manière indépendante.

Le défi et son objectif

L’initiative First Proof, dirigée par onze mathématiciens de renom, visait à pousser l’IA au-delà de la régurgitation des techniques existantes. Les problèmes ont été conçus pour exiger une véritable originalité, obligeant les LLM à synthétiser de nouvelles solutions plutôt que de simplement remixer celles connues. Ce test souligne une réalité cruciale : même si l’IA excelle dans la reconnaissance de formes et le traitement des données, elle a encore du mal à faire preuve de créativité et de pensée abstraite qui sont à l’origine des avancées mathématiques.

Engagement inattendu de la part des développeurs d’IA

De manière inattendue, ce défi a attiré l’attention des sociétés d’IA comme OpenAI, qui ont déployé des ressources substantielles pour résoudre les problèmes. Mohammed Abouzaid, de l’Université de Stanford, membre de l’équipe First Proof, a déclaré : « Nous ne nous attendions pas à ce que les sociétés d’IA prennent cela au sérieux et y consacrent autant de travail. » Cela met en évidence la concurrence croissante au sein de l’industrie de l’IA pour développer des modèles capables d’un véritable raisonnement mathématique.

Résultats : la confiance n’est pas synonyme d’exactitude

L’équipe First Proof a révélé que les LLM produisaient en toute confiance des preuves pour les dix problèmes, mais que seuls deux étaient vérifiés comme étant corrects. L’une de ces preuves avait déjà été documentée et une autre était partiellement dérivée d’un croquis archivé d’un mathématicien de renom. En outre, de nombreuses solutions proposées se sont révélées convaincantes, mais finalement imparfaites, soulignant la difficulté de faire la distinction entre une véritable vision et la plausibilité générée par l’IA.

Un aperçu du « style » mathématique de l’IA

Il est intéressant de noter que les solutions correctes générées par les IA présentaient une approche mathématique distincte du XIXe siècle, selon Abouzaid. Cela suggère que même si l’IA peut imiter des méthodes établies, elle n’a pas encore évolué vers les techniques de pointe qui définissent les mathématiques modernes.

L’avenir de l’IA en mathématiques

L’expérience de la première preuve n’est pas seulement une question d’échec. C’est une opportunité d’apprentissage. L’équipe prévoit un deuxième cycle avec des contrôles plus stricts, indiquant son engagement à affiner la méthodologie et à pousser plus loin l’IA. Malgré les limites actuelles, les progrès rapides des capacités LLM suggèrent que l’IA continuera à jouer un rôle croissant dans la recherche mathématique. Certains mathématiciens pensent que les outils assistés par l’IA sont déjà sur le point de changer le domaine, comme le souligne Scott Armstrong de Sorbonne Université : « Ces outils vont changer les mathématiques, et cela se produit maintenant. »

Le défi First Proof renforce un point crucial : même si l’IA peut accélérer certains aspects du travail mathématique, elle n’a pas encore atteint le raisonnement indépendant et créatif nécessaire pour remplacer les mathématiciens humains.

Exit mobile version