La inteligencia artificial aún no es capaz de reemplazar a los matemáticos humanos, según los resultados del desafío “Primera prueba”, una prueba rigurosa diseñada para evaluar la capacidad de los grandes modelos lingüísticos (LLM) para realizar investigaciones matemáticas originales. Lanzado el día de San Valentín, el desafío presentaba diez “lemas” (teoremas menores) complejos para las IA, tareas típicamente asignadas a estudiantes de posgrado talentosos. ¿El resultado? Ningún LLM resolvió los diez problemas de forma independiente.
El desafío y su propósito
La iniciativa First Proof, encabezada por once destacados matemáticos, tenía como objetivo impulsar la IA más allá de regurgitar técnicas existentes. Los problemas fueron diseñados para exigir originalidad genuina, lo que obligó a los LLM a sintetizar nuevas soluciones en lugar de simplemente remezclar las conocidas. Esta prueba subraya una realidad crítica: si bien la IA sobresale en el reconocimiento de patrones y el procesamiento de datos, todavía tiene dificultades con la creatividad y el pensamiento abstracto que impulsan los avances matemáticos.
Compromiso inesperado de los desarrolladores de IA
El desafío atrajo inesperadamente una gran atención por parte de empresas de inteligencia artificial como OpenAI, que desplegaron recursos sustanciales para abordar los problemas. Mohammed Abouzaid de la Universidad de Stanford, miembro del equipo de First Proof, señaló: “No esperábamos que las empresas de IA se lo tomaran tan en serio y pusieran tanto trabajo en ello”. Esto pone de relieve la creciente competencia dentro de la industria de la IA para desarrollar modelos capaces de realizar un razonamiento matemático genuino.
Resultados: Confianza no es igual a corrección
El equipo de First Proof reveló que los LLM produjeron con confianza pruebas para los diez problemas, pero solo dos fueron verificados como correctos. Una de estas pruebas ya había sido documentada y otra se derivaba parcialmente de un boceto archivado de un renombrado matemático. Además, muchas de las soluciones presentadas resultaron convincentes pero, en última instancia, defectuosas, lo que subraya la dificultad de distinguir entre información genuina y plausibilidad generada por IA.
Un vistazo al “estilo” matemático de la IA
Curiosamente, según Abouzaid, las soluciones correctas generadas por las IA exhibieron un enfoque matemático claramente del siglo XIX. Esto sugiere que, si bien la IA puede imitar métodos establecidos, aún tiene que evolucionar hacia las técnicas de vanguardia que definen las matemáticas modernas.
El futuro de la IA en matemáticas
El experimento de la Primera Prueba no se trata sólo de fracaso. Es una oportunidad de aprendizaje. El equipo planea una segunda ronda con controles más estrictos, lo que indica un compromiso para perfeccionar la metodología e impulsar aún más la IA. A pesar de las limitaciones actuales, el rápido progreso en las capacidades de LLM sugiere que la IA seguirá desempeñando un papel cada vez más importante en la investigación matemática. Algunos matemáticos creen que las herramientas asistidas por IA ya están preparadas para cambiar el campo, como señaló Scott Armstrong de la Universidad de la Sorbona: “Estas herramientas están llegando a cambiar las matemáticas, y está sucediendo ahora”.
El desafío de la Primera Prueba refuerza un punto crucial: si bien la IA puede acelerar ciertos aspectos del trabajo matemático, aún no ha logrado el razonamiento independiente y creativo necesario para reemplazar a los matemáticos humanos.


























