Pada tahun 2026, pertanyaannya bukanlah jika mesin bisa mengalahkan kita, tapi di mana. Ketika Deep Blue mengalahkan juara catur Garry Kasparov pada tahun 1997, pertanyaan sebenarnya bukanlah tentang kekuatan pemrosesan mentah. Saat ini, AI generatif memaksa perhitungan serupa di bidang yang jauh lebih abstrak: matematika. Para peneliti sedang menyelidiki apakah model ini benar-benar dapat memajukan matematika, tidak hanya memecahkan masalah buku teks.
Perbedaan Antara Perhitungan dan Penemuan
Kebanyakan orang mengasosiasikan matematika dengan angka dan rumus. Namun pada tingkat penelitian, matematika adalah tentang membuktikan pernyataan benar atau salah – sering kali tentang konsep yang terlalu rumit untuk divisualisasikan. Berbeda dengan pekerjaan rumah yang jawabannya berupa nilai tunggal, matematikawan menangani bentuk abstrak dalam berbagai dimensi, dan membuktikan sifat-sifatnya menggunakan persamaan. Ini bukan soal perhitungan, tapi pemahaman konseptual.
AI telah menunjukkan kinerja yang mengesankan pada tes standar seperti Olimpiade Matematika Internasional dan bahkan telah “memecahkan” masalah Erdős tertentu. Namun, tolok ukur ini menyesatkan. Mereka lebih menyerupai pekerjaan rumah daripada penelitian mutakhir. Sama seperti kalkulator yang berbeda dengan ahli matematika, lulus ujian tidak sama dengan wawasan matematika yang sesungguhnya. Pertanyaan intinya adalah apakah AI dapat mengubah bagaimana matematika dilakukan secara mendasar, bukan hanya mempercepat proses yang ada.
Tantangan Pembuktian Pertama: Ujian yang Ketat
Untuk menentukan kemampuan AI yang sebenarnya, tim yang terdiri dari 11 ahli matematika meluncurkan tantangan “Bukti Pertama”. Mereka mengajukan permasalahan penelitian aktual yang belum terpecahkan, memecahnya menjadi “lemma” (sub-bukti) yang lebih kecil dari makalah mereka yang akan datang. Hal ini memastikan pertanyaan tidak ada dalam data pelatihan AI, sehingga menghilangkan kemungkinan terjadinya regurgitasi. Tujuannya sederhana: dapatkah AI berkontribusi pada penemuan matematika asli?
Hasil awal beragam. Pengujian awal dengan chatbot yang tersedia untuk umum hanya menghasilkan dua dari sepuluh jawaban yang benar. Namun, perusahaan AI yang lebih besar, yang menggunakan model kepemilikan dan pengawasan manusia, memperoleh skor yang jauh lebih baik. OpenAI mengklaim enam solusi yang tepat, dan Google Gemini melaporkan keberhasilan serupa. Komunitas penggemar matematika juga berkontribusi, mendorong batas-batas apa yang mungkin dilakukan dengan LLM.
Bangkitnya Kolaborasi AI: Scaffolding dan Iterasi
Temuan yang paling mencolok adalah kesenjangan antara kinerja AI pemerintah dan swasta. Model internal jauh mengungguli model yang dapat diakses secara terbuka. Namun tren lain muncul: “perancah.” Para peneliti tidak mengandalkan LLM tunggal, melainkan mengatur beberapa interaksi AI, menggunakannya untuk menginterogasi dan menyempurnakan pekerjaan satu sama lain. Proses berulang ini meningkatkan akurasi namun mengaburkan batas antara AI dan kontribusi manusia.
Matematika Abad ke-19: Masalah Gaya?
Bahkan ketika AI sampai pada bukti yang benar, ahli matematika melihat perbedaan dalam gaya. Solusi AI sering kali menyerupai metode abad ke-19 – melelahkan, tidak langsung, dan kurang elegan. Penemuan matematika yang sebenarnya melibatkan penciptaan konsep-konsep baru yang menyederhanakan pemahaman, sebuah proses yang belum dikuasai oleh AI. Namun, beberapa bukti yang dihasilkan oleh AI telah mengejutkan para peneliti dengan kreativitas mereka, dan menunjukkan adanya potensi terobosan sejati.
Masa Depan AI dalam Matematika
Tim First Proof berencana untuk melanjutkan tantangan ini dengan kontrol yang lebih ketat, memberikan wawasan yang lebih jelas mengenai kemampuan AI. Tujuannya bukan untuk menggantikan ahli matematika, namun untuk memahami apakah AI merupakan alat yang ampuh atau kekuatan revolusioner. Jika AI dapat secara konsisten menghasilkan bukti yang orisinal dan elegan, AI dapat mengubah bidang tersebut. Untuk saat ini, pertanyaannya masih terbuka. Pengujian selanjutnya akan mengungkap apakah AI benar-benar dapat memajukan matematika atau sekadar mempercepat metode yang sudah ada.
