Umělá inteligence zatím není schopna nahradit lidské matematiky, podle výsledků First Proof Test, přísného testu určeného k hodnocení schopnosti velkých jazykových modelů (LLM) produkovat originální matematický výzkum. Tato výzva byla odhalena na Valentýna a zahrnovala deset náročných „lemat“ (malých teorémů), problémů, které se obvykle přidělují nadaným postgraduálním studentům. Výsledek? Žádná LLM nevyřešila všech deset problémů nezávisle.
Test a jeho účel
Iniciativa First Test-Proof, vedená jedenácti předními matematiky, si kladla za cíl posunout AI nad rámec pouhé replikace existujících technik. Problémy byly navrženy tak, aby vyžadovaly skutečnou originalitu, což LLM přimělo syntetizovat nová řešení, spíše než jednoduše rozmixovat známá. Tento test zdůrazňuje kritickou realitu: I když umělá inteligence vyniká v rozpoznávání vzorů a drcení dat, stále bojuje s kreativitou a abstraktním myšlením, které jsou hnacím motorem matematických průlomů.
Neočekávaný zájem vývojářů AI
Zkouška nečekaně přitáhla významnou pozornost společností zabývajících se umělou inteligencí, jako je OpenAI, které věnovaly značné prostředky na řešení problémů. Muhammad Abuzaid ze Stanfordské univerzity, člen týmu First Proof Test, řekl: „Nečekali jsme, že to společnosti AI budou brát tak vážně a vynaloží na to tolik úsilí.“ To zdůrazňuje rostoucí konkurenci v průmyslu AI při vývoji modelů schopných skutečného matematického uvažování.
Výsledky: Důvěra se nerovná korektnosti
Tým First Proof Test oznámil, že LLM s jistotou předložily důkazy pro všech deset problémů, ale pouze dva byly shledány jako správné. Jeden z těchto důkazů již byl zdokumentován a druhý je částečně založen na archivním náčrtu slavného matematika. Mnohá z předložených řešení byla navíc přesvědčivá, ale nakonec nesprávná, což zdůrazňovalo obtížnost rozlišování mezi skutečným vhledem a věrohodností generovanou AI.
Pohled na „styl“ matematického myšlení umělé inteligence
Je zajímavé, že správná řešení generovaná umělou inteligencí vykazovala podle Abouzaida zřetelně matematický přístup 19. století. To naznačuje, že zatímco umělá inteligence může napodobovat zavedené metody, musí se ještě vyvinout směrem k pokročilým technikám, které definují moderní matematiku.
Budoucnost umělé inteligence v matematice
Experiment First Test of Evidence není jen o neúspěchu. Toto je příležitost k učení. Tým plánuje druhé kolo s přísnějšími pravidly, což signalizuje odhodlání zlepšovat metodiku a dále rozvíjet AI. Navzdory současným omezením rychlý pokrok ve schopnostech LLM naznačuje, že umělá inteligence bude i nadále hrát stále důležitější roli v matematickém výzkumu. Někteří matematici se domnívají, že nástroje umělé inteligence jsou již připraveny změnit pole, jak poznamenal Scott Armstrong ze Sorbonny: „Tyto nástroje přicházejí, aby změnily matematiku, a právě teď k nim dochází.“
Test First Proof Test potvrzuje klíčový bod: I když umělá inteligence může urychlit určité aspekty matematické práce, dosud nedosáhla nezávislého, kreativního myšlení potřebného k nahrazení lidských matematiků.
