𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗿𝗮𝗴𝗴𝗶𝘂𝗻𝗴𝗲 𝗶𝗹 𝟭𝟲% 𝗻𝗲𝗹𝗹'𝗮𝗻𝗮𝗹𝗶𝘀𝗶 𝗺𝗮𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲

Gli attuali modelli di IA faticano con la matematica avanzata.

Un nuovo benchmark chiamato MA-ProofBench testa la dimostrazione di teoremi nell'analisi matematica. I risultati mostrano un enorme divario nelle capacità di ragionamento.

GPT-5.5 ha guidato i test con questi punteggi:

La maggior parte degli altri modelli ha ottenuto punteggi vicini allo 0% sui problemi di livello dottorato.

Il benchmark include 200 teoremi suddivisi in 6 argomenti. Questi argomenti includono la teoria della misura e l'analisi complessa.

I ricercatori hanno individuato due ragioni principali per cui i modelli falliscono:

Esiste anche un divario tra ragionamento informale e formale. I modelli ottengono prestazioni migliori quando utilizzano il linguaggio naturale invece di un codice rigoroso.

I bassi punteggi nella matematica di livello dottorato mostrano un limite per l'IA attuale. Gli odierni modelli all'avanguardia mancano della profondità necessaria per dimostrazioni formali rigorose nell'analisi.

Questo benchmark monitorerà se i futuri modelli di OpenAI o Anthropic riusciranno a superare la soglia del 20% su problemi più difficili.

Fonte: https://arxiv.org

Community di apprendimento opzionale: https://t.me/GyaanSetuAi