𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗿𝗮𝗴𝗴𝗶𝘂𝗻𝗴𝗲 𝗶𝗹 𝟭𝟲% 𝗻𝗲𝗹𝗹'𝗮𝗻𝗮𝗹𝗶𝘀𝗶 𝗺𝗮𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲
Gli attuali modelli di IA faticano con la matematica avanzata.
Un nuovo benchmark chiamato MA-ProofBench testa la dimostrazione di teoremi nell'analisi matematica. I risultati mostrano un enorme divario nelle capacità di ragionamento.
GPT-5.5 ha guidato i test con questi punteggi:
- 16% sui problemi universitari (Livello I).
- 5% sui problemi di livello dottorato (Livello II).
La maggior parte degli altri modelli ha ottenuto punteggi vicini allo 0% sui problemi di livello dottorato.
Il benchmark include 200 teoremi suddivisi in 6 argomenti. Questi argomenti includono la teoria della misura e l'analisi complessa.
I ricercatori hanno individuato due ragioni principali per cui i modelli falliscono:
- Allucinazioni di Mathlib: i modelli scrivono codice Lean che sembra corretto ma utilizza strumenti inesistenti.
- Dimostrazioni incomplete: i modelli iniziano una dimostrazione correttamente ma non riescono a portarla a termine.
Esiste anche un divario tra ragionamento informale e formale. I modelli ottengono prestazioni migliori quando utilizzano il linguaggio naturale invece di un codice rigoroso.
I bassi punteggi nella matematica di livello dottorato mostrano un limite per l'IA attuale. Gli odierni modelli all'avanguardia mancano della profondità necessaria per dimostrazioni formali rigorose nell'analisi.
Questo benchmark monitorerà se i futuri modelli di OpenAI o Anthropic riusciranno a superare la soglia del 20% su problemi più difficili.
Fonte: https://arxiv.org
Community di apprendimento opzionale: https://t.me/GyaanSetuAi