𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗿𝗮𝗴𝗴𝗶𝘂𝗻𝗴𝗲 𝗶𝗹 𝟭𝟲% 𝗻𝗲𝗹𝗹'𝗮𝗻𝗮𝗹𝗶𝘀𝗶 𝗺𝗮𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲

Gli attuali modelli di IA faticano con la matematica avanzata.

Un nuovo benchmark chiamato MA-ProofBench testa la dimostrazione di teoremi nell'analisi matematica. I risultati mostrano un enorme divario nelle capacità di ragionamento.

GPT-5.5 ha guidato i test con questi punteggi:

16% sui problemi universitari (Livello I).
5% sui problemi di livello dottorato (Livello II).

La maggior parte degli altri modelli ha ottenuto punteggi vicini allo 0% sui problemi di livello dottorato.

Il benchmark include 200 teoremi suddivisi in 6 argomenti. Questi argomenti includono la teoria della misura e l'analisi complessa.

I ricercatori hanno individuato due ragioni principali per cui i modelli falliscono:

Allucinazioni di Mathlib: i modelli scrivono codice Lean che sembra corretto ma utilizza strumenti inesistenti.
Dimostrazioni incomplete: i modelli iniziano una dimostrazione correttamente ma non riescono a portarla a termine.

Esiste anche un divario tra ragionamento informale e formale. I modelli ottengono prestazioni migliori quando utilizzano il linguaggio naturale invece di un codice rigoroso.

I bassi punteggi nella matematica di livello dottorato mostrano un limite per l'IA attuale. Gli odierni modelli all'avanguardia mancano della profondità necessaria per dimostrazioni formali rigorose nell'analisi.

Questo benchmark monitorerà se i futuri modelli di OpenAI o Anthropic riusciranno a superare la soglia del 20% su problemi più difficili.

Fonte: https://arxiv.org

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

Il ragionamento dell'IA come punto di equilibrio

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Quando una tesi manoscritta diventa al 99% AI