𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗵𝗮𝗹𝗹𝘁 𝟭𝟲% 𝗼𝗽 𝗺𝗮𝘁𝗵𝗲𝗺𝗮𝘁𝗶𝘀𝗰𝗵𝗲 𝗮𝗻𝗮𝗹𝘆𝘀𝗲

Huidige AI-modellen hebben moeite met geavanceerde wiskunde.

Een nieuwe benchmark genaamd MA-ProofBench test het bewijzen van stellingen in de wiskundige analyse. De resultaten laten een enorme kloof zien in redeneervaardigheden.

GPT-5.5 voerde de tests aan met deze scores:

De meeste andere modellen scoorden bijna 0% op problemen op PhD-niveau.

De benchmark bevat 200 stellingen verdeeld over 6 onderwerpen. Deze onderwerpen omvatten maattheorie en complexe analyse.

Onderzoekers vonden twee belangrijke redenen waarom modellen falen:

Er is ook een kloof tussen informeel en formeel redeneren. Modellen presteren beter wanneer ze natuurlijke taal gebruiken in plaats van strikte code.

De lage scores op wiskunde op PhD-niveau laten een plafond zien voor de huidige AI. De huidige toonaangevende modellen missen de diepgang voor rigoureuze formele bewijzen in de analyse.

Deze benchmark zal bijhouden of toekomstige modellen van OpenAI of Anthropic de grens van 20% op moeilijkere problemen kunnen overschrijden.

Bron: https://arxiv.org

Optionele leercommunity: https://t.me/GyaanSetuAi