𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗵𝗮𝗹𝗹𝘁 𝟭𝟲% 𝗼𝗽 𝗺𝗮𝘁𝗵𝗲𝗺𝗮𝘁𝗶𝘀𝗰𝗵𝗲 𝗮𝗻𝗮𝗹𝘆𝘀𝗲

Huidige AI-modellen hebben moeite met geavanceerde wiskunde.

Een nieuwe benchmark genaamd MA-ProofBench test het bewijzen van stellingen in de wiskundige analyse. De resultaten laten een enorme kloof zien in redeneervaardigheden.

GPT-5.5 voerde de tests aan met deze scores:

16% op bachelorproblemen (Niveau I).
5% op problemen op PhD-niveau (Niveau II).

De meeste andere modellen scoorden bijna 0% op problemen op PhD-niveau.

De benchmark bevat 200 stellingen verdeeld over 6 onderwerpen. Deze onderwerpen omvatten maattheorie en complexe analyse.

Onderzoekers vonden twee belangrijke redenen waarom modellen falen:

Mathlib-hallucinaties: Modellen schrijven Lean-code die er juist uitziet, maar niet-bestaande tools gebruikt.
Onvolledige bewijzen: Modellen beginnen een bewijs correct, maar slagen er niet in het einde te bereiken.

Er is ook een kloof tussen informeel en formeel redeneren. Modellen presteren beter wanneer ze natuurlijke taal gebruiken in plaats van strikte code.

De lage scores op wiskunde op PhD-niveau laten een plafond zien voor de huidige AI. De huidige toonaangevende modellen missen de diepgang voor rigoureuze formele bewijzen in de analyse.

Deze benchmark zal bijhouden of toekomstige modellen van OpenAI of Anthropic de grens van 20% op moeilijkere problemen kunnen overschrijden.

Bron: https://arxiv.org

Optionele leercommunity: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

AI-redeneren als een evenwichtspunt

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜