MA-ProofBench: गणितीय विश्लेषण में GPT-5.5 ने हासिल किए 16%
वर्तमान AI मॉडल उन्नत गणित (advanced math) के साथ संघर्ष कर रहे हैं।
MA-ProofBench नामक एक नया बेंचमार्क गणितीय विश्लेषण (mathematical analysis) में प्रमेय सिद्ध करने (theorem proving) का परीक्षण करता है। परिणाम तर्क कौशल (reasoning skills) में एक बड़ा अंतर दिखाते हैं।
GPT-5.5 इन स्कोर के साथ परीक्षणों में सबसे आगे रहा:
- स्नातक स्तर की समस्याओं (Level I) पर 16%।
- PhD-स्तर की समस्याओं (Level II) पर 5%।
अधिकांश अन्य मॉडलों ने PhD-स्तर की समस्याओं पर लगभग 0% स्कोर किया।
इस बेंचमार्क में 6 विषयों के अंतर्गत 200 प्रमेय (theorems) शामिल हैं। इन विषयों में मेजर थ्योरी (measure theory) और कॉम्प्लेक्स एनालिसिस (complex analysis) शामिल हैं।
शोधकर्ताओं ने पाया कि मॉडल के विफल होने के दो मुख्य कारण हैं:
- Mathlib मतिभ्रम (hallucinations): मॉडल ऐसा Lean कोड लिखते हैं जो सही दिखता है लेकिन उसमें ऐसे टूल्स का उपयोग किया जाता है जो अस्तित्व में ही नहीं हैं।
- अपूर्ण प्रमाण (Incomplete proofs): मॉडल प्रमाण को सही ढंग से शुरू करते हैं लेकिन अंत तक पहुँचने में विफल रहते हैं।
अनौपचारिक (informal) और औपचारिक (formal) तर्क के बीच भी एक अंतर है। मॉडल तब बेहतर प्रदर्शन करते हैं जब वे सख्त कोड के बजाय प्राकृतिक भाषा (natural language) का उपयोग करते हैं।
PhD-स्तर के गणित पर कम स्कोर वर्तमान AI की सीमाओं को दर्शाता है। आज के अत्याधुनिक (frontier) मॉडलों में विश्लेषण में कठोर औपचारिक प्रमाणों (rigorous formal proofs) के लिए गहराई की कमी है।
यह बेंचमार्क इस बात पर नज़र रखेगा कि क्या OpenAI या Anthropic के भविष्य के मॉडल कठिन समस्याओं पर 20% के आंकड़े को पार कर पाते हैं या नहीं।
स्रोत: https://arxiv.org
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi