MA-ProofBench: गणितीय विश्लेषण में GPT-5.5 ने हासिल किए 16%

वर्तमान AI मॉडल उन्नत गणित (advanced math) के साथ संघर्ष कर रहे हैं।

MA-ProofBench नामक एक नया बेंचमार्क गणितीय विश्लेषण (mathematical analysis) में प्रमेय सिद्ध करने (theorem proving) का परीक्षण करता है। परिणाम तर्क कौशल (reasoning skills) में एक बड़ा अंतर दिखाते हैं।

GPT-5.5 इन स्कोर के साथ परीक्षणों में सबसे आगे रहा:

अधिकांश अन्य मॉडलों ने PhD-स्तर की समस्याओं पर लगभग 0% स्कोर किया।

इस बेंचमार्क में 6 विषयों के अंतर्गत 200 प्रमेय (theorems) शामिल हैं। इन विषयों में मेजर थ्योरी (measure theory) और कॉम्प्लेक्स एनालिसिस (complex analysis) शामिल हैं।

शोधकर्ताओं ने पाया कि मॉडल के विफल होने के दो मुख्य कारण हैं:

अनौपचारिक (informal) और औपचारिक (formal) तर्क के बीच भी एक अंतर है। मॉडल तब बेहतर प्रदर्शन करते हैं जब वे सख्त कोड के बजाय प्राकृतिक भाषा (natural language) का उपयोग करते हैं।

PhD-स्तर के गणित पर कम स्कोर वर्तमान AI की सीमाओं को दर्शाता है। आज के अत्याधुनिक (frontier) मॉडलों में विश्लेषण में कठोर औपचारिक प्रमाणों (rigorous formal proofs) के लिए गहराई की कमी है।

यह बेंचमार्क इस बात पर नज़र रखेगा कि क्या OpenAI या Anthropic के भविष्य के मॉडल कठिन समस्याओं पर 20% के आंकड़े को पार कर पाते हैं या नहीं।

स्रोत: https://arxiv.org

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi