MA-ProofBench: GPT-5.5 ने Math Analysis मध्ये १६% स्कोअर गाठला

सध्याचे AI मॉडेल्स प्रगत गणितामध्ये संघर्ष करत आहेत.

MA-ProofBench नावाचा एक नवीन बेंचमार्क गणितीय विश्लेषणातील (mathematical analysis) प्रमेयांची सिद्धता (theorem proving) तपासतो. निकाल तर्कशुद्धता कौशल्यांमध्ये (reasoning skills) मोठी तफावत दर्शवतात.

GPT-5.5 ने खालील स्कोअरसह चाचण्यांमध्ये आघाडी घेतली:

इतर बहुतेक मॉडेल्सनी PhD स्तरावरील समस्यांवर ०% च्या जवळ स्कोअर मिळवला.

या बेंचमार्कमध्ये ६ विषयांवरील २०० प्रमेयांचा समावेश आहे. या विषयांमध्ये measure theory आणि complex analysis यांचा समावेश आहे.

संशोधकांना मॉडेल्स का अपयशी ठरतात याची दोन मुख्य कारणे आढळली:

अनौपचारिक (informal) आणि औपचारिक (formal) तर्कशुद्धता यामध्ये देखील तफावत आहे. जेव्हा मॉडेल्स कडक कोडऐवजी नैसर्गिक भाषेचा वापर करतात, तेव्हा ते अधिक चांगली कामगिरी करतात.

PhD स्तरावरील गणितातील कमी स्कोअर सध्याच्या AI च्या मर्यादा दर्शवतात. आजच्या frontier मॉडेल्समध्ये विश्लेषणातील (analysis) कडक औपचारिक सिद्धतेसाठी आवश्यक सखोलतेचा अभाव आहे.

OpenAI किंवा Anthropic कडून येणारी भविष्यातील मॉडेल्स कठीण समस्यांवर २०% चा टप्पा ओलांडू शकतील का, याचा मागोवा हा बेंचमार्क घेईल.

स्रोत: https://arxiv.org

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi