MA-ProofBench: GPT-5.5 ने Math Analysis मध्ये १६% स्कोअर गाठला
सध्याचे AI मॉडेल्स प्रगत गणितामध्ये संघर्ष करत आहेत.
MA-ProofBench नावाचा एक नवीन बेंचमार्क गणितीय विश्लेषणातील (mathematical analysis) प्रमेयांची सिद्धता (theorem proving) तपासतो. निकाल तर्कशुद्धता कौशल्यांमध्ये (reasoning skills) मोठी तफावत दर्शवतात.
GPT-5.5 ने खालील स्कोअरसह चाचण्यांमध्ये आघाडी घेतली:
- पदवी स्तरावरील समस्यांवर (Level I) १६%.
- PhD स्तरावरील समस्यांवर (Level II) ५%.
इतर बहुतेक मॉडेल्सनी PhD स्तरावरील समस्यांवर ०% च्या जवळ स्कोअर मिळवला.
या बेंचमार्कमध्ये ६ विषयांवरील २०० प्रमेयांचा समावेश आहे. या विषयांमध्ये measure theory आणि complex analysis यांचा समावेश आहे.
संशोधकांना मॉडेल्स का अपयशी ठरतात याची दोन मुख्य कारणे आढळली:
- Mathlib hallucinations: मॉडेल्स असे Lean कोड लिहितात जे योग्य वाटतात परंतु त्यात अस्तित्वात नसलेल्या साधनांचा (tools) वापर केला जातो.
- अपूर्ण सिद्धता (Incomplete proofs): मॉडेल्स सिद्धता योग्यरित्या सुरू करतात परंतु शेवटपर्यंत पोहोचण्यात अपयशी ठरतात.
अनौपचारिक (informal) आणि औपचारिक (formal) तर्कशुद्धता यामध्ये देखील तफावत आहे. जेव्हा मॉडेल्स कडक कोडऐवजी नैसर्गिक भाषेचा वापर करतात, तेव्हा ते अधिक चांगली कामगिरी करतात.
PhD स्तरावरील गणितातील कमी स्कोअर सध्याच्या AI च्या मर्यादा दर्शवतात. आजच्या frontier मॉडेल्समध्ये विश्लेषणातील (analysis) कडक औपचारिक सिद्धतेसाठी आवश्यक सखोलतेचा अभाव आहे.
OpenAI किंवा Anthropic कडून येणारी भविष्यातील मॉडेल्स कठीण समस्यांवर २०% चा टप्पा ओलांडू शकतील का, याचा मागोवा हा बेंचमार्क घेईल.
स्रोत: https://arxiv.org
पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi