𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 نے 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 میں 𝟭𝟲% اسکور کیا
موجودہ AI ماڈلز جدید ریاضی کے مسائل حل کرنے میں دشواری کا شکار ہیں۔
MA-ProofBench نامی ایک نیا بینچ مارک ریاضیاتی تجزیے (mathematical analysis) میں تھیورم ثابت کرنے کی صلاحیت کا امتحان لیتا ہے۔ نتائج سے استدلال کی مہارتوں (reasoning skills) میں ایک بڑا فرق ظاہر ہوتا ہے۔
GPT-5.5 نے ان اسکورز کے ساتھ ٹیسٹ میں برتری حاصل کی:
- انڈر گریجویٹ مسائل پر 16% (لیول I)۔
- پی ایچ ڈی لیول کے مسائل پر 5% (لیول II)۔
زیادہ تر دیگر ماڈلز نے پی ایچ ڈی لیول کے مسائل پر تقریباً 0% اسکور کیا۔
اس بینچ مارک میں 6 موضوعات پر مشتمل 200 تھیورمز شامل ہیں۔ ان موضوعات میں میژر تھیوری (measure theory) اور کمپلیکس اینالیسس (complex analysis) شامل ہیں۔
محققین نے ماڈلز کی ناکامی کی دو اہم وجوہات دریافت کیں:
- Mathlib hallucinations: ماڈلز ایسا Lean کوڈ لکھتے ہیں جو دیکھنے میں درست لگتا ہے لیکن اس میں ایسے ٹولز استعمال کیے جاتے ہیں جن کا وجود ہی نہیں ہے۔
- نامکمل ثبوت (Incomplete proofs): ماڈلز ثبوت کا آغاز تو درست طریقے سے کرتے ہیں لیکن اسے مکمل کرنے میں ناکام رہتے ہیں۔
غیر رسمی (informal) اور رسمی (formal) استدلال کے درمیان بھی ایک فرق ہے۔ ماڈلز سخت کوڈ کے بجائے قدرتی زبان (natural language) استعمال کرنے پر بہتر کارکردگی دکھاتے ہیں۔
پی ایچ ڈی لیول کی ریاضی میں کم اسکورز موجودہ AI کی حد (ceiling) کو ظاہر کرتے ہیں۔ آج کے جدید ترین (frontier) ماڈلز میں تجزیے (analysis) میں سخت رسمی ثبوت فراہم کرنے کے لیے گہرائی کی کمی ہے۔
یہ بینچ مارک اس بات کا جائزہ لے گا کہ آیا OpenAI یا Anthropic کے مستقبل کے ماڈلز مشکل مسائل پر 20% کی حد کو عبور کر سکتے ہیں یا نہیں۔
ماخذ: https://arxiv.org
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi