𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 نے 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 میں 𝟭𝟲% اسکور کیا

موجودہ AI ماڈلز جدید ریاضی کے مسائل حل کرنے میں دشواری کا شکار ہیں۔

MA-ProofBench نامی ایک نیا بینچ مارک ریاضیاتی تجزیے (mathematical analysis) میں تھیورم ثابت کرنے کی صلاحیت کا امتحان لیتا ہے۔ نتائج سے استدلال کی مہارتوں (reasoning skills) میں ایک بڑا فرق ظاہر ہوتا ہے۔

GPT-5.5 نے ان اسکورز کے ساتھ ٹیسٹ میں برتری حاصل کی:

زیادہ تر دیگر ماڈلز نے پی ایچ ڈی لیول کے مسائل پر تقریباً 0% اسکور کیا۔

اس بینچ مارک میں 6 موضوعات پر مشتمل 200 تھیورمز شامل ہیں۔ ان موضوعات میں میژر تھیوری (measure theory) اور کمپلیکس اینالیسس (complex analysis) شامل ہیں۔

محققین نے ماڈلز کی ناکامی کی دو اہم وجوہات دریافت کیں:

غیر رسمی (informal) اور رسمی (formal) استدلال کے درمیان بھی ایک فرق ہے۔ ماڈلز سخت کوڈ کے بجائے قدرتی زبان (natural language) استعمال کرنے پر بہتر کارکردگی دکھاتے ہیں۔

پی ایچ ڈی لیول کی ریاضی میں کم اسکورز موجودہ AI کی حد (ceiling) کو ظاہر کرتے ہیں۔ آج کے جدید ترین (frontier) ماڈلز میں تجزیے (analysis) میں سخت رسمی ثبوت فراہم کرنے کے لیے گہرائی کی کمی ہے۔

یہ بینچ مارک اس بات کا جائزہ لے گا کہ آیا OpenAI یا Anthropic کے مستقبل کے ماڈلز مشکل مسائل پر 20% کی حد کو عبور کر سکتے ہیں یا نہیں۔

ماخذ: https://arxiv.org

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi