MA ProofBench: GPT 5.5 نے ریاضی کے تجزیے میں 16% کامیابی حاصل کی

📅3 hours ago⏱1 min read

𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 نے 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 میں 𝟭𝟲% اسکور کیا

موجودہ AI ماڈلز جدید ریاضی کے مسائل حل کرنے میں دشواری کا شکار ہیں۔

MA-ProofBench نامی ایک نیا بینچ مارک ریاضیاتی تجزیے (mathematical analysis) میں تھیورم ثابت کرنے کی صلاحیت کا امتحان لیتا ہے۔ نتائج سے استدلال کی مہارتوں (reasoning skills) میں ایک بڑا فرق ظاہر ہوتا ہے۔

GPT-5.5 نے ان اسکورز کے ساتھ ٹیسٹ میں برتری حاصل کی:

انڈر گریجویٹ مسائل پر 16% (لیول I)۔
پی ایچ ڈی لیول کے مسائل پر 5% (لیول II)۔

زیادہ تر دیگر ماڈلز نے پی ایچ ڈی لیول کے مسائل پر تقریباً 0% اسکور کیا۔

اس بینچ مارک میں 6 موضوعات پر مشتمل 200 تھیورمز شامل ہیں۔ ان موضوعات میں میژر تھیوری (measure theory) اور کمپلیکس اینالیسس (complex analysis) شامل ہیں۔

محققین نے ماڈلز کی ناکامی کی دو اہم وجوہات دریافت کیں:

Mathlib hallucinations: ماڈلز ایسا Lean کوڈ لکھتے ہیں جو دیکھنے میں درست لگتا ہے لیکن اس میں ایسے ٹولز استعمال کیے جاتے ہیں جن کا وجود ہی نہیں ہے۔
نامکمل ثبوت (Incomplete proofs): ماڈلز ثبوت کا آغاز تو درست طریقے سے کرتے ہیں لیکن اسے مکمل کرنے میں ناکام رہتے ہیں۔

غیر رسمی (informal) اور رسمی (formal) استدلال کے درمیان بھی ایک فرق ہے۔ ماڈلز سخت کوڈ کے بجائے قدرتی زبان (natural language) استعمال کرنے پر بہتر کارکردگی دکھاتے ہیں۔

پی ایچ ڈی لیول کی ریاضی میں کم اسکورز موجودہ AI کی حد (ceiling) کو ظاہر کرتے ہیں۔ آج کے جدید ترین (frontier) ماڈلز میں تجزیے (analysis) میں سخت رسمی ثبوت فراہم کرنے کے لیے گہرائی کی کمی ہے۔

یہ بینچ مارک اس بات کا جائزہ لے گا کہ آیا OpenAI یا Anthropic کے مستقبل کے ماڈلز مشکل مسائل پر 20% کی حد کو عبور کر سکتے ہیں یا نہیں۔

ماخذ: https://arxiv.org

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

MA ProofBench: GPT 5.5 نے ریاضی کے تجزیے میں 16% کامیابی حاصل کی

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

اے آئی ریژوننگ بطور توازن کا نقطہ

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

جب ایک ہاتھ سے لکھی ہوئی تھیسس 99 فیصد AI بن جائے