MA-ProofBench: GPT-5.5 يحقق 16% في التحليل الرياضي
تواجه نماذج الذكاء الاصطناعي الحالية صعوبة في الرياضيات المتقدمة.
يختبر معيار تقييم جديد يُدعى MA-ProofBench إثبات النظريات في التحليل الرياضي. وتظهر النتائج فجوة هائلة في مهارات الاستدلال.
تصدر GPT-5.5 الاختبارات بهذه النتائج:
- 16% في مسائل مرحلة البكالوريوس (المستوى الأول).
- 5% في مسائل بمستوى الدكتوراه (المستوى الثاني).
سجلت معظم النماذج الأخرى ما يقرب من 0% في مسائل مستوى الدكتوراه.
يتضمن معيار التقييم 200 نظرية موزعة على 6 مواضيع، تشمل نظرية القياس والتحليل المركب.
وجد الباحثون سببين رئيسيين لفشل النماذج:
- هلوسات Mathlib: تكتب النماذج كود Lean يبدو صحيحاً ولكنه يستخدم أدوات غير موجودة.
- براهين غير مكتملة: تبدأ النماذج البرهان بشكل صحيح ولكنها تفشل في الوصول إلى النهاية.
هناك أيضاً فجوة بين الاستدلال غير الرسمي والاستدلال الرسمي؛ حيث تؤدي النماذج بشكل أفضل عندما تستخدم اللغة الطبيعية بدلاً من الكود الصارم.
تُظهر الدرجات المنخفضة في رياضيات مستوى الدكتوراه وجود سقف لقدرات الذكاء الاصطناعي الحالي. تفتقر النماذج الرائدة اليوم إلى العمق اللازم لتقديم براهين رسمية دقيقة في التحليل.
سيتتبع معيار التقييم هذا ما إذا كانت النماذج المستقبلية من OpenAI أو Anthropic ستتمكن من تجاوز حاجز الـ 20% في المسائل الأكثر صعوبة.
المصدر: https://arxiv.org
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi