MA-ProofBench: GPT-5.5 يحقق 16% في التحليل الرياضي

تواجه نماذج الذكاء الاصطناعي الحالية صعوبة في الرياضيات المتقدمة.

يختبر معيار تقييم جديد يُدعى MA-ProofBench إثبات النظريات في التحليل الرياضي. وتظهر النتائج فجوة هائلة في مهارات الاستدلال.

تصدر GPT-5.5 الاختبارات بهذه النتائج:

سجلت معظم النماذج الأخرى ما يقرب من 0% في مسائل مستوى الدكتوراه.

يتضمن معيار التقييم 200 نظرية موزعة على 6 مواضيع، تشمل نظرية القياس والتحليل المركب.

وجد الباحثون سببين رئيسيين لفشل النماذج:

هناك أيضاً فجوة بين الاستدلال غير الرسمي والاستدلال الرسمي؛ حيث تؤدي النماذج بشكل أفضل عندما تستخدم اللغة الطبيعية بدلاً من الكود الصارم.

تُظهر الدرجات المنخفضة في رياضيات مستوى الدكتوراه وجود سقف لقدرات الذكاء الاصطناعي الحالي. تفتقر النماذج الرائدة اليوم إلى العمق اللازم لتقديم براهين رسمية دقيقة في التحليل.

سيتتبع معيار التقييم هذا ما إذا كانت النماذج المستقبلية من OpenAI أو Anthropic ستتمكن من تجاوز حاجز الـ 20% في المسائل الأكثر صعوبة.

المصدر: https://arxiv.org

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi