𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 يحقق 16% في التحليل الرياضي

تواجه نماذج الذكاء الاصطناعي الحالية صعوبة في الرياضيات المتقدمة.

يختبر معيار تقييم جديد يُدعى MA-ProofBench إثبات النظريات في التحليل الرياضي. وتظهر النتائج فجوة هائلة في مهارات الاستدلال.

تصدر GPT-5.5 الاختبارات بهذه النتائج:

16% في مسائل مرحلة البكالوريوس (المستوى الأول).
5% في مسائل بمستوى الدكتوراه (المستوى الثاني).

سجلت معظم النماذج الأخرى ما يقرب من 0% في مسائل مستوى الدكتوراه.

يتضمن معيار التقييم 200 نظرية موزعة على 6 مواضيع، تشمل نظرية القياس والتحليل المركب.

وجد الباحثون سببين رئيسيين لفشل النماذج:

هلوسات Mathlib: تكتب النماذج كود Lean يبدو صحيحاً ولكنه يستخدم أدوات غير موجودة.
براهين غير مكتملة: تبدأ النماذج البرهان بشكل صحيح ولكنها تفشل في الوصول إلى النهاية.

هناك أيضاً فجوة بين الاستدلال غير الرسمي والاستدلال الرسمي؛ حيث تؤدي النماذج بشكل أفضل عندما تستخدم اللغة الطبيعية بدلاً من الكود الصارم.

تُظهر الدرجات المنخفضة في رياضيات مستوى الدكتوراه وجود سقف لقدرات الذكاء الاصطناعي الحالي. تفتقر النماذج الرائدة اليوم إلى العمق اللازم لتقديم براهين رسمية دقيقة في التحليل.

سيتتبع معيار التقييم هذا ما إذا كانت النماذج المستقبلية من OpenAI أو Anthropic ستتمكن من تجاوز حاجز الـ 20% في المسائل الأكثر صعوبة.

المصدر: https://arxiv.org

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

استنتاج الذكاء الاصطناعي كنقطة توازن

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

عندما تتحول أطروحة مكتوبة بخط اليد إلى 99% ذكاء اصطناعي