نماذج الذكاء الاصطناعي تعمل دون توقف لمدة 19 يومًا في اختبار MirrorCode الجديد
يشهد مشهد هندسة البرمجيات المستقلة تحولاً من مجرد مقتطفات برمجية بسيطة إلى ماراثونات برمجة ضخمة تستمر لعدة أيام. ويكشف اختبار MirrorCode الجديد، المقدم من Epoch AI وMETR، أن نماذج الذكاء الاصطناعي باتت قادرة الآن على معالجة مهام إعادة التنفيذ المعقدة التي كانت تتطلب سابقاً أسابيع من العمل البشري.
تحدي الذكاء الاصطناعي باستخدام MirrorCode
يمثل MirrorCode تحولاً جذرياً عن اختبارات هندسة البرمجيات التقليدية التي تضع عادةً حداً أقصى لتكاليف الاستدلال (inference costs) يتراوح بين 1 إلى 10 دولارات فقط لكل مهمة. بدلاً من ذلك، يتطلب هذا الاختبار من نماذج الذكاء الاصطناعي إعادة تنفيذ برامج كاملة ومعقدة من الصفر — تتراوح من أدوات Unix والتشفير إلى المعلوماتية الحيوية وتسلسل البيانات — دون الوصول إلى الكود المصدري الأصلي. ولضمان التكافؤ الوظيفي الحقيقي، يجب أن يجتاز كل حل يتم إنشاؤه بواسطة الذكاء الاصطناعي اختبارات شاملة (end-to-end tests) مخفية لا يراها النموذج أبداً خلال مرحلة تطويره.
إن حجم هذه المهام غير مسبوق؛ حيث تطلبت إحدى المهام المحددة في الاختبار عمل نموذج ذكاء اصطناعي بشكل مستمر لمدة 19 يومًا دون أي تدخل بشري، مما أدى إلى تكلفة استدلال بلغت 2600 دولار لعملية تشغيل واحدة.
Claude Opus 4.7 يتصدر السباق
تسلط نتائج الاختبار الضوء على تسلسل هرمي واضح في النماذج الرائدة الحالية. فقد برز Claude Opus 4.7 كمتصدر بمعدل حل بلغ 56 بالمائة، متفوقاً بشكل كبير على GPT-5.5 الذي حقق 44 بالمائة، وGemini 3.1 Pro Preview الذي استقر عند 32 بالمائة.
تمثل النجاح البارز في مجموعة أدوات المعلوماتية الحيوية gotree. يتكون هذا البرنامج من حوالي 16,000 سطر من كود Go ويحتوي على أكثر من 40 أمراً متميزاً. وبينما قد يحتاج المهندس البشري عادةً ما بين أسبوعين إلى 17 أسبوعاً لإكمال مثل هذه المهمة، نجح Claude Opus 4.7 في إعادة تنفيذها في 14 ساعة فقط بتكلفة 251 دولاراً. وحتى في الحالات التي تفشل فيها النماذج في تحقيق إعادة تنفيذ مثالية بنسبة 100 بالمائة، فإنها تجتاز بشكل مذهل أكثر من 90 بالمائة من الاختبارات الوظيفية.
فجوة التعقيد ومخاطر الحفظ
على الرغم من هذه القفزات، تكشف نتائج MirrorCode عن "سقف تعقيد" واضح. فبينما تتعامل جميع النماذج المختبرة بموثوقية مع البرامج الصغيرة مثل uuid أو parseqsv ، لا يمتلك أي نموذج حالياً القدرة على حل فئة المهام "الكبيرة" بالكامل. لا تزال آفاق البرمجة بالذكاء الاصطناعي تعاني عند مواجهة البنى البرمجية الأكثر ضخامة وترابطاً.
كما تطرقت Epoch AI إلى مصدر قلق بالغ في تقييم النماذج اللغوية الكبيرة (LLM): تلوث البيانات (data contamination). وبما أن الاختبار يستخدم برامج مفتوحة المصدر، فهناك خطر من أن تكون النماذج قد حفظت الكود الأصلي بالفعل خلال مراحل تدريبها. وبينما تشير النتائج الأولية إلى أن الأداء لا يعتمد كلياً على الحفظ، يقر الباحثون بأنه لا يمكنهم استبعاد مساهمته تماماً في معدلات الحل الحالية.
لماذا يهم هذا صناعة الذكاء الاصطناعي
يشير MirrorCode إلى انتقال من "الذكاء الاصطناعي كمساعد طيار" (Copilot) إلى "الذكاء الاصطناعي كوكيل مستقل" (Autonomous Agent). ومن خلال إثبات قدرة النماذج على الحفاظ على التفكير عبر فترات تمتد لـ 19 يومًا والتعامل مع آلاف الأسطر من الكود، تقترب الصناعة من تطوير وكلاء قادرين على إدارة دورات حياة البرمجيات بالكامل. ومع تقلب تكاليف الاستدلال — حيث تبلغ تكلفة GPT-5.5 ثلاثة أضعاف سلفه بينما أصبح Claude Opus 4.7 أكثر كفاءة بثلاث مرات — ستصبح الجدوى الاقتصادية للهندسة المستقلة هي الآفاق العظيمة التالية.
النقاط الرئيسية
- مقياس جديد للتفكير: يدفع MirrorCode حدود الذكاء الاصطناعي من خلال السماح بميزانيات استدلال ضخمة، حيث تصل تكلفة المهام الفردية إلى 2600 دولار وتستمر لمدة 19 يومًا.
- Claude يتصدر الأداء: يتصدر Claude Opus 4.7 الاختبار حالياً بمعدل حل قدره 56%، مما يظهر قدرات نخبوية في إعادة تنفيذ مجموعات كود Go واسعة النطاق.
- لا تزال حواجز التعقيد قائمة: بينما يتم حل المهام صغيرة النطاق بموثوقية، لا يمكن لأي نموذج موجود حالياً حل المهام البرمجية الأكثر تعقيداً وضخامة بشكل كامل.
