لماذا يفشل وكلاء البرمجة بالذكاء الاصطناعي: الفجوة الحرجة بين الملفات والأسطر
في حين تزداد قدرة وكلاء البرمجة بالذكاء الاصطناعي على حل أخطاء البرمجيات، كشفت دراسة جديدة أنهم يعانون من مشكلة "تحديد الموقع" (localization) كبيرة. يمكن لهؤلاء الوكلاء الانتقال إلى الملف الصحيح ضمن قاعدة كود ضخمة، لكنهم يفشلون بشكل متكرر في تحديد أسطر الكود المحددة المطلوبة لتنفيذ الإصلاح.
تقديم SWE-Explore: تجاوز معدلات الإصلاح
تاريخيًا، تم قياس فعالية وكلاء البرمجة بالذكاء الاصطناعي من خلال مقياس ثنائي واحد: هل قام الوكيل بإصلاح الخطأ أم لا؟ يتجاهل هذا النهج "السبب" وراء الفشل. فقد يعني الإصلاح الفاشل أن الوكيل كتب رقعة برمجية (patch) سيئة، أو قد يعني أن الوكيل لم ينظر حتى إلى المنطق البرمجي ذي الصلة.
ولمعالجة هذه النقطة العمياء، طور فريق بحثي دولي، يضم علماء من جامعة Shanghai Jiao Tong، نظام SWE-Explore. وعلى عكس المعايير المرجعية التقليدية، يقوم SWE-Explore بعزل مرحلة البحث الأولية. فهو يقيم قدرة الوكيل على أخذ وصف للخطأ وإرجاع قائمة مرتبة بأقسام الكود المحددة ذات الصلة الفعلية بالمشكلة. وتعد مجموعة البيانات واسعة النطاق، حيث تستمد من 848 مهمة عبر 203 مشاريع مفتوحة المصدر وعشر لغات برمجة، مع كون Python هي الأكثر بروزًا (547 مهمة).
فجوة الدقة: النجاح على مستوى الملف مقابل الفشل على مستوى السطر
إن النتيجة الأكثر إثارة للدهشة في الدراسة هي التفاوت الهائل بين الدقة على مستوى الملف والدقة على مستوى السطر. فعند اختبار وكلاء الأغراض العامة مثل Claude Code و Codex و OpenHands، كانت النتائج دالة:
- الدقة على مستوى الملف: يؤدي الوكلاء أداءً جيدًا، حيث ينجحون في تحديد ملفات المصدر الصحيحة وترتيبها في مرتبة عالية.
- الدقة على مستوى السطر: ينهار الأداء. حيث غطى وكلاء البرمجة العامون ما بين 14% إلى 19% فقط من أسطر الكود الفعلية المهمة للإصلاح.
ومن المثير للاهتمام أن مجرد ترقية النموذج اللغوي الكبير (LLM) الأساسي لا يحل هذه المشكلة. وسواء تم استخدام نماذج من OpenAI أو Anthropic أو Google أو Moonshot أو Zhipu، يظل النمط متطابقًا: معدلات إصابة عالية للملفات ولكن تغطية ضئيلة للأسطر. وأشار البحث إلى أن الأنظمة المتخصصة مثل CoSIL تفوقت على الوكلاء العامين من خلال التعامل مع الكود كشبكة من اللبنات البرمجية المترابطة، مما يشير إلى أن التغييرات الهيكلية أكثر أهمية من قوة النموذج الخام.
تأثير العتبة: لماذا تهم "القراءة الأكثر"
من خلال تجارب الاستئصال المنضبطة، اكتشف الباحثون "تأثير العتبة" فيما يتعلق بالسياق. فمن خلال تغيير كمية الكود الأساسي المقدمة للنموذج (من 0% إلى 100%)، وجدوا أن عمليات الإصلاح لا تتحسن بشكل خطي.
بالنسبة للمهام الأسهل، هناك نقطة تحول واضحة: إذا رأى الوكيل أقل من 50% من المناطق الأساسية الضرورية، فإن معدل نجاح الإصلاح يظل قريباً من الصفر. ولا تحدث قفزة كبيرة في الإصلاحات الناجحة إلا بمجرد وصول الوكيل إلى ما بين 50% و75% من السياق المطلوب. والأهم من ذلك، وجدت الدراسة أن تقديم كود "ضوضاء" غير ذي صلة لا يضر بالأداء بقدر ما يفعل فقدان الأسطر الحرجة. الخلاصة للمطورين واضحة: في عصر وكلاء الذكاء الاصطناعي، من الأفضل توفير سياق أكبر بدلاً من المخاطرة بتصفية التفاصيل الأساسية.
أهم النتائج المستخلصة
- تحديد الموقع هو عنق الزجاجة: يتمتع وكلاء الذكاء الاصطناعي بالكفاءة في العثور على الملف الصحيح، لكنهم يواجهون صعوبة كبيرة في تحديد أسطر الكود المحددة المطلوبة للإصلاح.
- توسيع نطاق النموذج ليس حلاً سحرياً: إن الترقية إلى نماذج لغات كبيرة (LLMs) أكثر قوة لا تعالج فجوة الدقة على مستوى السطر؛ بل إن النهج المعمارية المتخصصة مثل CoSIL هي الأكثر فعالية.
- قاعدة السياق بنسبة 50%: يتبع نجاح إصلاح الذكاء الاصطناعي نمط العتبة، حيث يتطلب ظهور ما لا يقل عن 50-75% من سياق الكود ذي الصلة قبل أن تصبح الإصلاحات الناجحة محتملة.