لا يمكن للوكيل تقييم عمله بنفسه

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialقبل 6 أيام2دقيقة قراءة

لا ينبغي لأي وكيل تقييم عمله بنفسه

تطلب من Claude مراجعة الكود الخاص بك، فيقول إن الكود يبدو نظيفاً. وبالطبع سيفعل، فقد كتب هذا الكود قبل خمس دقائق فقط. لقد طلبت من المؤلف تقييم ورقة بحثه بنفسه، فأعطى نفسه درجة امتياز.

مراجعات الكود بواسطة الذكاء الاصطناعي فعالة، لكنها تفشل عندما تطلب من المؤلف مراجعة عمله الخاص. الجودة تأتي من بنية لا تسمح لأي دور بالتحقق من عمله ذاتياً.

تُظهر أبحاث من عام 2024 وجود انحياز للتفضيل الذاتي؛ حيث يقوم النموذج بتقييم مخرجاته الخاصة بدرجة أعلى من مخرجات أخرى بنفس الجودة. فالنموذج يتعرف على أسلوبه الخاص ويفضله.

إن حلقة "اكتب، ثم راجع ما كتبته للتو" هي حلقة مكسورة. فأنت لا تحصل على مراجعة، بل تحصل على تبرير. لقد قرر الوكيل بالفعل أن الكود جيد، والسؤال مرة أخرى لا يؤدي إلا إلى تأكيد ذلك القرار.

اتبع هذه القواعد لبناء سير عمل أفضل للوكلاء:

لا يكون المراجع هو المؤلف أبداً. استخدم عائلة نماذج مختلفة للمراجع لكسر التعرف على الأسلوب.
استخدم سياقاً نظيفاً. يجب ألا يرى المراجع أمر التنفيذ الأصلي أو القيود التي وضعها المؤلف.
أزل الهوية. لا تخبر المراجع بمن كتب الكود، فـهوية المؤلف تثير الانحياز.
تجنب الإفراط في رصد الأخطاء. غالباً ما يبتكر المراجعون الآليون مشكلات ليبدوا مفيدين، مما يجعلك تتوقف عن الاستماع إليهم.

استخدم "قاعدة الإثبات" (receipt rule) لوقف الإنذارات الكاذبة. يجب أن يتضمن كل اكتشاف دليلاً قبل أن تراه.

إذا ادعى المراجع وجود خطر SQL injection، فيجب عليه تقديم:

عملية grep لمدخلات المستخدم.
تتبع لمسار الاستعلام.

إذا كانت القيمة ثابتة، فاستبعد هذا الاكتشاف. أما إذا كانت قادمة من طلب HTTP، فاحتفظ به. الإثبات يأتي قبل الحكم.

بالنسبة للاكتشافات الحرجة، استخدم لجنة من المتشككين. مهمتهم ليست تأكيد وجود الخطأ، بل دحضه. يجب عليهم محاولة إثبات سبب عدم كون الاكتشاف خطأً برمجياً. وإذا لم تتمكن الأغلبية من تفنيد الاكتشاف، عندها فقط يتم قبوله.

الحقيقة تأتي من التناقض، وليس من الإعلان الذاتي.

ابنِ نظاماً لا تتداخل فيه الأدوار أبداً:

الكاتب يكتب الكود.
المختبر يكتب الاختبارات بناءً على المواصفات فقط.
المراجع لم يكتب الكود.
يجب اجتياز البوابات الموضوعية مثل linting والاختبارات قبل أن ينظر إليه أي إنسان أو نموذج لغوي كبير (LLM).

المصحح الذي يصحح نفسه لا يصحح شيئاً. تعتمد جودة مراجعة الذكاء الاصطناعي على عدد المرات التي تمنعه فيها من تقييم نفسه.

Source: https://dev.to/ohugonnot/no-agent-grades-its-own-homework-8lb

Optional learning community: https://t.me/GyaanSetuAi

لا يمكن للوكيل تقييم عمله بنفسه

لا ينبغي لأي وكيل تقييم عمله بنفسه

متابعة القراءة

وكيل البرمجة بالذكاء الاصطناعي الخاص بي كان يتعطل باستمرار — ما الذي قمت بتغييره

لا أحد يراجع طلبات السحب (PRs) الخاصة بروبوتك