لماذا تهم التغذية الراجعة المهيكلة في تدريب الذكاء الاصطناعي
يتجه الباحثون بعيداً عن الدرجات البسيطة لتدريب الذكاء الاصطناعي، حيث يستخدمون الآن إشارات أكثر ثراءً.
تُظهر ورقة بحثية جديدة بعنوان Rethinking Reward Supervision سبب أهمية هذا التحول. تضغط معظم طرق التدريب البيانات في رقم واحد؛ فالدرجة الواحدة تخبرك ما إذا كانت الإجابة جيدة أم سيئة، لكنها لا تخبرك بالسبب.
للطرق الحالية حدود:
- تعتمد عملية التقطير الخاضعة للإشراف (Supervised distillation) على أمثلة تسلسل الأفكار (chain-of-thought). هذه الأمثلة مكلفة وغالباً ما تكون غير مثالية؛ فإذا قام النموذج بتقليد تفسير معيب، فإنه سيتعلم الشيء الخاطئ.
- يستخدم التعلم التعزيزي (Reinforcement learning) المكافآت، والمكافأة تعطي رقماً واحداً فقط، مما يجعل عملية "تخصيص الائتمان" (credit assignment) صعبة. فالنموذج يعرف النتيجة ولكنه لا يعرف أي خطوة محددة هي التي فشلت.
تحل نماذج التقييم (Rubrics) هذه المشكلة، فهي تقع في منطقة وسطى بين الدرجة البسيطة والتفسير الكامل.
تعمل هذه العملية على مرحلتين:
- يقوم النظام بإنشاء نماذج تقييم خاصة بالمهمة. ففي العلوم مثلاً، يعني هذا التحقق من الوحدات أو الافتراضات.
- يستخدم النموذج المعلم (teacher model) هذه النماذج لتوجيه النموذج الطالب (student model)، مما يوفر توجيهاً على مستوى الرموز (token-level guidance). حيث يخبر نموذج التقييم النموذجَ بمكان ضعف التبرير بالضبط.
يوفر هذا النهج ثلاث فوائد:
- تخصيص ائتمان أفضل: يتعلم النموذج من أخطاء محددة بدلاً من التخلص من المحاولة بأكملها.
- إشراف قابل لإعادة الاستخدام: يمكن لنموذج تقييم واحد أن يوجه العديد من الإجابات المختلفة.
- توسع أفضل: تتعامل نماذج التقييم مع المهام المعقدة ذات الخطوات المتعددة بشكل أفضل من ملصقات "النجاح" أو "الفشل" الثنائية.
تُظهر الورقة البحثية أن هذه الطريقة تتفوق على النماذج الحالية مثل GRPO و OPSD في مهام الاستدلال العلمي.
الدرس واضح: إذا كانت المهمة ذات هيكل محدد، فحافظ على هذا الهيكل في حلقة التدريب الخاصة بك. لا تقم بتسطيح بياناتك وتحويلها إلى رقم واحد في وقت مبكر جداً.
سواء كنت تستخدم نماذج التقييم (rubrics)، أو التخطيط القائم على عدم اليقين، أو التفسيرات البرمجية، فإن الهدف واحد: تحويل السلوك الخفي إلى إشارات صريحة.
إذا كنت تبني أنظمة استدلال، فقم بترميز نماذج التقييم الخاصة بك مباشرة، ولا تعتمد فقط على الدرجة النهائية.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi