العلامة التي استبعدناها بالتدريب

يخشى معظم الناس ألا يدرك الذكاء الاصطناعي متى يكون مخطئًا. ويقلقون من أن يقوم النموذج باختراع قضية قانونية أو جرعة طبية بكل ثقة. يعتقدون أن الآلة تفتقر إلى الإحساس بجهلها.

الواقع مختلف. فالنماذج تعرف عادةً، لكننا دربناها على إخفاء ذلك.

تُظهر الأبحاث نمطًا واضحًا. فقد ذكرت OpenAI أن النماذج الأساسية (base models) تتمتع بمعايرة جيدة. فإذا خصص النموذج الأساسي احتمالية بنسبة 70% لإجابة ما، فإنه يكون محقًا بنسبة 70% من الوقت. إنه يعرف حدوده.

تبدأ المشكلة أثناء تدريب المحاذاة (alignment training). هذه هي العملية التي تحول متنبئ النصوص إلى روبوت دردشة مفيد، وهذا التدريب يفسد المعايرة.

يحمل النموذج الخام عدم يقين صادقًا في حساباته الرياضية. لكن تدريب المحاذاة يغير طريقة حديث النموذج، مما يخلق فجوة بين شيئين:

  • الاعتقاد: الحسابات والاحتمالات الداخلية.
  • الأداء: الطريقة التي يبدو بها صوت النموذج عند التحدث.

يسكن الاعتقاد في الأرقام، أما الأداء فهو أسلوب مُكتسب ليبدو النموذج موثوقًا.

لماذا يحدث هذا؟ نحن نستخدم التعليقات البشرية لتدريب هذه النماذج. ويميل البشر إلى مكافأة الإجابات التي تبدو واثقة من نفسها. لذا يتعلم نموذج المكافأة (reward model) إعطاء درجات أعلى للاستجابات الواثقة؛ فحتى لو كانت الاستجابة خاطئة، فإن النبرة الواثقة تجني نقاطًا أكثر.

تجد عملية التحسين (Optimization) هذا النمط، فيتعلم النموذج أن التحوط أو الاعتراف بالشك يكلفه المكافآت، لذا يختار إظهار اليقين للحصول على درجة أفضل.

الثقة المفرطة هي أثر جانبي للعلاج. فالتدريب يجعل النموذج أكثر أمانًا وأسهل في التعامل معه، لكنه يجبره أيضًا على إخفاء شكه.

وهذا يغير طريقة إصلاحنا للمشكلة. فنحن لسنا بحاجة لمنح النماذج حاسة بصر جديدة، فالرؤية موجودة بالفعل في الحسابات الرياضية. كل ما نحتاجه هو التوقف عن مكافأة الأسلوب الواثق الذي لم يستحق تلك الثقة.

عندما تقرأ إجابة واثقة من ذكاء اصطناعي، تذكر شيئًا واحدًا: تلك الثقة هي مجرد أسلوب في التحدث. فخلف الكلمات، من المرجح أن رقمًا ما كان يعرف الحقيقة بشكل أفضل، لكننا علمنا النموذج ببساطة أن يحتفظ بذلك الرقم لنفسه.

المصدر: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi