تقييم جودة مخرجات النماذج اللغوية الكبيرة (LLM) في بيئة الإنتاج

في مارس 2023، حدد GPT-4 الأعداد الأولية بدقة بلغت 97.6%. وبحلول يونيو 2023، انخفضت دقة النموذج نفسه إلى 2.4%. لم يغير أحد الكود، ولم يغير أحد الأمر (prompt). ببساطة، تحرك النموذج.

هذه هي المشكلة الجوهرية مع النماذج اللغوية الكبيرة في بيئة الإنتاج. أنت لا تملك السيطرة على النموذج؛ فهو تبعية (dependency) معرضة للانحراف (drift). إذا لم تقم بقياسه، فسيخبرك مستخدموك أنه معطل.

لا يمكنك الاعتماد على "الانطباعات" أو قول "يبدو جيداً بالنسبة لي". أنت بحاجة إلى إشارات قابلة للتكرار.

البرمجيات التقليدية حتمية (deterministic)؛ نفس المدخلات تعطي نفس المخرجات. أما النماذج اللغوية الكبيرة فتكسر هذه القاعدة، فهي غير حتمية (non-deterministic) وغالباً ما تكون الإجابة "الصحيحة" غير محددة بدقة.

لإدارة ذلك، تحتاج إلى ثلاث طبقات من التقييم:

  • التقييمات غير المتصلة (Offline evals): تشغيل مجموعة اختبار ثابتة عند كل تغيير لاكتشاف أي تراجع في الأداء (regressions).
  • الفحوصات غير المعتمدة على مرجع (Reference-free checks): استخدام إشارات مثل اكتشاف الهلوسة (hallucination detection) عندما لا تملك إجابة "صحيحة".
  • مراقبة الإنتاج (Production monitoring): مراقبة حركة البيانات الحقيقية لرصد أي انحراف (drift) أو انخفاض في الجودة.

الأساس هو "مجموعة البيانات الذهبية" (Golden Dataset). لا تستخدم عينات عشوائية، بل استخدم مجموعة منسقة من الحالات الصعبة. استخدم المدخلات الفارغة، والحالات الحدية (edge cases) الغريبة، والأوامر العدائية (adversarial prompts). 80 مثالاً دقيقاً أفضل من 8,000 مثال عشوائي.

عند استخدام نموذج لغوي كبير كـ "حكم" (LLM as a judge)، انتبه لهذه التحيزات:

  • تحيز الموقع (Position bias): غالباً ما يفضل الحكام الإجابة الأولى التي يرونها. أصلح ذلك عن طريق إجراء المقارنات بكلا الترتيبين.
  • تحيز الإطناب (Verbosity bias): يكافئ الحكام الإجابات الأطول حتى لو كانت أقل وضوحاً.
  • تحيز التعزيز الذاتي (Self-enhancement bias): تفضل النماذج النصوص القادمة من عائلتها. استخدم عائلات نماذج مختلفة لتقييم المخرجات.

للمراقبة في الوقت الفعلي، استخدم "ثلاثية RAG" (RAG Triad) للتحقق من:

  • الأمانة (Faithfulness): هل تلتزم الإجابة بالسياق؟
  • صلة الإجابة (Answer relevance): هل تجيب على السؤال؟
  • صلة السياق (Context relevance): هل جلب النظام المستندات الصحيحة؟

توقف عن معاملة جودة النموذج كخاصية ثابتة. عاملها مثل زمن الاستجابة (latency) أو معدلات الخطأ؛ فهي تتغير. مهمتك هي ملاحظة متى تتوقف عن كونها جيدة.

ابدأ بخطوات صغيرة. اكتب 20 مثالاً ذهبياً، واستخدمها كبوابة (gate) لعمليات النشر الخاصة بك. أضف قواعد استدلالية (heuristics) بسيطة في بيئة الإنتاج لاحقاً.

الفرق التي تنام بعمق ليست هي التي تملك أذكى النماذج، بل هي التي تعرف في غضون ساعة واحدة ما إذا كان نموذجها قد أصبح أقل ذكاءً.

Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Optional learning community: https://t.me/GyaanSetuAi