المطالبات ليست كافية: فرض قيود صارمة على مخرجات النماذج اللغوية الكبيرة (LLM)

تبدو العروض التوضيحية للنماذج اللغوية الكبيرة (LLM) رائعة حتى تواجه متطلبات صارمة.

تعمل النماذج بناءً على الاحتمالات، بينما تحتاج أنظمة الإنتاج إلى ضمانات.

تعلمت هذا أثناء بناء خط معالجة أخبار يعتمد على الذكاء الاصطناعي لإذاعة Radio del Volga في الأرجنتين. يقوم النظام بإعادة كتابة الأخبار وإنشاء منشورات لوسائل التواصل الاجتماعي. كان يعمل بشكل جيد حتى ظهرت مشكلة واحدة: استمر Gemini في الكتابة بالإسبانية الخاطئة.

في الأرجنتين، يستخدم الناس كلمات محددة؛ حيث يقولون "podés" بدلاً من "puedes" و"sos" بدلاً من "eres". إذا استخدم النموذج الإسبانية المحايدة، فسيشعر القراء المحليون بأن النص غير صحيح.

حاولت تحسين المطالبات أولاً، حيث قلت للنموذج:

ساعد هذا، لكنه لم يحل كل شيء. فقد دفعت المصادر الإخبارية الرسمية النموذج للعودة إلى الإسبانية المحايدة. ومهما كتبت في المطالبة، ظلت الأخطاء قائمة.

توقفت عن التعامل مع هذا الأمر كمشكلة مطالبات، وبدأت في التعامل معه كمشكلة تحقق من الصحة (validation).

بعض الأشياء احتمالية، مثل النبرة أو الأسلوب، بينما أشياء أخرى حتمية (deterministic). إذا احتوى النص على "puedes"، فهو خاطئ. لست بحاجة إلى ذكاء اصطناعي لاكتشاف ذلك؛ بل تحتاج إلى كود برمجي بسيط.

أضفت خطوة معالجة لاحقة (post-processing) تعمل بعد انتهاء الذكاء الاصطناعي، حيث تبحث عن كلمات محددة وتستبدلها:

هذه القائمة صغيرة وآمنة. أنا لا أحاول إصلاح اللغة الإسبانية بأكملها، بل أصلح فقط القواعد التي يمكن للكود التحقق منها بيقين.

الدرس لا يتعلق باللغة الإسبانية، بل يتعلق بحدود هندسة المطالبات (prompt engineering).

تحسن المطالبات الأداء، لكنها لا توفر ضمانات. إذا كانت القاعدة ثابتة وقابلة للاختبار، فاستخدم الكود لفرضها.

استخدم النماذج اللغوية الكبيرة (LLMs) لإنشاء نصوص سلسة، واستخدم الكود الحتمي لفرض مصطلحات العلامة التجارية، والصياغة التنظيمية، وقواعد التنسيق.

تقسم الأنظمة الموثوقة المسؤوليات: • النموذج يولد المحتوى. • الكود يفرض القواعد الصارمة. • البشر يتخذون القرار التحريري النهائي.

Source: https://dev.to/zendev2112/prompts-arent-enough-enforcing-hard-constraints-on-llm-output-2hpo

Optional learning community: https://t.me/GyaanSetuAi