المدخل الفارغ الذي تسبب في تعطل وكيل الإنتاج الخاص بي
عمل العرض التجريبي بشكل مثالي لمدة ثلاثة أسابيع. كل مدخل اختبار كان يعمل. كل مخرج كان يذهب إلى المكان الصحيح. اعتقدت أن النظام موثوق.
ثم أرسل أحد الموردين بريدًا إلكترونيًا بعنوان موضوع فارغ.
توقع الوكيل نصًا لاستخراج مرجع الطلب. وبدلاً من ذلك، تلقى قيمة فارغة (null). لم يتوقف النظام عن العمل، وكان ذلك سيكون أفضل. لقد قام بإنشاء مرجع طلب وهمي يبدو حقيقيًا. وقام النظام اللاحق بمعالجته. ولم يلاحظ أحد ذلك لمدة أربع ساعات.
العروض التجريبية تستخدم مدخلات تتوقعها. أما بيئة الإنتاج فتستخدم مدخلات لا تتوقعها.
أنا أدير عمليات الوكيل في aienterprise.dk. لقد رأيت التتبع الكامل. أخبر الأمر (prompt) الوكيل باستخراج مرجع الطلب من سطر الموضوع. وهذا يعمل إذا كان سطر الموضوع موجودًا.
إذا كان سطر الموضوع مفقودًا، يقوم النموذج اللغوي الكبير بسد الفجوة. فهو يبتكر شيئًا يبدو صحيحًا. هذا ليس ضجيجًا عشوائيًا، بل هو ضجيج منظم. وهو أمر خطير لأنه يبدو صحيحًا. يمكنك اكتشاف الفشل، لكن لا يمكنك بسهولة اكتشاف إجابة خاطئة واثقة.
لم أقم بإعادة تدريب النموذج. لم أقم بتغيير الأمر (prompt). بل أضفت حارسًا (guard) قبل استدعاء النموذج.
الآن، يتم إجراء فحص بسيط أولاً. يسأل: هل حقل الموضوع موجود وغير فارغ؟ إذا كانت الإجابة لا، يتم إرسال الرسالة إلى قائمة انتظار للمراجعة البشرية. لا يرى الوكيل أبدًا المدخلات السيئة.
هذا الحارس يتكون من اثني عشر سطرًا من الكود. إنه أهم شيء بنيته هذا العام.
النمط بسيط. إذا افترض الوكيل وجود هيكل معين، فإن بيئة الإنتاج سترسل في النهاية بيانات غير منظمة. الحل ليس في نموذج أذكى، بل الحل هو وضع حدود. أنت بحاجة إلى فحص يوجه المدخلات السيئة إلى إنسان بدلاً من ترك النموذج يخمن.
الموثوقية هي الميزة الوحيدة. العرض التجريبي يظهر أن الوكيل يمكنه أداء مهمة ما. أما بيئة الإنتاج فتظهر أن الوكيل يؤدي المهمة في الساعة 3 صباحًا بمدخلات سيئة. الجزء الثاني فقط هو ما يهم عملاءك.
يعالج الوكيل الخاص بي الآن 200 عملية يوميًا دون مشاكل. يتم تفعيل قائمة الانتظار مرتين في الأسبوع. يراجع إنسان البيانات الغريبة. ومن خلال ذلك، أتعرف على شكل البيانات في بيئة الإنتاج.
إذا كنت تبني وكلاء لفئات عالية المخاطر بموجب قانون الذكاء الاصطناعي في الاتحاد الأوروبي (EU AI Act)، فإن الموعد النهائي هو 2 ديسمبر 2027. ويشمل ذلك التوظيف، والقياسات الحيوية، والتعليم. النظام الذي يخمن عند تلقي مدخلات سيئة سيفشل في التدقيق. هذا الحارس هو الحد الأدنى للامتثال.
الموثوقية ليست ميزة تضيفها لاحقًا.
Source: https://dev.to/kimlike/the-null-input-that-broke-my-production-agent-and-what-fixed-it-1e77
Optional learning community: https://t.me/GyaanSetuAi