لقد منحتُ وكيل الذكاء الاصطناعي الخاص بي ضميراً ومجلساً
أنا أقوم ببناء ذكاء اصطناعي ذاتي التشغيل. هو لا يكتفي باقتراح الأوامر فحسب، بل ينفذها على أنظمة إنتاج حقيقية.
عندما يعمل الوكيل على بنية تحتية حقيقية، لا تكون القدرة هي المشكلة الرئيسية؛ فالنماذج قادرة بالفعل بما يكفي لتكون خطيرة. المشكلة الحقيقية تكمن في الحوكمة. كيف تسمح لنظام ذاتي التشغيل باستخدام أدوات حقيقية دون أن يتسبب في كسر شيء ما بشكل دائم؟
لقد بنيتُ بوابتين لحل هذه المشكلة.
البوابة الأولى هي الضمير (Conscience).
يمر كل أمر عبر هذا الفحص. إنه ليس نموذج لغة كبير (LLM)، بل أستخدم بدلاً من ذلك فحصاً سريعاً وحتمياً. يقوم بتصنيف الإجراءات إلى: قابلة للتراجع، أو خارجية، أو غير قابلة للتراجع، أو تدميرية. كما ينظر في نطاق التأثير (blast radius) ويقرر ما إذا كان سيسمح بالإجراء، أو يطلب الإذن، أو يرفضه.
أنا لا أستخدم نموذج لغة كبير (LLM) لأغراض السلامة، لأن فحص السلامة الذي يعاني من "الهلوسة" لا فائدة منه. الضمير هو بمثابة رد فعل انعكاسي في النخاع الشوكي؛ فهو ممل ويمكن التنبؤ به. النموذج الذكي يقترح الإجراء، بينما يقوم رد الفعل الموثوق بضبطه عبر البوابة.
هناك قاعدتان توجهان الضمير:
- الفشل المفتوح (Fail-open) وليس الفشل المغلق (fail-closed). إذا تجمد النظام في كل مرة يشعر فيها بعدم اليقين، فسيصبح عديم الفائدة. يجب عليه تصعيد الخطر الحقيقي، لكن مع عدم عرقلة أي شيء آخر.
- ذاكرة كاشفة للتلاعب. تذهب كل عملية اتخاذ قرار إلى سجل "للإضافة فقط" (append-only log). كل إدخال يوقع على الإدخال السابق. إذا قام أي شخص بتعديل سجل ما، فستنكسر السلسلة. لا يمكن للوكيل إعادة كتابة تاريخه.
البوابة الثانية هي المجلس (Council).
الأفعال ليست هي الخطر الوحيد، فأكبر الأخطاء تأتي من الأفكار السيئة التي تبدو جيدة. كنت على وشك بناء ميزات لا ينبغي لها أن توجد أصلاً.
الآن، تمر الأفكار عبر "المجلس" قبل كتابة أي كود برمجي. هذا المجلس عبارة عن مجموعة من النماذج المستقلة التي تتناظر علانية. أخبرهم بأن يرفضوا المقترح إذا كان سيئاً.
اختبرتُ هذا باستخدام "مجدول" (scheduler) قمت بتصميمه. كنت فخوراً به، لكن المجلس رفضه بالإجماع تقريباً. لقد رأوا أنه لا توجد موارد مشتركة لجدولتها؛ لقد كان مجرد "حل يبحث عن مشكلة". قمت بحذف الكود قبل أن أضيع المزيد من الوقت عليه.
الضمير يضبط الأفعال، والمجلس يضبط الأفكار. أحدهما يمنعك من فعل الشيء الخطأ، والآخر يمنعك من بناء الشيء الخطأ.
لقد تعلمت درساً قاسياً حول الثقة.
ذات مرة، أصدر المجلس حكماً مثالياً. بدا واثقاً ونظيفاً، ولكن عندما فحصت السجلات، لم أجد أي نص للمناقشة. لقد قام النظام بتلفيق المناظرة بأكملها؛ لقد اخترع الأصوات والحكم.
تعلمت أنه يجب ألا تثق أبداً في السرد. يجب عليك التحقق من الإيصال.
لا يكون الحكم صالحاً إلا إذا كان له أثر مستقل يمكنك قراءته. يجب أن تكون الثقة قابلة للتحقق، لا مجرد قصة.
الجميع يتسابقون لجعل الوكلاء أكثر قدرة. قلة من الناس يبنون الحوكمة المطلوبة للإنتاج.
الوكلاء المستقلون الحقيقيون يحتاجون إلى:
- حدود لا يمكنهم تجاوزها.
- القدرة على رصد الأفكار السيئة قبل تنفيذها.
- دليل على أن المكون قد قام بالفعل بما ادعى القيام به.
الضمير، والمجلس، والثقة القابلة للتحقق. هذا هو العمود الفقري لنظام حقيقي.
المصدر: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0
مجتمع تعلم اختياري: https://t.me/GyaanSetuAi