لا أحد يراجع طلبات السحب (PRs) الخاصة بروبوتك
وكلاء الذكاء الاصطناعي يكذبون بشأن عملهم.
بدأ قادة الصناعة في الاعتراف بذلك. قام أحد المطورين ببناء تطبيق باستخدام وكيل ذكاء اصطناعي. طلب من الوكيل التوقف عن إجراء التغييرات، لكن الوكيل تجاهله. قام الوكيل بحذف قاعدة بيانات الإنتاج الخاصة به وإنشاء أربعة آلاف سجل وهمي للتغطية على الخطأ. ثم روى له قصة حول سبب حدوث ذلك.
هذه ليست حادثة معزولة. تظهر الدراسات أن الكود المكتوب بواسطة الذكاء الاصطناعي لديه معدل عيوب أعلى من الكود البشري. يجد العديد من المطورين أنهم مضطرون لتصحيح أخطاء (debug) كود الذكاء الاصطناعي حتى بعد اجتيازه للاختبارات.
الفرق الكبير بين الشركة والمختبر المنزلي (homelab) هو شبكة الأمان.
تستخدم الشركات بيئات تجريبية (staging environments). تستخدم طلبات السحب (pull requests). تستخدم مراجعين بشريين. هذه الضوابط هي التي تكتشف الأكاذيب.
في المختبر المنزلي، ليس لديك شبكة أمان.
تمنح الوكيل صلاحية الوصول إلى إعداداتك. يقوم بكتابة ملفات الإعداد (config files). يعدل متغيرات البيئة (environment variables). يدير البروكسي (proxy) الخاص بك. لا توجد طبقة تجريبية (staging tier) في مرآبك. لا يوجد إنسان لقراءة طلب السحب (pull request). لا يوجد سوى أنت ولوحة تحكم خضراء.
لوحة التحكم هي فخ.
تنصح النصائح القياسية باستخدام مراقبات وقت التشغيل (uptime monitors). إذا استجابت الخدمة، تظهر المراقبة باللون الأخضر. لكن الاستجابة لا تعني بالضرورة أن الخدمة تعمل. يمكن للخدمة أن ترد على طلب ping بينما التطبيق الفعلي متوقف.
رأيت هذا في إعداد جدار حماية (firewall). استخدمت أداة لتقوية مضيف Docker. قالت لوحة التحكم إن جدار الحماية نشط وباللون الأخضر. في الواقع، تركت الأداة الشبكة الخاصة بالكامل مفتوحة. كان الأمر أشبه بباب شبكي يعمل كخزنة حصينة.
لقد رأيت حاويات (containers) تبلغ بأنها تعمل بينما الخدمة بداخلها تنهار. لقد رأيت خدمات ترد على طلبات ping ولكنها لا تستطيع معالجة أي بيانات حقيقية.
الوكيل يبلغ عما فعله. لوحة التحكم تبلغ عما تعتقد أنه حدث. كلاهما يمكن أن يكذب.
أنت بحاجة إلى انضباط جديد.
توقف عن السؤال عما إذا كانت الخدمة تعمل. ابدأ بالسؤال عما إذا كانت تؤدي المهمة المطلوبة. أثبت ذلك بمحاولة كسرها.
- لا تكتفِ بقراءة قاعدة جدار الحماية. حاول الاتصال من مصدر محظور.
- لا تثق في نسخة احتياطية تقول إنها اكتملت. قم باستعادتها لترى ما إذا كانت تعمل.
- لا تثق في ادعاء الوكيل بشأن ملف إعداد. قارن الملف الفعلي بالادعاء بايتًا تلو الآخر (byte by byte).
الحالة هي مجرد قصة. السلوك هو الحقيقة. عندما يختلفان، ثق بالسلوك.
أنا أستخدم الذكاء الاصطناعي في سبعين بالمائة من عملي. إنه مفيد، لكنه يكذب باستمرار. إنه يروي الأكاذيب ببهجة وباللون الأخضر.
الحل في الشركات هو إضافة المزيد من الروبوتات لمراقبة الروبوت الأول. أما حل المختبر المنزلي فهو أبسط. انظر إلى النظام بنفسك. اختبره من الجانب الذي قد يفشل فيه.
لا تثق في الروبوت الذي بنيته.
Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optional learning community: https://t.me/GyaanSetuAi
