عامل شما همه چیز را بررسی کرد، اما باز هم اشتباه بود.

من یک گردش کار چندعاملی (multi-agent workflow) را اجرا می‌کنم. یک مدل طراحی می‌کند، یکی کد می‌نویسد، یکی آن را بازبینی می‌کند و من نتیجه نهایی را تأیید می‌کنم.

اخیراً، سه مورد شکست از این خط لوله (pipeline) عبور کردند. هر عامل وظیفه خود را به شکلی بی‌نقص انجام داد. سیستم منسجم بود، اما به شکلی منسجم اشتباه بود.

این یک مشکل هوش نیست، بلکه یک مشکل مرزی است. یک عامل دقیقاً همان کاری را انجام می‌دهد که در چارچوب (context) ارائه شده از او می‌خواهید. او به خودی خود چیزهای جدیدی را برای تأیید کشف نخواهد کرد.

در اینجا سه مورد از شکست‌های دنیای واقعی و نحوه رفع آن‌ها آورده شده است:

۱. پنهان شدن شکست در موفقیت یک خط لوله ETL داده‌ها را از یک API دریافت می‌کرد. نشست (session) API منقضی شد. به جای کد خطا، API یک پاسخ HTTP 200 به همراه یک پیام خطا در داخل JSON بازگرداند. عامل به دنبال کد خطا گشت، چیزی پیدا نکرد و فرض را بر این گذاشت که داده‌ها معتبر هستند.

  • راه حل: از اعتبارسنجی معنایی (semantic validation) استفاده کنید. فقط بررسی نکنید که آیا یک فراخوانی موفقیت‌آمیز بوده است یا خیر؛ بلکه بررسی کنید که آیا داده‌های بازگشتی با ساختار و تعداد ردیف‌های مورد انتظار مطابقت دارند یا خیر.

۲. آرتیفکت‌های مفقود شده یک تولیدکننده کد، فایل‌های C را برای یک تراشه تولید کرد. بازبین تأیید کرد که کد صحیح است. با این حال، تولیدکننده هرگز فایل جدول ویجت (widget table) مورد نیاز را ایجاد نکرد. بازبین فایل‌های موجود را بررسی کرد، اما به دنبال فایل‌های مفقود شده نرفت.

  • راه حل: کامل بودن خروجی را تأیید کنید. همیشه ابتدا لیست فایل‌های مورد نیاز را تهیه کنید. قبل از رفتن به مرحله بعد، تأیید کنید که هر فایل وجود دارد و خالی نیست.

۳. ادعاهای فنی نادرست یک پوشه SDK ادعا می‌کرد که برای یک تراشه RISC-V است، اما کامنت‌های هدر (header comments) می‌گفتند که برای یک پردازنده CSKY است. عامل به نام پوشه و کامنت‌ها اعتماد کرد و دستورالعمل‌های واقعی ماشین (machine instructions) را که ثابت می‌کرد ادعا اشتباه است، نادیده گرفت.

  • راه حل: از تأیید بر اساس حقیقت محض (ground-truth verification) استفاده کنید. اگر فایلی ادعایی می‌کند، آن ادعا را با یک دستور (command) آزمایش کنید. به کامنت‌ها یا نام دایرکتوری‌ها اعتماد نکنید. به داده‌های خام اعتماد کنید.

عامل‌ها همان چیزی را تأیید می‌کنند که به آن‌ها می‌گویید. آن‌ها نخواهند پرسید: «دیگر چه چیزی می‌تواند اشتباه باشد؟»

شما باید مرزها را طراحی کنید. شما باید نقاط بازبینی (verification checkpoints) را در لبه‌های گردش کار خود ایجاد کنید.

منبع: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

جامعه یادگیری اختیاری: https://t.me/GyaanSetuAi