عامل شما همه چیز را بررسی کرد، اما باز هم اشتباه بود.
من یک گردش کار چندعاملی (multi-agent workflow) را اجرا میکنم. یک مدل طراحی میکند، یکی کد مینویسد، یکی آن را بازبینی میکند و من نتیجه نهایی را تأیید میکنم.
اخیراً، سه مورد شکست از این خط لوله (pipeline) عبور کردند. هر عامل وظیفه خود را به شکلی بینقص انجام داد. سیستم منسجم بود، اما به شکلی منسجم اشتباه بود.
این یک مشکل هوش نیست، بلکه یک مشکل مرزی است. یک عامل دقیقاً همان کاری را انجام میدهد که در چارچوب (context) ارائه شده از او میخواهید. او به خودی خود چیزهای جدیدی را برای تأیید کشف نخواهد کرد.
در اینجا سه مورد از شکستهای دنیای واقعی و نحوه رفع آنها آورده شده است:
۱. پنهان شدن شکست در موفقیت یک خط لوله ETL دادهها را از یک API دریافت میکرد. نشست (session) API منقضی شد. به جای کد خطا، API یک پاسخ HTTP 200 به همراه یک پیام خطا در داخل JSON بازگرداند. عامل به دنبال کد خطا گشت، چیزی پیدا نکرد و فرض را بر این گذاشت که دادهها معتبر هستند.
- راه حل: از اعتبارسنجی معنایی (semantic validation) استفاده کنید. فقط بررسی نکنید که آیا یک فراخوانی موفقیتآمیز بوده است یا خیر؛ بلکه بررسی کنید که آیا دادههای بازگشتی با ساختار و تعداد ردیفهای مورد انتظار مطابقت دارند یا خیر.
۲. آرتیفکتهای مفقود شده یک تولیدکننده کد، فایلهای C را برای یک تراشه تولید کرد. بازبین تأیید کرد که کد صحیح است. با این حال، تولیدکننده هرگز فایل جدول ویجت (widget table) مورد نیاز را ایجاد نکرد. بازبین فایلهای موجود را بررسی کرد، اما به دنبال فایلهای مفقود شده نرفت.
- راه حل: کامل بودن خروجی را تأیید کنید. همیشه ابتدا لیست فایلهای مورد نیاز را تهیه کنید. قبل از رفتن به مرحله بعد، تأیید کنید که هر فایل وجود دارد و خالی نیست.
۳. ادعاهای فنی نادرست یک پوشه SDK ادعا میکرد که برای یک تراشه RISC-V است، اما کامنتهای هدر (header comments) میگفتند که برای یک پردازنده CSKY است. عامل به نام پوشه و کامنتها اعتماد کرد و دستورالعملهای واقعی ماشین (machine instructions) را که ثابت میکرد ادعا اشتباه است، نادیده گرفت.
- راه حل: از تأیید بر اساس حقیقت محض (ground-truth verification) استفاده کنید. اگر فایلی ادعایی میکند، آن ادعا را با یک دستور (command) آزمایش کنید. به کامنتها یا نام دایرکتوریها اعتماد نکنید. به دادههای خام اعتماد کنید.
عاملها همان چیزی را تأیید میکنند که به آنها میگویید. آنها نخواهند پرسید: «دیگر چه چیزی میتواند اشتباه باشد؟»
شما باید مرزها را طراحی کنید. شما باید نقاط بازبینی (verification checkpoints) را در لبههای گردش کار خود ایجاد کنید.
منبع: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd
جامعه یادگیری اختیاری: https://t.me/GyaanSetuAi