عامل‌هایی که واقعاً عرضه می‌شوند

چرخه هیجان عامل‌ها (agent hype cycle) پاسخ روشنی دارد. تیم‌هایی که با عامل‌های محیط تولید (production agents) پیروز می‌شوند، توده‌های خودمختار (autonomous swarms) نمی‌سازند. آن‌ها سیستم‌های خسته‌کننده می‌سازند.

من یک ماه آنچه را که در محیط تولید کار می‌کند، زیر نظر گرفتم. الگو واضح است. عامل‌هایی که پول‌ساز هستند یا در زمان صرفه‌جویی می‌کنند، حلقه‌های بی‌پایان ندارند. آن‌ها قابل مشاهده (observable) هستند. آن‌ها محدود (bounded) هستند. آن‌ها در صورت نیاز از انسان کمک می‌خواهند.

این موضوع نحوه ارزیابی پلتفرم‌های عامل را تغییر می‌دهد.

تیم‌هایی که در محیط تولید از عامل‌ها استفاده می‌کنند، بر موارد زیر تکیه دارند:

  • ساخت دستی پرامپت (Manual prompt construction)
  • مدل‌های آماده (Off-the-shelf models)
  • اجرای محدود با ۱۰ مرحله یا کمتر پیش از مداخله انسانی

این یعنی انضباط مهندسی.

دموها عامل‌های خوداصلاح‌گر با خودمختاری کامل را نشان می‌دهند. اما عامل‌هایی که واقعاً عرضه می‌شوند، متفاوت به نظر می‌رسند. آن‌ها از گیت‌های (gates) صریح استفاده می‌کنند.

یک عامل خدمات مشتری، ۵ مرحله را مدیریت کرده و سپس موضوع را ارجاع می‌دهد (escalates). یک عامل کدنویسی، تست‌ها را اجرا می‌کند اما بدون بازبینی، کد را ادغام (merge) نمی‌کند. یک عامل داده، پیش از اجرای یک پرس‌وجو (query)، درخواست تایید می‌کند. این‌ها انتخاب‌های معماری هستند که جواب می‌دهند.

عامل‌های موفق، مسائل محدود و تکرارپذیر را حل می‌کنند. آن‌ها مرجوعی‌ها را مدیریت می‌کنند، تیکت‌ها را اولویت‌بندی (triage) می‌کنند یا مسائل انطباق (compliance) را علامت‌گذاری می‌کنند. دامنه محدود به معنای شکست‌های قابل پیش‌بینی و عیب‌یابی (debugging) آسان‌تر است.

سخت‌ترین بخش عرضه عامل‌ها، باهوش‌تر کردن آن‌ها نیست؛ بلکه قابل مشاهده و قابل مدیریت (governable) کردن آن‌هاست.

تیم‌ها اغلب شکست می‌خورند زیرا:

  • نمی‌توانند توضیح دهند که وقتی یک عامل شکست می‌خورد، چه کاری انجام داده است
  • نمی‌توانند یک نتیجه بد را ردیابی (trace) کنند
  • نمی‌توانند مرزهای هزینه را تعیین کنند
  • نمی‌توانند تایید استفاده از ابزارها را اعمال کنند
  • نمی‌توانند یک نشست (session) را برای درک یک تصمیم بازپخش (replay) کنند

این‌ها مشکلات زیرساختی هستند.

اگر پلتفرمی را انتخاب می‌کنید، سوالات خود را تغییر دهید.

  • درباره سرعت نپرسید. بپرسید آیا می‌توانید هر تصمیم و ردپا (trace) را ببینید یا خیر.
  • درباره پشتیبانی از مدل نپرسید. بپرسید آیا می‌توانید چندین زمان اجرا (runtime) را از یک نقطه مدیریت کنید یا خیر.
  • درباره خودمختاری نپرسید. بپرسید اضافه کردن گیت‌های انسانی چقدر آسان است.

زیرساخت برنده، قابلیت مشاهده، مدیریت و خودمختاری محدود را فراهم می‌کند. این یک صفحه کنترل (control plane) است. این زیرساخت، عامل‌های قابل اعتماد را از آن‌هایی که ساعت ۳ صبح محیط تولید را مختل می‌کنند، جدا می‌کند.

تیم‌های محیط تولید دیگر نمی‌پرسند که آیا می‌توانند عامل بسازند یا خیر؛ آن‌ها می‌پرسند چگونه می‌توان آن‌ها را به‌طور قابل اعتماد مدیریت کرد.

زیرساخت‌های خسته‌کننده پیروز می‌شوند.

Source: https://dev.to/paultwist/the-agents-that-actually-ship-why-boring-beats-autonomous-49li

Optional learning community: https://t.me/GyaanSetuAi