عاملهایی که واقعاً عرضه میشوند
چرخه هیجان عاملها (agent hype cycle) پاسخ روشنی دارد. تیمهایی که با عاملهای محیط تولید (production agents) پیروز میشوند، تودههای خودمختار (autonomous swarms) نمیسازند. آنها سیستمهای خستهکننده میسازند.
من یک ماه آنچه را که در محیط تولید کار میکند، زیر نظر گرفتم. الگو واضح است. عاملهایی که پولساز هستند یا در زمان صرفهجویی میکنند، حلقههای بیپایان ندارند. آنها قابل مشاهده (observable) هستند. آنها محدود (bounded) هستند. آنها در صورت نیاز از انسان کمک میخواهند.
این موضوع نحوه ارزیابی پلتفرمهای عامل را تغییر میدهد.
تیمهایی که در محیط تولید از عاملها استفاده میکنند، بر موارد زیر تکیه دارند:
- ساخت دستی پرامپت (Manual prompt construction)
- مدلهای آماده (Off-the-shelf models)
- اجرای محدود با ۱۰ مرحله یا کمتر پیش از مداخله انسانی
این یعنی انضباط مهندسی.
دموها عاملهای خوداصلاحگر با خودمختاری کامل را نشان میدهند. اما عاملهایی که واقعاً عرضه میشوند، متفاوت به نظر میرسند. آنها از گیتهای (gates) صریح استفاده میکنند.
یک عامل خدمات مشتری، ۵ مرحله را مدیریت کرده و سپس موضوع را ارجاع میدهد (escalates). یک عامل کدنویسی، تستها را اجرا میکند اما بدون بازبینی، کد را ادغام (merge) نمیکند. یک عامل داده، پیش از اجرای یک پرسوجو (query)، درخواست تایید میکند. اینها انتخابهای معماری هستند که جواب میدهند.
عاملهای موفق، مسائل محدود و تکرارپذیر را حل میکنند. آنها مرجوعیها را مدیریت میکنند، تیکتها را اولویتبندی (triage) میکنند یا مسائل انطباق (compliance) را علامتگذاری میکنند. دامنه محدود به معنای شکستهای قابل پیشبینی و عیبیابی (debugging) آسانتر است.
سختترین بخش عرضه عاملها، باهوشتر کردن آنها نیست؛ بلکه قابل مشاهده و قابل مدیریت (governable) کردن آنهاست.
تیمها اغلب شکست میخورند زیرا:
- نمیتوانند توضیح دهند که وقتی یک عامل شکست میخورد، چه کاری انجام داده است
- نمیتوانند یک نتیجه بد را ردیابی (trace) کنند
- نمیتوانند مرزهای هزینه را تعیین کنند
- نمیتوانند تایید استفاده از ابزارها را اعمال کنند
- نمیتوانند یک نشست (session) را برای درک یک تصمیم بازپخش (replay) کنند
اینها مشکلات زیرساختی هستند.
اگر پلتفرمی را انتخاب میکنید، سوالات خود را تغییر دهید.
- درباره سرعت نپرسید. بپرسید آیا میتوانید هر تصمیم و ردپا (trace) را ببینید یا خیر.
- درباره پشتیبانی از مدل نپرسید. بپرسید آیا میتوانید چندین زمان اجرا (runtime) را از یک نقطه مدیریت کنید یا خیر.
- درباره خودمختاری نپرسید. بپرسید اضافه کردن گیتهای انسانی چقدر آسان است.
زیرساخت برنده، قابلیت مشاهده، مدیریت و خودمختاری محدود را فراهم میکند. این یک صفحه کنترل (control plane) است. این زیرساخت، عاملهای قابل اعتماد را از آنهایی که ساعت ۳ صبح محیط تولید را مختل میکنند، جدا میکند.
تیمهای محیط تولید دیگر نمیپرسند که آیا میتوانند عامل بسازند یا خیر؛ آنها میپرسند چگونه میتوان آنها را بهطور قابل اعتماد مدیریت کرد.
زیرساختهای خستهکننده پیروز میشوند.
Source: https://dev.to/paultwist/the-agents-that-actually-ship-why-boring-beats-autonomous-49li
Optional learning community: https://t.me/GyaanSetuAi
