Агенти, які справді доводять до релізу

Цикл хайпу навколо агентів має чітку відповідь. Команди, які перемагають завдяки агентним рішенням у продакшені, не будують автономні рої. Вони будують нудні системи.

Я протягом місяця спостерігав за тим, що працює в продакшені. Патерн очевидний. Агенти, які приносять гроші або економлять час, не мають нескінченних циклів. Вони піддаються спостереженню. Вони мають обмеження. Вони просять допомоги людини, коли це необхідно.

Це змінює підхід до оцінки агентних платформ.

Команди, які використовують агентів у продакшені, покладаються на:

  • Ручне конструювання промптів
  • Готові моделі
  • Обмежене виконання — 10 кроків або менше до втручання людини

Це інженерна дисципліна.

Демонстрації показують самокоригувальних агентів з повною автономією. Агенти, які справді доводять до релізу, виглядають інакше. Вони використовують явні контрольні точки (gates).

Агент служби підтримки обробляє 5 кроків, а потім передає запит людині. Агент для написання коду запускає тести, але не зливає код без перевірки. Агент для роботи з даними запитує схвалення перед виконанням запиту. Це архітектурні рішення, які працюють.

Успішні агенти вирішують вузькі, повторювані завдання. Вони обробляють повернення товарів, сортують тікети або позначають проблеми з відповідністю стандартам. Вузька сфера застосування означає передбачувані збої та простіше налагодження.

Найскладніше в релізі агентів — це не зробити їх розумнішими. Це зробити їх видимими та керованими.

Команди часто зазнають невдачі, тому що:

  • Вони не можуть пояснити, що саме зробив агент під час збою
  • Вони не можуть відстежити причину невдалого результату
  • Вони не можуть встановити межі витрат
  • Вони не можуть забезпечити схвалення використання інструментів
  • Вони не можуть відтворити сесію, щоб зрозуміти прийняте рішення

Це проблеми інфраструктури.

Якщо ви обираєте платформу, змініть свої запитання.

  • Не питайте про швидкість. Питайте, чи можете ви бачити кожне рішення та його трасування (trace).
  • Не питайте про підтримку моделей. Питайте, чи можете ви керувати кількома середовищами виконання (runtimes) з одного місця.
  • Не питайте про автономію. Питайте, наскільки легко додати контрольні точки за участю людини.

Переможна інфраструктура забезпечує спостережуваність, управління та обмежену автономію. Це рівень управління (control plane). Вона відокремлює надійних агентів від тих, що ламають продакшен о 3-й годині ночі.

Команди, що працюють у продакшені, більше не питають, чи можуть вони створювати агентів. Вони питають, як забезпечити їхню надійну експлуатацію.

Перемагає нудна інфраструктура.

Джерело: https://dev.to/paultwist/the-agents-that-actually-ship-why-boring-beats-autonomous-49li

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi