Усі говорять про промпти. Саме на циклі агенти насправді зазнають невдачі

Промпт-інжиніринг привертає всю увагу. Люди діляться промптами й почуваються розумними. Але в агентних системах, які я будую, ламаються не промпти. Ламається цикл.

Агент — це не просто один промпт і відповідь. Це цикл.

  • Спостерігати за станом.
  • Виконати дію.
  • Оцінити результат.
  • Вирішити, продовжувати чи зупинитися.

Якщо один із цих кроків не вдається, агент зазнає невдачі. Щоб дослідити це, я проаналізував 12 моделей у 1412 запусках. Ось як ламаються цикли та як це виправити.

Поширені помилки циклів:

  • Токенні спіралі: агент повторюється і витрачає занадто багато токенів.
  • Сліпі зони: агент не бачить свого середовища і повторює ту саму помилку.
  • Хибний успіх: агент видає неправильну відповідь, але вважає її правильною.
  • Тупики: агент виявляє помилку, але не може використати ці дані для покращення.

Кращий промпт не виправить ці проблеми. Вам потрібен інжиніринг циклів.

Чотири принципи проєктування кращих циклів:

  • Обмежуйте цикл: встановіть жорсткий ліміт на ітерації та токени. Якщо агент досягає межі, він має зупинитися і попросити про допомогу.
  • Зробіть середовище зрозумілим: переконайтеся, що крок спостереження надає агенту всі факти. Якщо агент повторює дію, що призвела до помилки, йому бракує потрібної інформації.
  • Відокремте виконавця від оцінювача: не дозволяйте одній і тій самій моделі перевіряти власну роботу. Використовуйте іншу модель або перевірку на основі правил для оцінки результату.
  • Замикайте цикл: використовуйте помилки для реальних виправлень. Коли цикл ламається, додайте регресійний тест, щоб це ніколи не повторилося.

Використовуючи ці правила, я створив агента підтримки під назвою RelayOps. Ми використовували незалежного суддю для оцінювання агента.

Одного разу агент процитував правильну статтю, але не зміг відповісти на саме запитання. Проста перевірка на основі правил пропустила його. Але наш незалежний оцінювач виявив це. Ми використали цю помилку, щоб виправити систему, і додали тест, щоб запобігти повторенню подібного.

Агенту не потрібно було ставати розумнішим. Потрібно було краще спроєктувати цикл.

Перестаньте зосереджуватися лише на промптах. Зосередьтеся на структурі.

З якими помилками циклів ви стикалися? Токенна спіраль, сліпа зона чи агент, який був упевнено не правим?

Source: https://dev.to/manideep_patibandla/everyone-talks-about-prompts-the-loop-is-where-agents-actually-fail-1cej

Optional learning community: https://t.me/GyaanSetuAi