Найскладніше в AI-агентах — це не виконання, а планування
Створити AI-агента, який виконує завдання, легко. Створити того, хто планує їх правильно — важко.
Я розробив CLI, де ви вводите речення, а LLM виконує дії у ваших реальних облікових записах. Я використовую два режими: Direct mode та Plan mode.
Direct mode призначений для швидкості. Plan mode — для безпеки. У Plan mode агент показує вам кожен крок, перш ніж торкатися ваших даних.
Ось як я побудував надійний механізм планування:
• Розділіть «мозок» Один агент не може одночасно планувати та виконувати. Агент-планувальник хоче думати. Агент-виконавець хоче діяти. Я розділив їх на двох різних агентів з двома різними системними промптами. Це запобігає їхньому конфлікту між собою.
• Дайте агенту «очі» Планувальник, який лише припускає, — це небезпечно. Моя перша версія створювала плани на основі припущень. Тепер планувальник спочатку використовує інструменти лише для читання (read-only), щоб дослідити ваші дані. Він перевіряє ваші реальні поля в Salesforce, перш ніж написати хоча б один крок.
• Попередньо заповнюйте відповіді Агенти часто ставлять невдалі запитання. Якщо їх занадто багато, ви зрештою самі робите роботу за них. Я змінив цей підхід. Планувальник все ще ставить запитання, але пропонує рекомендовану відповідь. Вам залишається лише підтвердити її або скоригувати. Це дозволяє підтримувати точність плану без ручного введення даних.
• Передавайте контекст, а не лише список Якщо ви дасте виконавцю лише список кроків, він втратить логіку. Я зробив так, щоб планувальник передавав припущення та ризики разом із кроками. Тепер виконавець розуміє «чому» стоїть за кожною дією.
• Позначайте небезпеку План є безпечним лише тоді, коли ви бачите ризики. Моя система позначає деструктивні дії, такі як видалення або перейменування. Коли агент доходить до деструктивного кроку, він зупиняється і запитує вас.
• Використовуйте дані як вирішальний фактор Якщо агент вважає, що крок не вдався, а ви кажете йому спробувати ще раз, він не просто сліпо підкоряється. Він перевіряє фактичні дані платформи. Якщо дані показують, що завдання вже виконано, агент довіряє даним більше, ніж вашим словам.
Правда про безпеку: Plan mode не захищає від prompt injection або від користувача, який натискає «схвалити», не дивлячись. Він перекладає відповідальність із «довіри до моделі» на «довіру до того, що людина перевірить дані».
Структура створює запобіжні механізми, але саме ваша перевірка забезпечує кінцеву безпеку.
Optional learning community: https://t.me/GyaanSetuAi
