𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

📅3 hours ago⏱2 min read

Guardrails для корпоративних ШІ-агентів

Більшість порад щодо guardrails для ШІ звучать як рекламні заклики. Вони зосереджені на вигадливих діаграмах та чек-листах.

Справжня безпека в продакшені менш гламурна. Вона базується на речах, які існували задовго до появи LLM.

Я провів два роки, розробляючи ШІ-агентів для компанії зі списку Fortune 100. Ці агенти обробляють збої CI/CD, інциденти Kubernetes та документацію з інфраструктури.

Ось багаторівневий стек, який ми використовуємо для їхньої безпеки.

Ідентифікація на межі агента. Кожен агент використовує workload identity. Він ніколи не використовує спільні облікові дані. Область дії IAM — це ваша верхня межа безпеки. Якщо агенту не потрібен доступ до бази даних, роль IAM не повинна його мати. Це ваш найважливіший засіб контролю.
Білі списки інструментів (Tool allow-lists). Платформа вирішує, які інструменти доступні агенту. Агент для пошуку коду не повинен мати інструмент для роботи з електронною поштою. Для цього ми використовуємо статичні конфігурації. Ми ніколи не використовуємо динамічну реєстрацію інструментів.
Контроль мережевого виходу (Network egress controls). Агенти звертаються лише до дозволених кінцевих точок. Ми використовуємо DNS-фільтрацію та egress-проксі. Це запобігає спробам галюцинацій моделі перейти за неправильними URL-адресами.
Ізоляція секретів. Агенти ніколи не бачать сирі секрети. Ми використовуємо короткострокові сесійні токени, що впроваджуються під час викликів інструментів. Ніколи не вставляйте секрети в промпт. Будь-що в промпті може бути залогуване або відтворене.
Повні аудиторські журнали. Ви повинні логувати кожен виклик моделі та кожен виклик інструменту. Це включає вхідні та вихідні дані, аргументи інструментів та ідентифікацію користувача. Це необхідно, щоб зрозуміти, що пішло не так під час інциденту.
Підтвердження людиною. Для будь-якої дії, що змінює систему обліку (system of record), платформа має зупинитися. Людина повинна схвалити дію. Це ваша страховка.

Уникайте цих поширених помилок:

Інструкції на рівні промптів. Наказ моделі «ніколи не роби X» — це не безпека. Користувач може обманути модель. Перенесіть контроль на рівень IAM або інструментів.
Загальні фільтри PII. Вони мають високий рівень помилок. Краще обмежити доступ до даних через IAM, щоб агент ніколи не бачив конфіденційної інформації.
Моделі-guardrails. Використання другої LLM для оцінки першої додає затримку (latency). Це не справжній засіб контролю безпеки. Це просто ансамбль моделей.

Уроки, які я засвоїв на власному гіркому досвіді:

Виправляйте IAM раніше, ніж промпти. Я витрачав час на налаштування промптів, хоча мав би зосередитися на посиленні ролей IAM. Переносьте засоби контролю якомога нижче по стеку.
Створюйте розширений аудиторський слід. Фіксації лише запиту (prompt) та відповіді недостатньо. Вам потрібні проміжні виклики інструментів та їхні аргументи. Логування на ранніх етапах коштує дешево, але виправлення помилок пізніше обійдеться дорого.
Обмежуйте взаємодію агентів. У мультиагентних системах встановлюйте жорстке обмеження на кількість викликів між агентами. Це запобігає каскадним збоям.

Безпека ШІ при масштабуванні — це не проблема моделі. Це проблема платформи. Ставтеся до своїх агентів з такою ж операційною дисципліною, як до будь-якої іншої продуктивної системи.

Джерело: https://dev.to/srujan_t04/-guardrails-for-enterprise-ai-agents-whats-actually-load-bearing-in-production-2dhd

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Continue reading

𝗧𝗵𝗲 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗥𝘂𝗹𝗲 𝗙𝗼𝗿 𝗦𝗮𝗳𝗲 𝗔𝗜

Фреймворк управління агентним ШІ

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗼𝗻 𝗔𝗪𝗦: 𝗪𝗵𝗮𝘁 𝗟𝗲𝗮𝗱𝗲𝗿𝘀 𝗡𝗲𝗲𝗱 𝘁𝗼 𝗞𝗻𝗼𝘄

AI Gateway: Центральна нервова система для корпоративних LLM

𝗪𝗵𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗙𝗮𝗶𝗹 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻