LLM-ін'єкції промптів та безпека Guardrail

LLM не мають чіткої межі між інструкціями та даними. Усе в контекстному вікні — це єдиний потік токенів. Ін'єкція промптів (prompt injection) стається тоді, коли дані зловмисника діють як інструкції. Ви не зможете досягти безпеки лише шляхом фільтрації. Ви повинні керувати цим за допомогою стратегії ешелонованої оборони (defense-in-depth).

Неефективність поширених методів захисту:

ASCII-смуглінг (ASCII Smuggling) є серйозною загрозою. Він використовує невидимі символи, такі як теги Unicode або пробіли нульової ширини, щоб приховати інструкції. Модель зчитує їх, але людина не бачить нічого. Це дозволяє здійснювати підміну особистості та викрадення даних через електронну пошту або календарі.

Як захистити свій застосунок:

Безпека — це недолік конвеєра (pipeline), а не лише недолік моделі. Виправлення полягає у вашому коді застосунку.

Source: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Optional learning community: https://t.me/GyaanSetuAi