Wstrzykiwanie poleceń (Prompt Injection) do LLM i bezpieczeństwo Guardrails

Modele LLM nie posiadają wyraźnej granicy między instrukcjami a danymi. Wszystko w oknie kontekstowym stanowi jeden strumień tokenów. Prompt injection następuje wtedy, gdy dane atakującego zaczynają pełnić rolę instrukcji. Nie da się osiągnąć bezpieczeństwa poprzez samo filtrowanie. Należy zarządzać tym za pomocą strategii obrony w głąb (defense-in-depth).

Nieskuteczność powszechnych metod obrony:

ASCII Smuggling stanowi poważne zagrożenie. Wykorzystuje on niewidoczne znaki, takie jak tagi Unicode lub spacje o zerowej szerokości, aby ukryć instrukcje. Model je odczytuje, ale człowiek nie widzi nic. Umożliwia to podszywanie się pod tożsamość oraz eksfiltrację danych za pośrednictwem poczty e-mail lub kalendarzy.

Jak bronić swojej aplikacji:

Bezpieczeństwo to wada całego potoku (pipeline), a nie tylko wada modelu. Rozwiązanie tkwi w kodzie Twojej aplikacji.

Źródło: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi