LLM 프롬프트 인젝션 및 가드레일 보안

LLM은 지시 사항과 데이터 사이에 명확한 경계가 없습니다. 컨텍스트 창에 있는 모든 것은 하나의 토큰 스트림입니다. 공격자의 데이터가 지시 사항처럼 작동할 때 프롬프트 인젝션이 발생합니다. 필터링만으로는 안전을 보장할 수 없습니다. 심층 방어(defense-in-depth)를 통해 관리해야 합니다.

일반적인 방어 기제의 한계:

ASCII 스머글링(ASCII Smuggling)은 주요 위협입니다. 이는 유니코드 태그(Unicode Tags)나 폭이 없는 공백(zero-width spaces)과 같은 보이지 않는 문자를 사용하여 지시 사항을 숨깁니다. 모델은 이를 읽지만, 사람은 아무것도 볼 수 없습니다. 이를 통해 이메일이나 캘린더를 통한 신원 도용 및 데이터 유출이 가능해집니다.

애플리케이션을 방어하는 방법:

보안은 모델만의 결함이 아니라 파이프라인의 결함입니다. 해결책은 애플리케이션 코드에 있습니다.

Source: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Optional learning community: https://t.me/GyaanSetuAi