LLM 提示词注入与护栏安全

LLM 在指令和数据之间没有硬性边界。上下文窗口中的一切都是一个 token 流。当攻击者数据充当指令时,就会发生提示词注入。你无法仅靠过滤来实现安全,必须通过深度防御(defense-in-depth)来进行管理。

常见防御手段的失效:

ASCII 走私是一个重大威胁。它利用 Unicode 标签或零宽空格等不可见字符来隐藏指令。模型可以读取它们,但人类却看不见任何内容。这使得通过电子邮件或日历进行身份冒充和数据窃取成为可能。

如何防御你的应用程序:

安全是一个流水线缺陷,而不仅仅是模型缺陷。修复方案存在于你的应用程序代码中。

Source: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Optional learning community: https://t.me/GyaanSetuAi