如何在数据进入大语言模型 (LLM) 前进行敏感数据脱敏

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial上周2分钟阅读

如何在敏感数据到达 LLM 之前对其进行脱敏处理

将敏感数据发送给第三方 AI 模型会带来安全风险。当员工将客户信息或内部项目粘贴到提示词（prompt）中时，这些数据就会脱离您的控制。这会导致违反 GDPR 或 HIPAA 等合规性要求。

LLM 无法区分姓名和随机单词。您必须在敏感数据到达模型之前将其拦截。这被称为“行内提示词脱敏”（inline prompt redaction）。

该过程包含四个步骤：

检测：系统扫描提示词中的敏感模式。
替换：系统将数据替换为占位符，例如 [EMAIL_1]。
转发：将安全的提示词发送给 LLM。
审计：系统记录该事件以进行安全监控。

您可以使用不同的方法来查找这些数据：

正则表达式 (Regex)：适用于信用卡号、社会安全号码和电话号码等结构化数据。它速度很快，但在处理姓名或非结构化文本时会失效。
命名实体识别 (NER)：利用机器学习来查找姓名、地点和组织。它比正则表达式更能理解上下文。

一个常见的问题是丢失上下文。如果您删除了所有姓名，AI 的输出可能会变得毫无用处。可以使用“可逆脱敏”（reversible redaction）来解决这个问题。您可以将 "Jane Doe" 替换为 "[PERSON_1]"，并保留一份更改的私有映射表。当 AI 响应时，您的系统会为用户将真实姓名替换回来。

不要将此逻辑构建到每一个应用程序中，那样很难管理。相反，请使用 AI Gateway。

AI Gateway 作为您的应用程序与 AI 服务之间的代理。它为您提供：

对所有安全策略进行集中控制。
无需更改每个应用程序中的代码。
在统一的地方审计所有请求。
在整个公司范围内实现统一的安全保障。

您可以在不冒隐私数据风险的情况下使用 AI 工具。自动化脱敏可以将您的信息保留在您的网络内部。

Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Optional learning community: https://t.me/GyaanSetuAi

如何在数据进入大语言模型 (LLM) 前进行敏感数据脱敏

继续阅读

你的 AI 智能体抓取了一个页面，而该页面竟在指挥它该做什么。

加固 AI 智能体以防御提示词注入

精通 LLM 提示词工程：开发者指南

使用 AI 时避免泄露秘密

防止 n8n AI 工作流中数据泄露的 5 种方法