Cách che giấu dữ liệu nhạy cảm trước khi gửi đến LLM
Việc gửi dữ liệu nhạy cảm đến các mô hình AI của bên thứ ba tạo ra các rủi ro về bảo mật. Khi nhân viên dán thông tin khách hàng hoặc các dự án nội bộ vào một prompt, dữ liệu đó sẽ nằm ngoài tầm kiểm soát của bạn. Điều này dẫn đến các vi phạm tuân thủ như GDPR hoặc HIPAA.
Các LLM không phân biệt được sự khác nhau giữa một cái tên và một từ ngẫu nhiên. Bạn phải ngăn chặn dữ liệu nhạy cảm trước khi nó đến được mô hình. Quá trình này được gọi là che giấu thông tin ngay trong prompt (inline prompt redaction).
Quá trình này sử dụng bốn bước:
- Phát hiện (Detect): Hệ thống quét prompt để tìm các mẫu dữ liệu nhạy cảm.
- Thay thế (Replace): Hệ thống thay thế dữ liệu bằng một trình giữ chỗ như [EMAIL_1].
- Chuyển tiếp (Forward): Prompt an toàn được gửi đến LLM.
- Kiểm tra (Audit): Hệ thống ghi lại sự kiện để giám sát bảo mật.
Bạn có thể sử dụng các phương pháp khác nhau để tìm dữ liệu này:
- Biểu thức chính quy (Regular Expressions - Regex): Phương pháp này hoạt động với dữ liệu có cấu trúc như số thẻ tín dụng, số an sinh xã hội và số điện thoại. Nó nhanh nhưng không hiệu quả với tên gọi hoặc văn bản không có cấu trúc.
- Nhận dạng thực thể có tên (Named Entity Recognition - NER): Phương pháp này sử dụng học máy để tìm tên, địa điểm và tổ chức. Nó hiểu ngữ cảnh tốt hơn regex.
Một vấn đề phổ biến là việc mất ngữ cảnh. Nếu bạn xóa tất cả các tên, kết quả đầu ra của AI có thể trở nên vô dụng. Hãy sử dụng phương pháp che giấu có thể khôi phục (reversible redaction) để khắc phục điều này. Bạn thay thế "Jane Doe" bằng "[PERSON_1]" và lưu giữ một bản đồ ánh xạ riêng tư cho sự thay đổi đó. Khi AI phản hồi, hệ thống của bạn sẽ thay thế tên thật trở lại cho người dùng.
Đừng xây dựng logic này vào từng ứng dụng riêng lẻ. Điều đó rất khó quản lý. Thay vào đó, hãy sử dụng một AI Gateway.
Một AI Gateway đóng vai trò như một proxy giữa các ứng dụng của bạn và dịch vụ AI. Điều này mang lại cho bạn:
- Kiểm soát tập trung đối với tất cả các chính sách bảo mật.
- Không cần phải thay đổi mã nguồn trong mọi ứng dụng.
- Một nơi duy nhất để kiểm tra tất cả các yêu cầu.
- Bảo mật đồng nhất trong toàn bộ công ty của bạn.
Bạn có thể sử dụng các công cụ AI mà không lo ngại rủi ro về dữ liệu riêng tư. Việc che giấu dữ liệu tự động giúp giữ thông tin của bạn nằm trong mạng lưới nội bộ.
Nguồn: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
