Tấn công Prompt Injection vào LLM và Bảo mật Guardrail

Các LLM không có ranh giới cứng giữa chỉ dẫn và dữ liệu. Mọi thứ trong cửa sổ ngữ cảnh (context window) đều là một luồng token duy nhất. Prompt injection xảy ra khi dữ liệu của kẻ tấn công đóng vai trò như các chỉ dẫn. Bạn không thể chỉ bằng cách lọc dữ liệu mà đạt được sự an toàn. Bạn phải quản lý nó bằng chiến lược phòng thủ chiều sâu (defense-in-depth).

Sự thất bại của các phương pháp phòng thủ thông thường:

ASCII Smuggling là một mối đe dọa lớn. Nó sử dụng các ký tự không hiển thị như Unicode Tags hoặc khoảng trắng không độ rộng (zero-width spaces) để che giấu các chỉ dẫn. Mô hình sẽ đọc được chúng, nhưng con người thì không thấy gì cả. Điều này cho phép giả mạo danh tính và trích xuất dữ liệu thông qua email hoặc lịch.

Cách bảo vệ ứng dụng của bạn:

Bảo mật là một lỗi trong pipeline, không chỉ là lỗi của mô hình. Giải pháp nằm ở mã nguồn ứng dụng của bạn.

Nguồn: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi