Phòng thủ Prompt Injection: Cẩm nang Guardrails cho Production
Prompt injection là một mối đe dọa lớn đối với AI.
Những kẻ tấn công ẩn các chỉ dẫn bên trong dữ liệu. Chúng muốn mô hình của bạn tuân theo ý đồ của chúng thay vì ý đồ của bạn. Rủi ro này nằm ở vị trí đầu tiên trong danh sách OWASP dành cho các Ứng dụng Mô hình Ngôn ngữ Lớn (Large Language Model Applications).
Vấn đề rất đơn giản. Các LLM nhìn nhận mọi văn bản theo cùng một cách. Mô hình không thể phân biệt được sự khác biệt giữa các chỉ dẫn hệ thống (system instructions) của bạn và dữ liệu mà nó xử lý. Đối với mô hình, tất cả chỉ là văn bản. Điều này khiến lỗ hổng này trở nên khó khắc phục.
Có hai loại tấn công:
- Direct injection: Người dùng nhập các chỉ dẫn độc hại trực tiếp vào ứng dụng của bạn.
- Indirect injection: Kẻ tấn công ẩn các chỉ dẫn trong dữ liệu mà mô hình của bạn đọc được.
Bạn cần các guardrails để bảo vệ môi trường production của mình.
Đọc toàn bộ bài viết trên AI Tech Connect.
Nguồn: https://dev.to/rishi_kora/prompt-injection-defence-a-production-guardrails-playbook-2pam
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi