𝟳 𝗥𝗮̀𝗼 𝗰𝗵𝗮̆́𝗻 𝗴𝗶𝘂́𝗽 𝗻𝗴𝗮̆𝗻 𝗰𝗵𝗮̣̆𝗻 𝗟𝗟𝗠 𝗰𝘂̉𝗮 𝗯𝗮̣𝗻 𝗺𝗮̂́𝘁 𝗸𝗶𝗲̂̉𝗺 𝘀𝗼𝗮́𝘁

NIST vừa công bố một ghi chú mới về quản lý rủi ro AI cho các cơ sở hạ tầng trọng yếu.

Họ muốn các hệ thống AI phải có các biện pháp bảo vệ đã được kiểm thử và xác minh. Các nhà phát triển phải xây dựng các biện pháp bảo vệ này để ngăn chặn các cuộc tấn công như prompt injection.

Bảo mật không chỉ dừng lại ở những ý định tốt. Nó đòi hỏi các rào chắn mang tính lập trình (programmatic guardrails).

Dưới đây là 7 chiến lược để bảo mật AI của bạn:

  • Kiểm tra dữ liệu đầu vào (Input validation) Kiểm tra tất cả văn bản của người dùng trước khi nó đến được mô hình. Loại bỏ mã độc hoặc các thẻ HTML không mong muốn. Cập nhật các quy tắc này thường xuyên để luôn đi trước những kẻ tấn công.

  • Lọc dữ liệu đầu ra (Output filtering) Kiểm tra các phản hồi của AI trước khi người dùng nhìn thấy chúng. Sử dụng danh sách từ khóa hoặc khớp mẫu (pattern matching) để ngăn chặn nội dung độc hại. Các công cụ như Pydantic giúp đảm bảo đầu ra tuân theo một cấu trúc nhất định.

  • Nhắc lệnh có cấu trúc (Structured prompting) Sử dụng system prompts và các dấu phân cách rõ ràng. Bao bọc các truy vấn của người dùng trong các token cụ thể như ###User Input###. Điều này giúp mô hình phân biệt được giữa hướng dẫn của bạn và dữ liệu của người dùng.

  • Huấn luyện đối kháng (Adversarial training) Huấn luyện mô hình của bạn bằng các ví dụ về tấn công. Điều này dạy mô hình cách nhận biết và từ chối các prompt độc hại. Bạn cũng có thể tinh chỉnh (fine-tune) các mô hình trên dữ liệu chất lượng cao và chuyên biệt để cải thiện tính an toàn.

  • Giám sát thời gian thực (Real-time monitoring) Theo dõi nhật ký hệ thống (system logs) và các mẫu sử dụng một cách liên tục. Sử dụng phát hiện bất thường (anomaly detection) để gắn cờ các hành vi lạ. Điều này giúp bạn ứng phó với các mối đe dọa trước khi chúng trở nên nghiêm trọng.

  • Red teaming Thuê các đội ngũ để mô phỏng các cuộc tấn công trong thế giới thực. Họ sẽ tìm ra các lỗ hổng và các vector tấn công prompt injection trước khi hacker thực hiện. Điều này vượt xa các bài kiểm tra tiêu chuẩn bằng cách tập trung vào các mối đe dọa đặc thù của AI.

  • Human-in-the-loop Xây dựng các điểm kiểm soát nơi con người phải xem xét hoặc phê duyệt các hành động. Điều này rất quan trọng đối với các tác vụ có rủi ro cao. Nó đảm bảo trách nhiệm giải trình khi các sai sót gây ra hậu quả lớn.

Các rào chắn không còn là tùy chọn nữa. Chúng là một yêu cầu kỹ thuật cốt lõi.

Nguồn: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi