Guardrails cho AI Gateway với AWS Bedrock và Kong
Bạn đã triển khai một AI Gateway. Lưu lượng truy cập hoạt động bình thường. LLM phản hồi. Mọi thứ trông có vẻ ổn.
Sau đó, một người dùng gửi một prompt yêu cầu bỏ qua tất cả các hướng dẫn trước đó. Hoặc một người dùng dán số thẻ tín dụng vào chatbot của bạn. Hoặc một người dùng yêu cầu bot của bạn đưa ra lời khuyên tài chính trong một ngành nghề bị kiểm soát chặt chẽ.
Gửi lưu lượng truy cập đến một LLM thì dễ. Kiểm soát lưu lượng đó mới khó. Bạn cần các chính sách an toàn.
Bạn có thể sử dụng AWS Bedrock Guardrails với Kong AI Gateway trên Kubernetes. Thiết lập này sử dụng plugin ai-aws-guardrails. Mọi yêu cầu (request) và phản hồi (response) đều đi qua một lớp chính sách. Gateway sẽ chặn các vi phạm trước khi chúng chạm tới mã nguồn ứng dụng của bạn.
Bạn có thể cấu hình bốn loại guardrail:
- Content Filters (Bộ lọc nội dung): Chặn các nội dung thù ghét, bạo lực hoặc xúc phạm.
- Prompt Attack Protection (Bảo vệ chống tấn công Prompt): Chặn các nỗ lực jailbreak và injection.
- PII Protection (Bảo vệ PII): Chặn email, thẻ tín dụng và mật khẩu.
- Denied Topics (Các chủ đề bị từ chối): Chặn các chủ đề cụ thể như lời khuyên đầu tư.
Đối với PII, bạn có hai lựa chọn. Sử dụng BLOCK để dừng yêu cầu. Sử dụng ANONYMIZE để thay thế dữ liệu nhạy cảm bằng các trình giữ chỗ (placeholders). Điều này giúp ích trong lĩnh vực y tế khi bạn cần ngữ cảnh mà không cần dữ liệu thô.
Trong cấu hình Kong, hãy đặt guarding_mode thành BOTH. Cài đặt mặc định chỉ kiểm tra đầu vào. Khi đặt thành BOTH, hệ thống sẽ kiểm tra cả prompt của người dùng và phản hồi của mô hình. Điều này ngăn chặn một mô hình bị chiếm quyền điều khiển (hijacked) gửi dữ liệu độc hại ngược lại cho người dùng của bạn.
An toàn chỉ là một phần của một gateway tốt. Bạn cũng nên sử dụng:
- Rate limiting để kiểm soát chi phí.
- Semantic caching để giảm các truy vấn lặp lại.
- JWT auth để bảo mật các routes của bạn.
Đọc hướng dẫn đầy đủ trên Hashnode để biết các định nghĩa JSON và các bước thiết lập hoàn chỉnh.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi