Đừng Dùng LLM Để Quyết Định Các Hành Động Của AI Agent

Hãy ngừng việc sử dụng LLM để quyết định xem AI agent của bạn được phép làm gì.

Tôi thuộc về một nhóm có tên là AARM. Chúng tôi nghiên cứu cách bảo mật cho các AI agent. Chúng tôi thống nhất một điều: quyền kiểm soát phải nằm tại điểm thực thi hành động. Bạn phải kiểm tra một lệnh gọi công cụ (tool call) trước khi nó chạy. Agent không thể vượt qua bước kiểm tra này. Việc bảo một agent rằng "làm ơn đừng làm điều này" không phải là một mô hình bảo mật.

Nhiều người sử dụng một LLM thứ hai đóng vai trò là thẩm phán. Agent muốn thực hiện một hành động. Bạn gửi hành động đó tới một mô hình thứ hai. Bạn hỏi nó xem hành động đó có an toàn không. Mô hình sẽ trả lời có hoặc không. Đây là một mô hình đang giám sát một mô hình khác. Cách tiếp cận này có hai lỗ hổng lớn.

Thứ nhất, thẩm phán cũng có cùng điểm yếu như agent. Các agent có thể bị đánh lừa bởi prompt injection hoặc các yêu cầu tinh vi từ người dùng. Nếu bạn có thể lừa được agent, rất có thể bạn cũng sẽ lừa được thẩm phán. Bạn đang đặt một hệ thống thứ hai (vốn cũng phản ứng trước áp lực) đứng trước hệ thống đầu tiên.

Thứ hai, LLM không có tính xác định (deterministic). Bạn có thể hỏi một mô hình cùng một câu hỏi hai lần và nhận được hai câu trả lời khác nhau. Điều này xảy ra do quá trình lấy mẫu (sampling). Với hầu hết các tác vụ, điều này không vấn đề gì. Nhưng đối với bảo mật, đây là một rủi ro tiềm ẩn.

Một agent có thể được phép xóa một cơ sở dữ liệu vào thứ Ba nhưng lại bị chặn vào thứ Tư. Không có logic nào để giải thích tại sao. Đó chỉ là kết quả của một lần tung xúc xắc khác nhau. Bạn không thể giải thích điều này với kiểm toán viên. Bạn cũng không thể dựa vào nó vào lúc hai giờ sáng khi có sự cố xảy ra.

Một quy tắc (rule) thì khác. Một quy tắc sẽ nói "từ chối xóa trên môi trường production". Điều này luôn hoạt động trong mọi trường hợp. Bạn có thể kiểm thử nó. Bạn có thể kiểm tra nhật ký (logs). Bạn có thể chịu trách nhiệm cho quyết định đó.

Các mô hình rất hữu ích cho bảo mật, nhưng không phải với vai trò là chốt chặn cuối cùng. Hãy sử dụng các mô hình cho các công việc mang tính hỗ trợ:

  • Phát hiện các mẫu hành vi bất thường.
  • Đánh dấu các văn bản nhạy cảm.
  • Chấm điểm mức độ rủi ro.
  • Nhận diện các điểm bất thường.

Hãy để mô hình đánh dấu vấn đề, nhưng đừng để nó mở cổng. Quyết định cuối cùng phải nằm ở một hệ thống luôn đưa ra cùng một câu trả lời trong mọi lần.

Agent của bạn càng tiếp cận gần hơn với tiền bạc, dữ liệu production hoặc thông tin khách hàng, điều này càng trở nên quan trọng. Nếu một agent viết một đoạn văn tồi, đó không phải là khủng hoảng. Nếu một agent làm sập một cơ sở dữ liệu, đó là một thảm họa.

Quyết định cuối cùng nên là một điều gì đó "nhàm chán". Nó nên là một ranh giới cứng nhắc mà agent không thể dùng lời lẽ để lách qua.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi