Không có Pull Request nào cho một Agent tự hành

Các quy trình đánh giá bảo mật truyền thống dựa vào một bản diff. Ai đó mở một pull request. Ai đó đọc nó. Mã nguồn trên môi trường production khớp với mã nguồn mà bạn đã đánh giá.

Các agent tự hành phá vỡ mô hình này.

Một agent lập kế hoạch và gọi các công cụ (tools) ngay trong lúc runtime. Nó không gửi các hành động thông qua một commit. Nó quyết định các hành động trong khi đang chạy. Nếu bạn chỉ đánh giá mã nguồn ứng dụng, bạn sẽ bỏ lỡ rủi ro thực sự.

Một agent không chỉ là mã nguồn. Nó là một cấu hình runtime. Cấu hình này bao gồm:

• System prompt • Harness hoặc vòng lặp (loop) • Bề mặt công cụ (tool surface) • Bộ nhớ và danh tính (identity) • Các chính sách egress mạng (network egress policies) • Container images

Hai agent sử dụng cùng một model có thể hành động khác nhau dựa trên các thiết lập này. Model vẫn giữ nguyên. Nhưng cấu hình sẽ thay đổi mọi thứ.

Nhiều đội ngũ coi system prompt chỉ là các thiết lập trong hộp văn bản đơn giản. Họ chỉnh sửa chúng trên một dashboard. Đây là một sai lầm. Chỉ một thay đổi nhỏ ở một dòng có thể loại bỏ một rào chắn bảo mật (guardrail). Một prompt có thể chỉnh sửa được chính là một luồng mã nguồn chưa được đánh giá.

Các sự cố thực tế đã chứng minh điều này:

• Một bot đã đưa ra những lời khuyên bất hợp pháp cho chủ nhà trong nhiều tuần. • Một bot hỗ trợ đã bắt đầu chửi bới khách hàng do một bản cập nhật prompt. • Các tệp độc hại đã sử dụng các ký tự ẩn để vượt qua các quy tắc.

Đây không phải là lỗi của model. Đó là những thay đổi cấu hình mà không ai đánh giá.

Bạn phải đối xử với cấu hình như là mã nguồn.

Hãy đưa các system prompt và cấu hình harness vào hệ thống quản lý phiên bản (version control). Chỉ thay đổi chúng thông qua các pull request. Sử dụng diff để xem những gì đã thay đổi.

Sử dụng một content hash cho cấu hình đã triển khai của bạn. Hash này nên bao gồm phiên bản prompt, model ID và container digest. Nếu bạn thay đổi prompt, danh tính của agent sẽ thay đổi. Bạn không thể thay đổi prompt một cách âm thầm.

Áp dụng phát hiện sai lệch (drift detection) cho bề mặt agent. Đừng chỉ giám sát host. Hãy giám sát danh sách MCP server và các chính sách egress cụ thể cho agent đó.

Khi ghi log, hãy theo dõi hai điều sau:

• Kích thước ngữ cảnh tại thời điểm ra quyết định (Decision-time context size): Model đã có bao nhiêu thông tin khi nó thực hiện hành động? • Prompt cha (The parent prompt): Trong các hệ thống đa agent, agent gọi đã gửi đi những gì?

Bạn không cần các công cụ mới. Hãy sử dụng hệ thống quản lý phiên bản và structured logging sẵn có của bạn. Bạn chỉ cần hướng chúng vào đúng nơi cần thiết.

Bạn có quản lý phiên bản và đánh giá các system prompt của mình không? Hay bất kỳ ai có quyền truy cập console đều có thể thay đổi chúng mà không để lại dấu vết?

Source: https://dev.to/brennhill/theres-no-pull-request-to-review-for-an-autonomous-agent-so-what-do-you-review-355m

Optional learning community: https://t.me/GyaanSetuAi