Kiểm thử các Hệ thống AI Agentic
Xây dựng một AI agent thì dễ. Đảm bảo nó không hoạt động ngoài tầm kiểm soát mới là việc khó. Bạn cần một khung kiểm thử nghiêm ngặt để chuyển từ bản mẫu (prototype) sang môi trường thực tế (production).
Hãy thực hiện tám giai đoạn sau để bảo mật cho agent của bạn:
Giai đoạn 1: Kiểm thử thành phần (Component tests) Viết unit test cho mọi lớp. Kiểm thử research agent, các công cụ tìm kiếm (search tools) và bộ nhớ (memory) của bạn. Sử dụng dữ liệu giả (mock data) đã được các chuyên gia phê duyệt. Sử dụng stub cho các API bên ngoài như Shopify hoặc Meta. Nếu một API bị lỗi, bài kiểm thử của bạn không nên thất bại vì lý do đó.
Giai đoạn 2: Kho lưu trữ prompt (The prompt repository) Xây dựng một thư viện các prompt sắc bén. Gắn thẻ (tag) chúng theo từng lĩnh vực kinh doanh. Bao gồm cả các trường hợp thất bại như prompt injection và phản hồi công cụ trống (empty tool responses). Kiểm thử các cuộc hội thoại đa lượt (multi-turn conversations) để đảm bảo bộ nhớ hoạt động ổn định. Kiểm tra xem dữ liệu người dùng có bị rò rỉ giữa các phiên làm việc hay không.
Giai đoạn 3: Độ bao phủ và quỹ đạo (Coverage and trajectory) Kiểm tra xem mọi công cụ có thực sự được kích hoạt hay không. Sau đó, kiểm tra lộ trình mà agent đã thực hiện. Chỉ kích hoạt một công cụ thôi là chưa đủ. Agent phải sử dụng đúng công cụ, với các tham số (arguments) chính xác và theo đúng thứ tự.
Giai đoạn 4: Các lần chạy có phiên bản (Versioned runs) Đánh dấu mỗi lần chạy bằng một số phiên bản. Lưu trữ mọi phản hồi. Chạy mỗi prompt nhiều lần để tính đến tính ngẫu nhiên của mô hình. Theo dõi tỷ lệ vượt qua (pass rate), chi phí, token và độ trễ (latency). Độ chính xác là một sự đánh đổi về mặt kinh doanh với tốc độ và giá cả.
Giai đoạn 5: Kho lưu trữ đáp án chuẩn (Ground truth store) Lưu giữ các câu trả lời đã được xác minh cho mọi prompt. Quyết định xem ai có quyền thay đổi các câu trả lời này. Nếu bạn không cập nhật ground truths khi sản phẩm thay đổi, các bài kiểm thử của bạn sẽ báo lỗi một cách chính xác.
Giai đoạn 6: Bộ đánh giá (The evaluator) Chấm điểm các lần chạy dựa trên ground truth của bạn. Sử dụng một LLM judge để kiểm tra độ chính xác (precision) và tính đúng đắn (correctness). Lưu ý về sự thiên kiến của bộ đánh giá (judge bias). So sánh điểm số từ LLM với nhãn của con người (human labels) để đảm bảo độ chính xác.
Giai đoạn 7: Đánh giá bởi con người (Human review) Tạo một dashboard cho các trường hợp có điểm thấp. Cho phép con người sửa các lỗi sai. Sử dụng những lần chỉnh sửa này của con người để huấn luyện LLM judge của bạn.
Giai đoạn 8: Tích hợp CI/CD Chạy các bài kiểm thử thành phần (component tests) trên mỗi pull request. Chạy toàn bộ bộ kiểm thử (full suite) vào mỗi đêm. Thiết lập một ngưỡng (threshold) để chặn việc triển khai (deployments) nếu điểm số bị sụt giảm.
Optional learning community: https://t.me/GyaanSetuAi
