Khả năng quan sát trong Agentic AI
Các microservices truyền thống đã giải quyết được vấn đề observability. Traces cho thấy các lộ trình. Metrics cho thấy độ trễ. Logs kể lại câu chuyện.
Agentic AI phá vỡ mô hình này.
Một câu hỏi của người dùng có thể kích hoạt các guardrails, đọc session, thực hiện nhiều cuộc gọi LLM, tìm kiếm web và các vòng lặp suy luận (reasoning loops). Các lỗi thường rất tinh vi. Một công cụ có thể bị chậm. Một context window có thể trở nên quá lớn. Một mô hình có thể bị giảm hiệu năng dưới tải trọng mà không trả về lỗi.
Gần đây tôi đã chạy bản demo OpenTelemetry NBA Agent để kiểm tra cách chúng ta quan sát các hệ thống này. Dưới đây là những gì tôi đã học được về việc xây dựng các AI agent đáng tin cậy.
Ba trụ cột của Agent Observability
• Traces có giá trị hơn cả unit tests. Cùng một prompt có thể đưa ra các câu trả lời khác nhau qua các lần chạy. Bạn phải thấy được lộ trình mà agent đã thực hiện, chứ không chỉ là văn bản cuối cùng.
• Liên kết ý định (intent) với hành động. Một câu trả lời chỉ có một từ có thể phù hợp với câu hỏi thời tiết nhưng sẽ thất bại đối với lời khuyên tài chính. Bạn cần liên kết các quyết định của guardrail và việc sử dụng công cụ với ý định của người dùng.
• Thiết lập các mốc cơ sở (baselines) sớm. Các bản cập nhật mô hình và thay đổi API sẽ làm thay đổi hành vi. Bạn cần các metrics trước khi triển khai để biết liệu mọi thứ đang cải thiện hay tệ đi.
Cần đo lường những gì
Bạn không thể chỉ giám sát các cuộc gọi mô hình. Bạn phải thực hiện instrument cho toàn bộ hệ sinh thái.
Lớp Mô hình (The Model Layer) Theo dõi tên hoạt động, chi tiết nhà cung cấp và mức sử dụng token. Giám sát thời lượng và lý do kết thúc (finish reasons).
Công cụ và MCP Servers Hãy coi các công cụ như các microservices. Theo dõi độ trễ, tỷ lệ thành công và các đối số (arguments). Nếu một agent bị chậm, nguyên nhân thường là do một API bên ngoài bị chậm, chứ không phải do LLM.
Guardrails Đo lường tần suất guardrails được kích hoạt và theo chủ đề nào. Điều này giúp giải trình chi phí cho các lớp bảo mật với ban lãnh đạo.
Bộ nhớ và Session Chú ý đến tình trạng phình to ngữ cảnh (context bloat). Số lượng input token tăng dần qua mỗi lượt có thể dẫn đến sự gia tăng chi phí đột biến.
Các chỉ số chính cho Dashboard của bạn
• Latency: Thời gian đến token đầu tiên (TTFT) và độ trễ của toàn bộ lượt (end-to-end turn latency). • Cost: Tổng số token và chi phí ước tính cho mỗi session. • Reliability: Tỷ lệ lỗi theo loại span (LLM so với Tool so với HTTP). • Behavior: Độ sâu của vòng lặp agent và tần suất gọi công cụ.
Agentic AI là một hệ thống phân tán nơi bộ lập kế hoạch (planner) mang tính xác suất. Nếu bạn không thể nhìn thấy toàn bộ vòng lặp của agent, bạn không thể vận hành nó trong môi trường production.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
