Đánh giá AI tác nhân (Agentic AI) trong kỷ nguyên của các bài kiểm tra LLM
Hầu hết các bài kiểm tra AI đều tuân theo một mô hình đơn giản. Bạn đưa cho mô hình một câu lệnh (prompt). Bạn so sánh câu trả lời với một tài liệu tham chiếu. Bạn chấm điểm kết quả.
Cách này hiệu quả với các bản tóm tắt. Nó hiệu quả với việc phân loại. Nhưng nó thất bại khi một mô hình phải hành động trong một môi trường luôn thay đổi.
Bài báo "The Age of LLM" giới thiệu một phương pháp tốt hơn. Đó là một trò chơi 1v1 trên một lưới ô vuông. Hai mô hình cạnh tranh trong một "màn sương chiến tranh" (fog of war). Chúng không thể nhìn thấy mọi thứ. Chúng phải trinh sát hoặc đoán để tìm ra các đơn vị quân địch. Chúng phải sử dụng ngoại giao để đề xuất các thỏa thuận hoặc tối hậu thư.
Mọi nước đi đều phải tuân theo một lược đồ JSON (JSON schema) nghiêm ngặt. Nếu một nước đi không hợp lệ, hệ thống sẽ loại bỏ nó.
Bài kiểm tra này đo lường các kỹ năng cụ thể:
- Theo dõi trạng thái (State tracking): Mô hình có nhớ những gì nó đã thấy và những gì nó đã mất không?
- Quản lý niềm tin (Belief management): Nó có hành động hợp lý với thông tin không đầy đủ không?
- Tính hợp lệ của hành động (Action validity): Nó có tuân thủ các quy tắc của môi trường không?
- Chiến lược dài hạn (Long-horizon strategy): Nó có thể chọn một chuỗi các nước đi dẫn đến mục tiêu không?
Một mô hình có thể nghe có vẻ trôi chảy nhưng lại thất bại trong thực tế. Nó có thể quên trạng thái của mình hoặc thực hiện các lệnh gọi công cụ (tool calls) không hợp lệ.
Kết quả cho thấy một mô hình chung. Nhiều mô hình rơi vào những cái bẫy đơn giản trong điều kiện không chắc chắn. Hầu hết chọn các nước đi quân sự hung hăng. Ngoại giao có diễn ra, nhưng các thỏa thuận hiếm khi được hoàn tất. Nhiều lỗi đến từ việc theo dõi trạng thái kém.
Các bài kiểm tra tiêu chuẩn bỏ lỡ những thất bại này. Một mô hình có thể viết một lời giải thích tuyệt vời nhưng lại thất bại trong việc theo dõi một đơn vị đang ẩn nấp. Bạn chỉ thấy được điều này khi môi trường buộc mô hình phải hành động.
Các nghiên cứu AI hiện nay thường tập trung vào việc sử dụng công cụ (tool use). Sử dụng công cụ là cần thiết, nhưng chưa đủ. Một tác nhân (agent) thực thụ phải duy trì được ngữ cảnh và phục hồi khi mọi thứ thay đổi.
Ngành công nghiệp đang chuyển dịch từ chất lượng trò chuyện sang kết quả đầu ra (outcomes). Các hệ thống hữu ích được đo lường bằng việc liệu chúng có hoàn thành công việc hay không, chứ không phải chúng tạo ra bao nhiêu văn bản trau chuốt.
Nếu một tác nhân không thể duy trì trạng thái niềm tin, nó không có tính chiến lược. Nếu nó không thể tuân theo một lược đồ (schema), việc sử dụng công cụ của nó sẽ rất mong manh.
Khả năng tác nhân thực thụ đòi hỏi hai điều:
- Khả năng lập kế hoạch.
- Khả năng thực thi trong điều kiện không chắc chắn.
Trong phần mềm, đầu ra lỗi là một lỗi (bug). Trong các tác nhân AI, đầu ra lỗi thường là một thất bại thầm lặng. Một lệnh gọi công cụ không thực hiện được gì cả. Một giả định ngầm định bị sai. Nếu bạn chỉ chấm điểm câu trả lời cuối cùng, bạn sẽ bỏ lỡ vấn đề.
Chúng ta phải kiểm tra:
- Khả năng quan sát một phần (Partial observability)
- Trạng thái ẩn (Hidden state)
- Sự phối hợp dài hạn (Long-horizon coordination)
- Tính hợp lệ của hành động (Action validity)
- Khả năng phục hồi sau sai lầm (Recovery from mistakes)
Việc đánh giá phải tiến gần hơn đến cách các hệ thống này hoạt động trong thế giới thực.
Optional learning community: https://t.me/GyaanSetuAi
