Bảng xếp hạng Agent gây hiểu lầm khi có sự thay đổi phân phối (Distribution Shift)
Các bảng xếp hạng AI agent hiện nay đang gặp vấn đề.
Hầu hết các bảng xếp hạng lấy một agent và chuyển đổi nó thành một điểm số duy nhất. Sau đó, họ sắp xếp các agent từ cao xuống thấp. Điều này trông có vẻ ổn trong một bản báo cáo, nhưng lại thất bại trong thế giới thực.
Một bài báo mới từ IBM có tiêu đề "Beyond Static Leaderboards" đã giải thích lý do tại sao.
Vấn đề: Điểm số tổng hợp (Aggregate Scores)
Một điểm số trung bình duy nhất là một tín hiệu yếu để triển khai. Một quy trình đánh giá nên cho bạn biết nên đưa agent nào vào sử dụng. Nếu agent đứng đầu trong một bài kiểm tra (benchmark) không phải là agent đứng đầu trong môi trường thực tế (production) của bạn, thì bảng xếp hạng đã đánh lừa bạn.
IBM nhận thấy rằng các thứ hạng dựa trên điểm số tổng hợp không còn chính xác khi các điều kiện thay đổi. Điều này được gọi là sự thay đổi phân phối (distribution shift).
Phép ẩn dụ: Những vận động viên chạy nước rút trong gió
- Hãy tưởng tượng việc xếp hạng các vận động viên chạy nước rút trong nhà trên một đường chạy không có gió.
- Vận động viên A thắng. Vận động viên B về nhì.
- Bây giờ, hãy chuyển cuộc đua ra ngoài trời với gió lớn.
- Thứ hạng thay đổi. Vận động viên B thắng. Vận động viên A rơi xuống vị trí thứ ba.
Đồng hồ đo trong nhà không hề sai. Nó đã đo tốc độ trong một bối cảnh cụ thể. Nó chỉ đơn giản là không thể dự đoán được các vận động viên sẽ thể hiện như thế nào trong gió.
Giải pháp: Giá trị dự báo (Predictive Validity)
IBM đề xuất sử dụng giá trị dự báo thay vì chỉ sử dụng điểm số thô.
Giá trị dự báo đo lường sự tương quan về thứ hạng giữa một bài kiểm tra (benchmark) và kết quả thực tế. Nó đặt ra một câu hỏi đơn giản: thứ tự của các agent có giữ nguyên khi môi trường thay đổi hay không?
- Giá trị dự báo cao: Bảng xếp hạng dự đoán đúng người chiến thắng trong thế giới thực.
- Giá trị dự báo thấp: Bảng xếp hạng chỉ ra sai agent.
Các khái niệm chính:
- In-sample: Các tác vụ cụ thể mà bài kiểm tra sử dụng.
- Out-of-distribution: Các tác vụ mới, công cụ mới hoặc dữ liệu khác biệt gặp phải trong quá trình triển khai.
- Rank instability (Sự mất ổn định thứ hạng): Khi một thay đổi nhỏ trong các tác vụ làm xáo trộn toàn bộ bảng xếp hạng.
Đừng coi các bài kiểm tra (benchmarks) chỉ đơn thuần là bảng điểm. Hãy coi chúng là các công cụ đo lường. Nếu một công cụ không thể dự đoán được kết quả mà bạn quan tâm, nó sẽ vô dụng trong môi trường thực tế (production).
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
