Các AI Agent đạt 0% điểm trong các tác vụ chuyên gia

Các AI agent đã thất bại trong các tác vụ chuyên gia.

Điểm chuẩn ALE đã kiểm tra các mô hình hàng đầu trong các công việc chuyên môn. Những tác vụ này đòi hỏi chuyên môn thực thụ. Chúng không phải là những tác vụ đơn giản như tóm tắt một tệp PDF.

Kết quả đã rất rõ ràng. Các mô hình như Fable 5 và GPT-5.5 đạt 0% điểm trong những vấn đề chuyên gia khó nhất. Ngay cả việc tung đồng xu cũng sẽ cho kết quả tốt hơn.

Hiệu suất trong các tác vụ cấp trung cũng thấp. Các agent tốt nhất cũng chỉ đạt tỷ lệ thành công từ 15% đến 21%.

Các AI agent không giống như những gì truyền thông đang thổi phồng.

Bạn thấy các video về agent đặt vé máy bay hoặc viết mã nguồn. Những bản demo này trông rất tuyệt vời. Nhưng demo là được dàn dựng. Benchmark thì không.

Có một khoảng cách khổng lồ giữa bản demo và việc triển khai thực tế. Nhiều đội ngũ đưa ra quyết định sản phẩm dựa trên những kỹ năng không hề tồn tại. Họ lên kế hoạch để các agent quản lý toàn bộ quy trình làm việc. Đây là một sai lầm.

Dưới đây là những gì dữ liệu cho thấy:

  • Agent hoạt động tốt dưới vai trò trợ lý cho các tác vụ cấp trung.
  • Khả năng tự chủ chuyên gia vẫn chưa hiện hữu.
  • Benchmark đáng tin cậy hơn demo.

Nếu bạn xây dựng ứng dụng với agent ngày hôm nay, hãy xây dựng dựa trên những giới hạn hiện tại của chúng. Đừng xây dựng dựa trên những gì một diễn giả hứa hẹn sẽ sớm xảy ra.

Ngành công nghiệp đang phớt lờ những kết quả này. Mọi người vẫn tiếp tục xây dựng lộ trình dựa trên sự thổi phồng thay vì dữ liệu.

Nếu bạn sử dụng agent trong sản phẩm của mình, hãy đối xử với chúng như những lập trình viên sơ cấp (junior developers). Chúng làm việc trên các tác vụ nhỏ với các quy tắc rõ ràng. Chúng sẽ thất bại trong các công việc phức tạp nếu không có sự giám sát.

Hãy tuân thủ các quy tắc sau:

  • Luôn có con người tham gia vào quy trình (human in the loop) đối với các công việc có rủi ro cao.
  • Giao cho agent các tác vụ rất hẹp.
  • Đo lường hiệu suất dựa trên khối lượng công việc thực tế của bạn.

Một cách tiếp cận thực tế thì ít thú vị hơn một bài viết đầy sự thổi phồng. Nhưng nó mang lại phần mềm hoạt động được.

Agent là công cụ. Chúng không phải là một lực lượng lao động tự chủ. Hãy xây dựng dựa trên thực tế.

Khả năng nào của agent mà bạn thấy bị thổi phồng quá mức nhất mà các đội ngũ đang cố gắng tung ra thị trường? Hãy chia sẻ câu chuyện của bạn bên dưới.

Nguồn: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi