Các AI Agent đạt 0% điểm trong các nhiệm vụ chuyên gia

Translated for your language. Read the original.

AI-assisted draft.

Hôm kia2min read

Các AI Agent đạt 0% điểm trong các tác vụ chuyên gia

Các AI agent đã thất bại trong các tác vụ chuyên gia.

Điểm chuẩn ALE đã kiểm tra các mô hình hàng đầu trong các công việc chuyên môn. Những tác vụ này đòi hỏi chuyên môn thực thụ. Chúng không phải là những tác vụ đơn giản như tóm tắt một tệp PDF.

Kết quả đã rất rõ ràng. Các mô hình như Fable 5 và GPT-5.5 đạt 0% điểm trong những vấn đề chuyên gia khó nhất. Ngay cả việc tung đồng xu cũng sẽ cho kết quả tốt hơn.

Hiệu suất trong các tác vụ cấp trung cũng thấp. Các agent tốt nhất cũng chỉ đạt tỷ lệ thành công từ 15% đến 21%.

Các AI agent không giống như những gì truyền thông đang thổi phồng.

Bạn thấy các video về agent đặt vé máy bay hoặc viết mã nguồn. Những bản demo này trông rất tuyệt vời. Nhưng demo là được dàn dựng. Benchmark thì không.

Có một khoảng cách khổng lồ giữa bản demo và việc triển khai thực tế. Nhiều đội ngũ đưa ra quyết định sản phẩm dựa trên những kỹ năng không hề tồn tại. Họ lên kế hoạch để các agent quản lý toàn bộ quy trình làm việc. Đây là một sai lầm.

Dưới đây là những gì dữ liệu cho thấy:

Agent hoạt động tốt dưới vai trò trợ lý cho các tác vụ cấp trung.
Khả năng tự chủ chuyên gia vẫn chưa hiện hữu.
Benchmark đáng tin cậy hơn demo.

Nếu bạn xây dựng ứng dụng với agent ngày hôm nay, hãy xây dựng dựa trên những giới hạn hiện tại của chúng. Đừng xây dựng dựa trên những gì một diễn giả hứa hẹn sẽ sớm xảy ra.

Ngành công nghiệp đang phớt lờ những kết quả này. Mọi người vẫn tiếp tục xây dựng lộ trình dựa trên sự thổi phồng thay vì dữ liệu.

Nếu bạn sử dụng agent trong sản phẩm của mình, hãy đối xử với chúng như những lập trình viên sơ cấp (junior developers). Chúng làm việc trên các tác vụ nhỏ với các quy tắc rõ ràng. Chúng sẽ thất bại trong các công việc phức tạp nếu không có sự giám sát.

Hãy tuân thủ các quy tắc sau:

Luôn có con người tham gia vào quy trình (human in the loop) đối với các công việc có rủi ro cao.
Giao cho agent các tác vụ rất hẹp.
Đo lường hiệu suất dựa trên khối lượng công việc thực tế của bạn.

Một cách tiếp cận thực tế thì ít thú vị hơn một bài viết đầy sự thổi phồng. Nhưng nó mang lại phần mềm hoạt động được.

Agent là công cụ. Chúng không phải là một lực lượng lao động tự chủ. Hãy xây dựng dựa trên thực tế.

Khả năng nào của agent mà bạn thấy bị thổi phồng quá mức nhất mà các đội ngũ đang cố gắng tung ra thị trường? Hãy chia sẻ câu chuyện của bạn bên dưới.

Nguồn: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Các AI Agent đạt 0% điểm trong các nhiệm vụ chuyên gia

Continue reading

Điểm mù của các AI Agent

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺