Các tác nhân AI hiện đã hoàn thành 16% công việc tự do với chất lượng chuyên nghiệp

Translated for your language. Read the original.

AI-assisted draft.

In this article

Các tác nhân AI hiện đã hoàn thành 16% công việc tự do với chất lượng chuyên nghiệp

Bối cảnh lao động từ xa đang thay đổi với tốc độ chóng mặt khi các tác nhân AI cho thấy khả năng ngày càng tăng trong việc xử lý các tác vụ phức tạp và có giá trị thương mại cao. Dữ liệu mới tiết lộ rằng tỷ lệ tự động hóa cao nhất đối với các công việc tự do cấp độ chuyên nghiệp đã tăng gấp bốn lần trong chưa đầy tám tháng.

Sự trỗi dậy nhanh chóng của Chỉ số Lao động Từ xa

Chỉ số Lao động Từ xa (Remote Labor Index - RLI), một tiêu chuẩn đánh giá được phát triển bởi Center for AI Safety (CAIS) phối hợp với Scale Labs, theo dõi tần suất các tác nhân AI hoàn thành các dự án tự do có trả phí ở mức chất lượng mà khách hàng chấp nhận được. Khác với các tiêu chuẩn đánh giá tạo văn bản đơn giản, RLI tập trung vào các lĩnh vực có tính rủi ro cao bao gồm 3D/CAD, kiến trúc, thiết kế đồ họa, hoạt hình video, kỹ thuật âm thanh và phát triển ứng dụng web.

Nghiên cứu đã phân tích 240 dự án với tổng giá trị 144.000 USD, được thu thập từ 358 freelancer đã được xác minh. Kết quả cho thấy một bước nhảy vọt về năng lực: chỉ tám tháng trước, tỷ lệ tự động hóa cao nhất chỉ ở mức vỏn vẹn 2,5%. Ngày nay, con số này đã tăng vọt lên 16,1%.

Fable 5 dẫn đầu ranh giới mới của tự động hóa

Kết quả RLI mới nhất làm nổi bật bước nhảy vọt đáng kể trong hiệu suất của các mô hình, trong đó Fable 5 nổi lên là người dẫn đầu hiện tại. Fable 5 đạt tỷ lệ tự động hóa 16,1%, cao gấp đôi so với đối thủ cạnh tranh gần nhất là Opus 4.8 (đạt 8,3%). Các đối thủ đáng chú ý khác bao gồm GPT-5.5 với tỷ lệ đạt 6,3%.

Sự tiến bộ nhanh chóng này nhấn mạnh khả năng đang tăng tốc của các quy trình tác nhân (agentic workflows) chuyên biệt. Để đạt được những kết quả này, môi trường thử nghiệm sử dụng các máy ảo Linux được trang bị hơn 30 ứng dụng chuyên nghiệp như Blender, GIMP và Audacity. Các tác nhân được cấp tối đa 24 giờ thời gian tính toán cho mỗi dự án và sử dụng một "vòng lặp phê bình" (critic loop)—một tác nhân AI thứ hai có nhiệm vụ xem xét và yêu cầu chỉnh sửa để mô phỏng tính chất khắt khe của một khách hàng là con người.

Những hạn chế của các giám khảo AI và phần mềm chuyên nghiệp

Bất chấp những tiến bộ này, báo cáo cũng chỉ ra một nút thắt quan trọng: các tác nhân AI vẫn gặp khó khăn với "dặm cuối" (last mile) của độ chính xác chuyên nghiệp. Ví dụ, trong các tác vụ kiến trúc, GPT-5.5 được phát hiện là đã tạo ra các bản kết xuất hình ảnh (renders) bắt mắt trong khi cấu trúc hình học 3D bên dưới vẫn còn sai sót cơ bản.

Một phát hiện quan trọng của nghiên cứu là các giám khảo AI vẫn chưa thể thay thế những người đánh giá là con người. Khi được thử nghiệm, các giám khảo AI được thấy là quá dễ dãi; đối với GPT-5.5, điểm số của giám khảo AI cao gần gấp ba lần so với chất lượng thực tế do con người xác minh. Sự sai lệch này tồn tại vì việc đánh giá thực sự một công việc chuyên nghiệp đòi hỏi khả năng tương tác sâu với các phần mềm chuyên dụng—một lĩnh vực mà các tác nhân AI hiện nay vẫn đang đối mặt với những rào cản đáng kể.

Khi các tác nhân chuyển từ các giao diện trò chuyện đơn giản sang việc vận hành các chương trình đồ họa phức tạp, ngành công nghiệp đang chứng kiến một sự thay đổi căn bản trong cách "công việc" được định nghĩa và thực hiện trong nền kinh tế số.

Các điểm chính cần lưu ý

Tăng trưởng theo cấp số nhân: Tỷ lệ tự động hóa cao nhất cho các tác vụ tự do chuyên nghiệp đã nhảy vọt từ 2,5% lên 16,1% trong chưa đầy tám tháng.
Sự dẫn đầu của các mô hình: Fable 5 hiện đang dẫn đầu ngành với tỷ lệ tự động hóa 16,1%, vượt xa Opus 4.8 (8,3%) và GPT-5.5 (6,3%).
Yêu cầu về con người: Những người đánh giá là con người vẫn đóng vai trò thiết yếu, vì các giám khảo AI có xu hướng quá hào phóng và thiếu khả năng phát hiện các lỗi cấu trúc trong các tệp phần mềm chuyên dụng.

Các tác nhân AI hiện đã hoàn thành 16% công việc tự do với chất lượng chuyên nghiệp

Các tác nhân AI hiện đã hoàn thành 16% công việc tự do với chất lượng chuyên nghiệp

Sự trỗi dậy nhanh chóng của Chỉ số Lao động Từ xa

Fable 5 dẫn đầu ranh giới mới của tự động hóa

Những hạn chế của các giám khảo AI và phần mềm chuyên nghiệp

Các điểm chính cần lưu ý

Continue reading

Benchmark AA Briefcase mới tiết lộ sự chật vật của AI với các công việc tri thức thực tế

Sự trỗi dậy của Agentic AI: Tại sao các đội ngũ công nghệ đang dẫn đầu ranh giới tự động hóa

Tại sao các bộ benchmark AI tiêu chuẩn lại đánh giá thấp khả năng của các tác nhân một cách có hệ thống