Tại sao các tiêu chuẩn đánh giá AI tiêu chuẩn lại đánh giá thấp năng lực của các tác nhân một cách có hệ thống

Các phương pháp đánh giá AI hiện nay đang thất bại trong việc nắm bắt tiềm năng thực sự của các mô hình tiên phong (frontier models), thường nhầm lẫn giữa việc thiếu ngân sách tính toán với việc thiếu trí thông minh. Viện An ninh AI (AISI) của Vương quốc Anh đã tiết lộ rằng hiệu suất của tác nhân AI không phải là một điểm số cố định, mà là một đường cong mở rộng (scaling curve) tăng mạnh khi tăng cường tính toán tại thời điểm kiểm tra (test-time compute).

Đường cong Tính toán - Năng lực

Phát hiện trung tâm từ nghiên cứu của AISI là tỷ lệ thành công của một tác nhân AI gắn liền không thể tách rời với "tính toán tại thời điểm kiểm tra" (test-time compute)—lượng sức mạnh xử lý và số lượng token mà một tác nhân được phép sử dụng khi thực hiện một nhiệm vụ. Khi các nhà nghiên cứu áp dụng các mức giới hạn ngân sách cố định cho việc đánh giá, họ đang đo lường năng lực tối thiểu của một mô hình thay vì tiềm năng tối đa của nó.

Hiện tượng này có thể thấy rõ trong nhiều lĩnh vực quan trọng. Trong các nhiệm vụ kỹ thuật phần mềm sử dụng các tiêu chuẩn như TerminalBench 2.0 và SWE-Bench Pro, tỷ lệ thành công đã tăng vọt khoảng 25% khi ngân sách token được tăng từ một triệu lên mười triệu. Tương tự, các nhiệm vụ toán học và học thuật trong "Humanity's Last Exam" đã chứng kiến mức tăng 22% khi ngân sách đạt mức năm triệu token.

Quy luật lũy thừa của Thời gian thực hiện nhiệm vụ: Con người vs. AI

Nghiên cứu đã thiết lập một mối tương quan trực tiếp giữa thời gian mà một chuyên gia con người cần cho một nhiệm vụ và lượng tiêu thụ token cần thiết của một tác nhân AI. Mối quan hệ này tuân theo một quy luật lũy thừa (power law): một nhiệm vụ mất một phút đối với con người sẽ tiêu tốn của tác nhân hàng nghìn token, trong khi một nhiệm vụ kéo dài một giờ sẽ tiêu tốn hàng triệu token.

Điều này tạo ra một điểm mù khổng lồ trong việc kiểm thử hiện nay. Ví dụ, nhiệm vụ an ninh mạng "The Last Ones" của AISI đòi hỏi khoảng 20 giờ chuyên môn của con người. Không có mô hình nào được viện kiểm tra có thể giải quyết nhiệm vụ này với ít hơn 30 triệu token. Bằng cách sử dụng các đánh giá tiêu chuẩn với ngân sách thấp hơn, các nhà nghiên cứu đang vô tình loại bỏ các nhiệm vụ phức tạp và quan trọng nhất ra khỏi quá trình đo lường.

Tăng tốc tiến độ và Ba trục cải thiện

AISI lưu ý rằng "tầm nhìn thời gian" (time horizon) của các mô hình tiên phong—độ phức tạp của các nhiệm vụ mà chúng có thể xử lý—đang mở rộng nhanh hơn nhiều so với suy nghĩ trước đây. Trong khi các ước tính trước đó cho thấy tầm nhìn thời gian cho các nhiệm vụ an ninh mạng tăng gấp đôi sau mỗi 4,7 tháng với ngân sách cố định 2,5 triệu token, thì tốc độ đó tăng lên đáng kể ở mức ngân sách cao hơn. Ở mức 50 triệu token, tốc độ gấp đôi tăng lên còn mỗi 40 đến 50 ngày.

Các mô hình mới hơn (chẳng hạn như các dòng GPT và Claude được thử nghiệm) cho thấy sự cải thiện trên ba khía cạnh cụ thể:

  • Phạm vi (Reach): Khả năng giải quyết các nhiệm vụ ngày càng khó hơn.
  • Độ tin cậy (Reliability): Khả năng giải quyết cùng một nhiệm vụ một cách nhất quán hơn.
  • Hiệu quả (Efficiency): Khả năng giải quyết các nhiệm vụ bằng cách sử dụng ít token hơn.

Hệ lụy đối với An toàn và Triển khai AI

Nghiên cứu này chuyển đổi mô hình đánh giá AI từ "điểm số cố định" sang "đường cong nhận biết tính toán" (compute-aware curves). Đối với các nhà phát triển và nhà sáng lập, điều này có nghĩa là tiện ích của một mô hình không chỉ là hàm số của quá trình huấn luyện, mà còn của lượng tính toán suy luận (inference compute) được phân bổ trong quá trình triển khai.

Khi chi phí trên mỗi token tiếp tục giảm, các năng lực trước đây có vẻ không khả thi về mặt kinh tế sẽ trở thành tiêu chuẩn. Đối với an toàn và an ninh AI, điều này có nghĩa là các rủi ro liên quan đến các tác nhân tự trị—chẳng hạn như các cuộc tấn công mạng phức tạp—có thể bị đánh giá thấp đáng kể nếu các cơ quan quản lý và công ty chỉ dựa vào các tiêu chuẩn truyền thống với ngân sách thấp.

Các điểm chính cần lưu ý

  • Các tiêu chuẩn đánh giá (benchmarks) gây hiểu lầm: Ngân sách token cố định chỉ nắm bắt được hiệu suất tối thiểu của mô hình, đánh giá thấp một cách có hệ thống mức trần mà các tác nhân AI có thể đạt được.
  • Tính toán mở rộng năng lực: Tỷ lệ thành công trong kỹ thuật phần mềm và toán học tăng vọt khi ngân sách tính toán tại thời điểm kiểm tra tăng lên.
  • Tốc độ "gấp đôi" đang tăng tốc: Ở mức ngân sách tính toán cao hơn, tốc độ mà các mô hình tiên phong làm chủ các nhiệm vụ phức tạp sẽ dốc hơn nhiều so với ước tính trước đây.