Chỉ có ba mô hình AI sống sót sau mô phỏng khởi nghiệp kéo dài 500 ngày

Các tác nhân AI hiện nay rất xuất sắc trong các tác vụ rời rạc, nhưng chúng lại gặp khó khăn với tư duy chiến lược phức tạp và dài hạn cần thiết để điều hành một doanh nghiệp. Một tiêu chuẩn đánh giá (benchmark) mới mang tên CEO-Bench tiết lộ rằng trong khi hầu hết các mô hình ngôn ngữ lớn (LLM) đều phá sản trong vòng 500 ngày mô phỏng, một số ít mô hình chọn lọc đang bắt đầu cho thấy dấu hiệu của "trí tuệ điều hướng" (steering intelligence).

Giới thiệu CEO-Bench: Bài kiểm tra tối thượng về trí tuệ chiến lược

Các nhà nghiên cứu đã vượt xa các bài kiểm tra gợi ý (prompting) đơn giản để phát triển CEO-Bench, một mô phỏng nghiêm ngặt được thiết kế để đo lường khả năng điều hướng toàn bộ tổ chức hướng tới các mục tiêu dài hạn của một tác nhân. Trong bài kiểm tra này, một tác nhân AI sẽ nắm quyền kiểm soát "NovaMind", một công ty phần mềm đăng ký thuê bao giả tưởng, bắt đầu với 1 triệu USD vốn và không có khách hàng nào.

Môi trường được thiết kế để mô phỏng sự biến động của thế giới thực. Các tác nhân tương tác với một Python API bao gồm 34 công cụ và một cơ sở dữ liệu gồm 19 bảng, yêu cầu chúng phải viết mã tùy chỉnh và các truy vấn SQL để đưa ra quyết định. Rủi ro là rất lớn: nếu số dư tiền mặt của công ty xuống dưới mức 0 tại bất kỳ thời điểm nào trong giai đoạn 500 ngày, mô phỏng sẽ kết thúc bằng sự phá sản.

Sự phức tạp nảy sinh từ các vòng lặp phản hồi bị trì hoãn. Không giống như các tác nhân hướng tác vụ, một CEO phải điều phối các mốc thời gian R&D, chu kỳ thị trường và kỳ vọng thay đổi của khách hàng. Các quyết định được đưa ra vào ngày thứ 10—chẳng hạn như chi phí quảng cáo hoặc các mức giá—có thể không mang lại kết quả rõ rệt về tăng trưởng thuê bao hoặc dòng tiền cho đến nhiều tuần sau đó.

Khủng hoảng phá sản: Tại sao hầu hết các mô hình đều thất bại

Kết quả của bài kiểm tra trên 14 mô hình thật đáng suy ngẫm. Mặc dù hầu hết các mô hình có thể thực hiện các lệnh cơ bản, chúng lại thiếu chiến lược dài hạn mạch lạc cần thiết để duy trì khả năng thanh toán. Đa số các tác nhân đã thất bại trong việc điều hướng sự bất định của thị trường và phá sản trước mốc 500 ngày.

Trong một sự so sánh đáng kinh ngạc, một phương pháp heuristic dựa trên quy tắc đơn giản—một chương trình không phải AI sử dụng mức giá cố định và các điều chỉnh năng lực cơ bản—đã đạt được 15,76 triệu USD. Kết quả này vượt qua hầu hết mọi LLM được thử nghiệm, chứng minh rằng "trí tuệ" mà không có định hướng thường kém hiệu quả hơn một kế hoạch kinh doanh cơ bản và kỷ luật.

Bộ ba ưu tú: Claude và GPT dẫn đầu

Chỉ có ba mô hình quản lý được việc kết thúc chu kỳ chạy với số vốn nhiều hơn mức 1 triệu USD ban đầu. Những mô hình này đã chứng minh khả năng khám phá thông tin ẩn và dự đoán dòng tiền trong tương lai:

  • Claude Fable 5: Mô hình có hiệu suất cao nhất, đạt con số kinh ngạc 47,15 triệu USD và cho thấy sự nhất quán nhất qua nhiều lần chạy.
  • Claude Opus 4.8: Đạt 27,8 triệu USD, thể hiện sự tinh vi ở cấp độ cao bằng cách xây dựng mô phỏng nội bộ riêng để mô hình hóa các nhóm khách hàng (customer cohorts).
  • GPT-5.5: Đạt 21,3 triệu USD, thành công nhờ phân tích lịch sử đàm phán để khám phá các sở thích ẩn của khách hàng.

Thú vị là các mô hình đã sử dụng những con đường khác nhau để đi đến thành công. Trong khi Opus 4.8 tập trung vào việc thu hút khách hàng sớm một cách quyết liệt, GPT-5.5 lại ưu tiên duy trì cơ sở khách hàng ổn định. Ngược lại, các mô hình như Claude Opus 4.7 lại áp dụng tư duy "sinh tồn", chỉ đơn thuần là cắt giảm chi phí để tránh phá sản mà không bao giờ tạo ra lợi nhuận đáng kể.

Tại sao điều này lại quan trọng đối với tương lai của AI

Khoảng cách giữa các tác nhân có hiệu suất tốt nhất (47,15 triệu USD) và giới hạn trên lý thuyết của mô phỏng (2,2 tỷ USD) cho thấy "trí tuệ điều hướng" của AI vẫn còn đang ở giai đoạn sơ khai. Đối với các nhà phát triển và nhà sáng lập, benchmark này nhấn mạnh rằng ranh giới tiếp theo của AI không chỉ là khả năng lập luận tốt hơn, mà còn là nhận thức về thời gian tốt hơn—khả năng quản lý các nguồn lực và kỳ vọng trong những khoảng thời gian dài và bất định.

Những điểm chính cần lưu ý

  • Khoảng cách chiến lược: Hầu hết các mô hình AI hiện nay thiếu "trí tuệ điều hướng" để quản lý các chu kỳ kinh doanh dài hạn, với đa số thất bại trong bài kiểm tra sinh tồn 500 ngày.
  • Những người dẫn đầu: Chỉ có Claude Fable 5, Claude Opus 4.8 và GPT-5.5 thành công trong việc tăng vốn của công ty vượt quá mức 1 triệu USD ban đầu.
  • Tiêu chuẩn Heuristic: Một thuật toán dựa trên quy tắc đơn giản, không phải AI, đã vượt qua gần như tất cả các LLM, nhấn mạnh rằng sự nhất quán về chiến lược quan trọng hơn sức mạnh xử lý thô.