Các mô hình AI chạy liên tục trong 19 ngày trong Benchmark MirrorCode mới
Bối cảnh kỹ thuật phần mềm tự hành đang chuyển dịch từ những đoạn mã đơn giản sang những cuộc marathon lập trình kéo dài nhiều ngày với quy mô khổng lồ. Một benchmark mới từ Epoch AI và METR mang tên MirrorCode cho thấy các mô hình AI hiện nay có thể giải quyết các tác vụ tái triển khai (reimplementation) phức tạp mà trước đây đòi hỏi nhiều tuần lao động của con người.
Thử thách AI với MirrorCode
MirrorCode đại diện cho một sự thay đổi đáng kể so với các benchmark kỹ thuật phần mềm truyền thống, vốn thường giới hạn chi phí suy luận (inference cost) chỉ từ 1 đến 10 USD cho mỗi tác vụ. Thay vào đó, benchmark này yêu cầu các mô hình AI phải tái triển khai các chương trình phức tạp và hoàn chỉnh từ con số không—từ các tiện ích Unix và mật mã học đến tin sinh học và tuần tự hóa dữ liệu—mà không được tiếp cận mã nguồn gốc. Để đảm bảo tính tương đương về chức năng thực sự, mọi giải pháp do AI tạo ra đều phải vượt qua các bài kiểm tra end-to-end ẩn mà mô hình không hề biết trong quá trình phát triển.
Quy mô của các tác vụ này là chưa từng có tiền lệ. Một tác vụ cụ thể trong benchmark yêu cầu một mô hình AI phải làm việc liên tục trong 19 ngày mà không có bất kỳ sự can thiệp nào của con người, dẫn đến chi phí suy luận lên tới 2.600 USD cho một lần chạy duy nhất.
Claude Opus 4.7 dẫn đầu cuộc đua
Kết quả benchmark làm nổi bật một hệ thống phân cấp rõ rệt giữa các mô hình tiên phong hiện nay. Claude Opus 4.7 nổi lên như một người dẫn đầu với tỷ lệ giải quyết đạt 56%, vượt xa GPT-5.5 đạt 44% và Gemini 3.1 Pro Preview dừng lại ở mức 32%.
Một thành công nổi bật liên quan đến bộ công cụ tin sinh học gotree. Chương trình này bao gồm khoảng 16.000 dòng mã Go và có hơn 40 lệnh riêng biệt. Trong khi một kỹ sư con người thường mất từ 2 đến 17 tuần để hoàn thành tác vụ như vậy, Claude Opus 4.7 đã tái triển khai thành công chỉ trong 14 giờ với chi phí 251 USD. Ngay cả trong những trường hợp mô hình không đạt được sự tái triển khai hoàn hảo 100%, chúng vẫn vượt qua đáng kinh ngạc hơn 90% các bài kiểm tra chức năng.
Khoảng cách về độ phức tạp và rủi ro ghi nhớ
Bất chấp những bước tiến này, kết quả MirrorCode cho thấy một "trần độ phức tạp" rõ rệt. Mặc dù tất cả các mô hình được thử nghiệm đều xử lý đáng tin cậy các chương trình nhỏ như uuid hoặc parseqsv, hiện chưa có mô hình nào có khả năng giải quyết hoàn toàn các tác vụ thuộc danh mục "lớn" (large). Ranh giới của lập trình AI vẫn còn gặp khó khăn khi đối mặt với các kiến trúc phần mềm khổng lồ và có tính liên kết chặt chẽ nhất.
Epoch AI cũng đề cập đến một mối lo ngại quan trọng trong việc đánh giá LLM: nhiễm dữ liệu (data contamination). Vì benchmark sử dụng các chương trình mã nguồn mở, có rủi ro là các mô hình đã ghi nhớ mã nguồn gốc trong quá trình huấn luyện. Mặc dù các phát hiện ban đầu cho thấy hiệu suất không hoàn toàn do việc ghi nhớ mang lại, các nhà nghiên cứu thừa nhận rằng họ không thể loại trừ hoàn toàn đóng góp của yếu tố này vào tỷ lệ giải quyết hiện tại.
Tại sao điều này lại quan trọng đối với ngành công nghiệp AI
MirrorCode báo hiệu một sự chuyển dịch từ "AI đóng vai trò Copilot" sang "AI đóng vai trò Tác nhân tự hành" (Autonomous Agent). Bằng cách chứng minh rằng các mô hình có thể duy trì khả năng suy luận trong khoảng thời gian 19 ngày và xử lý hàng nghìn dòng mã, ngành công nghiệp đang tiến gần hơn đến các tác nhân có khả năng quản lý toàn bộ vòng đời phần mềm. Khi chi phí suy luận biến động—với GPT-5.5 tốn kém gấp ba lần so với phiên bản tiền nhiệm trong khi Claude Opus 4.7 trở nên hiệu quả gấp ba lần—tính khả thi về mặt kinh tế của kỹ thuật tự hành sẽ trở thành ranh giới lớn tiếp theo.
Các điểm chính cần lưu ý
- Quy mô suy luận mới: MirrorCode đẩy xa các giới hạn của AI bằng cách cho phép ngân sách suy luận khổng lồ, với các tác vụ đơn lẻ có chi phí lên tới 2.600 USD và chạy trong 19 ngày.
- Claude dẫn đầu về hiệu suất: Claude Opus 4.7 hiện là người dẫn đầu benchmark với tỷ lệ giải quyết 56%, thể hiện khả năng vượt trội trong việc tái triển khai các kho mã nguồn Go quy mô lớn.
- Rào cản độ phức tạp vẫn còn đó: Mặc dù các tác vụ quy mô nhỏ đang được giải quyết một cách đáng tin cậy, nhưng chưa có mô hình hiện tại nào có thể giải quyết hoàn toàn các tác vụ lập trình quy mô lớn và phức tạp nhất.
