OpenAI ra mắt GPT-5.6 Sol nhằm thách thức Claude Mythos

OpenAI đã chính thức trình làng GPT-5.6 Sol, một thế hệ mô hình mới tinh vi được thiết kế để thống trị các lĩnh vực lập trình tác nhân (agentic coding) và an ninh mạng. Mặc dù đợt phát hành này đánh dấu một bước nhảy vọt đáng kể về khả năng suy luận, nhưng nó lại diễn ra giữa bối cảnh đang nảy sinh tranh cãi liên quan đến các giao thức truy cập hạn chế từ chính phủ Hoa Kỳ.

Kiến trúc phân tầng mới cho Hiệu suất và Quy mô

Thay vì chỉ phát hành các mô hình đơn lẻ, OpenAI đã giới thiệu một sơ đồ đặt tên phân lớp được thiết kế cho các nhu cầu doanh nghiệp đa dạng. Kiến trúc này sử dụng "Sol", "Terra" và "Luna" làm các tầng hiệu suất cố định, cho phép các nhà phát triển mở rộng quy mô theo ngân sách và độ phức tạp.

Đứng đầu hệ thống phân cấp là Sol, mô hình chủ lực. Dưới đó là Terra, mô hình có hiệu suất tương đương GPT-5.5 với chi phí chỉ bằng khoảng một nửa, và Luna, tầng tiết kiệm ngân sách. Đối với các khối lượng công việc cường độ cao, OpenAI đã giới thiệu chế độ "max" để suy luận sâu và chế độ "ultra", sử dụng các tác nhân phụ (sub-agents) chạy song song để giải quyết các tác vụ phức tạp và đa diện.

Thiết lập các chuẩn mực mới trong Lập trình và Sinh học

Mục tiêu chính của GPT-5.6 Sol là vượt qua dòng Claude Mythos của Anthropic. Trong các tác vụ lập trình tác nhân, các con số đã chứng minh cho tuyên bố của OpenAI: trên chuẩn đánh giá Terminal-Bench 2.1, Sol Ultra đã đạt được con số kinh ngạc 91,9%, vượt qua Claude Mythos 5 (88,0%) và Gemini 3.1 Pro Preview của Google (70,7%).

Mô hình này cũng cho thấy những đột phá đáng kể trong các ngành khoa học chuyên biệt. Trên chuẩn đánh giá genomics GeneBench v1, Sol đạt 30%, một sự gia tăng đáng kể so với mức 22% của GPT-5.5, đặc biệt là khi tiêu thụ ít token hơn. Hiệu quả này cho thấy OpenAI đang tập trung vào tính toán "thông minh hơn" thay vì chỉ là tính toán "lớn hơn".

An ninh mạng: Bên phòng thủ đối đầu với Bên tấn công

Trong lĩnh vực an ninh mạng, Sol hướng tới trở thành một công cụ phòng thủ hàng đầu. Trên ExploitBench—một bài kiểm tra khả năng tìm kiếm và khai thác các lỗ hổng trong công cụ JavaScript Google V8—Sol đạt hiệu suất tương đương với Mythos Preview của Anthropic nhưng có một lợi thế quan trọng: nó chỉ sử dụng khoảng một phần ba số token đầu ra.

OpenAI đang định vị Sol là một bên phòng thủ thay vì một kẻ tấn công tự trị. Trong các thử nghiệm liên quan đến Chromium và Firefox, mô hình đã xác định thành công các lỗi và các nguyên mẫu khai thác (exploitation primitives) nhưng đã dừng lại trước khi tạo ra một chuỗi khai thác tự trị hoàn chỉnh. OpenAI khẳng định rằng Sol vẫn nằm dưới ngưỡng "Cyber Critical" trong Khung chuẩn bị (Preparedness Framework) nội bộ của mình.

Tranh cãi về việc Kiểm soát Truy cập bởi Chính phủ

Việc triển khai GPT-5.6 Sol không phải là không có những trở ngại. Hiện tại, quyền truy cập đang bị giới hạn cho một số ít đối tác được lựa chọn thông qua API và Codex, một hạn chế do chính phủ Hoa Kỳ bắt buộc. Điều này diễn ra sau quyết định trước đó của chính phủ về việc loại bỏ Fable 5 của Anthropic khỏi thị trường.

OpenAI đã lên tiếng phản đối mạnh mẽ những hạn chế này, gọi quy trình truy cập của chính phủ hiện tại là "không bền vững". Công ty lập luận rằng những hạn chế như vậy ngăn cản các nhà phát triển, doanh nghiệp và những người bảo vệ an ninh mạng tiếp cận chính những công cụ mà họ cần để bảo vệ cơ sở hạ tầng kỹ thuật số toàn cầu.

Các điểm chính cần lưu ý

  • Chiến lược mô hình phân tầng: OpenAI giới thiệu một hệ thống phân cấp mới—Sol (chủ lực), Terra (tầm trung) và Luna (tiết kiệm)—cùng với chế độ "Ultra" để thực hiện các tác vụ bằng tác nhân phụ song song.
  • Thống trị các chuẩn đánh giá: GPT-5.6 Sol Ultra dẫn đầu ngành trong lĩnh vực lập trình tác nhân với 91,9% trên Terminal-Bench 2.1, vượt xa Claude Mythos và Gemini một cách đáng kể.
  • Tiếp cận ưu tiên hiệu quả: Sol đạt được kết quả cạnh tranh trong lĩnh vực an ninh mạng và genomics trong khi sử dụng ít token hơn đáng kể, có khả năng làm giảm chi phí thực tế cho mỗi tác vụ đối với các nhà phát triển.