Anthropic ra mắt Claude Sonnet 5 nhằm cung cấp sức mạnh cho các AI Agent giá rẻ

Anthropic đã chính thức phát hành Claude Sonnet 5, một mô hình quy mô trung bình được thiết kế đặc biệt để thu hẹp khoảng cách giữa khả năng suy luận cao cấp và khả năng thực thi tự động tiết kiệm chi phí. Bằng cách ưu tiên các khả năng "agentic" — bao gồm khả năng sử dụng công cụ, lập kế hoạch và lặp lại — Anthropic đang định vị Sonnet 5 là công cụ hàng đầu cho các nhà phát triển đang xây dựng các quy trình làm việc tự động.

Sự chuyển dịch hướng tới Trí tuệ Agentic

Trong cuộc chạy đua vũ trang AI hiện nay, ngành công nghiệp đang chuyển dịch từ các chatbot đơn giản sang các tác nhân tự hành (autonomous agents). Việc phát hành của Anthropic nối tiếp các bước đi tương tự từ OpenAI với GPT-5.6 Sol và Google với Gemini 3.5 Flash, báo hiệu rằng hiệu suất agentic đang trở thành tiêu chuẩn mới.

Claude Sonnet 5 được thiết kế để hoạt động như một người vận hành tự hành, có khả năng sử dụng trình duyệt và terminal để thực hiện các tác vụ đa bước. Không giống như các phiên bản trước đó có thể bị đình trệ trong các chuỗi tác vụ phức tạp, Sonnet 5 thể hiện khả năng độc đáo trong việc "tự kiểm tra kết quả đầu ra" và hoàn thành các quy trình làm việc từ đầu đến cuối. Ví dụ, các kỹ sư tại Zapier lưu ý rằng mô hình đã hoàn thành thành công một tác vụ gồm hai phần — cập nhật các cấp độ tài khoản Salesforce và gửi thông báo ra mắt doanh nghiệp — một quy trình mà trước đây thường khiến các mô hình đời cũ thất bại giữa chừng.

Điểm chuẩn hiệu suất: Sánh ngang với các đối thủ nặng ký

Mặc dù Sonnet 5 là một mô hình quy mô trung bình, nhưng các chỉ số hiệu suất của nó tiệm cận với mô hình chủ lực Opus 4.8 của Anthropic. Trong các bài kiểm tra điểm chuẩn về lập trình agentic, Sonnet 5 đạt 63,2%, cao hơn đáng kể so với phiên bản tiền nhiệm Sonnet 4.6 (58,1%) và chỉ kém một chút so với Opus 4.8 (69,2%).

Đáng chú ý, trong các bài kiểm tra điểm chuẩn về công việc tri thức cụ thể, Sonnet 5 thực tế đã vượt qua Opus 4.8. Điều này khiến nó trở thành một lựa chọn cực kỳ hiệu quả cho các nhà phát triển cần khả năng suy luận sâu mà không phải trả mức giá cao cấp của một mô hình hàng đầu. Anthropic cho rằng trong khi Opus 4.8 vẫn là tiêu chuẩn cho độ chính xác cực cao và khả năng phán đoán tinh tế, thì Sonnet 5 mang lại sự cân bằng lý tưởng giữa chất lượng và chi phí cho việc tự động hóa hàng ngày.

Chính sách giá cạnh tranh và các tiêu chuẩn an toàn

Để thúc đẩy việc áp dụng, Anthropic đã giới thiệu một cấu trúc giá cạnh tranh. Cho đến hết ngày 31 tháng 8, Sonnet 5 có giá 2 USD cho mỗi triệu token đầu vào và 10 USD cho mỗi triệu token đầu ra. Sau giai đoạn này, giá sẽ điều chỉnh thành 3 USD cho mỗi triệu token đầu vào và 15 USD cho mỗi triệu token đầu ra. Cách định vị này giúp Sonnet 5 có giá cả phải chăng hơn so với GPT-5.5 của OpenAI và Gemini 3.1 Pro của Google, mặc dù vẫn đắt hơn Gemini 3.5 Flash.

An toàn cũng quan trọng không kém trong việc triển khai agentic, nơi khả năng từ chối các lệnh độc hại của mô hình là tối quan trọng. Sonnet 5 cho thấy tỷ lệ "hành vi không mong muốn", chẳng hạn như lừa dối hoặc hợp tác trong việc lạm dụng, đã giảm so với Sonnet 4.6. Nó cũng cho thấy khả năng chống lại các cuộc tấn công prompt-injection được cải thiện và tỷ lệ hành vi nịnh bợ thấp hơn, giúp nó trở thành một đối tác đáng tin cậy hơn cho các nhà phát triển khi triển khai công cụ cho hàng triệu người dùng.

Những điểm chính cần lưu ý

  • Tập trung vào tính Agentic: Sonnet 5 được tối ưu hóa cho các tác vụ tự hành, bao gồm sử dụng công cụ (trình duyệt/terminal) và tự sửa lỗi, giúp nó trở nên lý tưởng cho việc tự động hóa phức tạp.
  • Hiệu quả về chi phí: Mô hình này cung cấp một giải pháp thay thế hiệu suất cao, chi phí thấp hơn cho các mô hình chủ lực như Opus 4.8, GPT-5.5 và Gemini 3.1 Pro.
  • An toàn được tăng cường: Những cải tiến đáng kể trong việc từ chối các yêu cầu độc hại và chống lại các cuộc tấn công prompt injection giúp nó an toàn hơn cho các quy trình làm việc agentic.