Claude Sonnet 5: Hiệu suất cao che lấp sự gia tăng giá đáng kể

Bản phát hành mới nhất của Anthropic, Claude Sonnet 5, mang lại những bước tiến ấn tượng về điểm benchmark nhưng lại tiềm ẩn gánh nặng tài chính cho các nhà phát triển. Mặc dù tỷ lệ token chính thức không đổi, dữ liệu mới cho thấy sự gia tăng về độ dài văn bản (verbosity) và hành vi tác vụ (agentic behavior) của mô hình đang đẩy chi phí thực tế trên mỗi tác vụ lên cao đáng kể.

Sự gia tăng trí tuệ so với mức tiêu thụ token

Theo Chỉ số Trí tuệ Artificial Analysis v4.1, Claude Sonnet 5 đã đạt được một cột mốc kỹ thuật quan trọng. Với 53 điểm, mô hình này đứng thứ năm trên toàn cầu, ngang hàng với GPT-5.5 (high) và vượt qua phiên bản tiền nhiệm Sonnet 4.6 (vốn đạt 47 điểm). Bước nhảy vọt về hiệu suất này thể hiện rõ qua nhiều bài kiểm tra chuyên biệt, bao gồm mức tăng 9 điểm trên Terminal-Bench v2.1 và tăng 10 điểm trên Humanity's Last Exam.

Tuy nhiên, những cải tiến về trí tuệ này đi kèm với cái giá là mức tiêu thụ token cực lớn. Trong các bài kiểm tra công việc tri thức dựa trên tác vụ (agent-based) như AA-Briefcase và GDPval-AA, Sonnet 5 thực hiện số vòng lặp tác vụ (agent loops) nhiều gấp khoảng ba lần so với Sonnet 4.6. Ở các thiết lập hiệu suất tối đa, mô hình tiêu thụ nhiều hơn khoảng 40% token đầu ra cho mỗi tác vụ so với thế hệ trước.

Ảo tưởng về mức giá token cố định

Nhìn bề ngoài, Anthropic vẫn duy trì cấu trúc giá của mình: 3 USD cho mỗi triệu token đầu vào và 15 USD cho mỗi triệu token đầu ra. Mức giá này rẻ hơn đáng kể so với phân khúc Opus 4.8, với chi phí lần lượt là 5 USD và 25 USD. Tuy nhiên, "chi phí trên mỗi tác vụ" lại cho thấy một câu chuyện hoàn toàn khác.

Artificial Analysis báo cáo rằng một tác vụ trung bình trong Chỉ số Trí tuệ tiêu tốn 2,29 USD với Sonnet 5, trong khi Opus 4.8 đắt đỏ hơn lại chỉ tốn 1,97 USD. Đối với các nhà phát triển đang chuyển đổi từ Sonnet 4.6—vốn có chi phí khoảng 1,20 USD mỗi tác vụ—việc chuyển sang Sonnet 5 đồng nghĩa với việc chi phí vận hành tăng gần gấp đôi. Mô hình này lặp lại kịch bản của các bản phát hành trước đó, chẳng hạn như Opus 4.7, nơi những thay đổi đối với bộ mã hóa (tokenizer) đã thực tế làm tăng chi phí lên tới 37,4% mặc dù tỷ giá vẫn được giữ "không đổi".

Áp lực cạnh tranh và nhu cầu về sự minh bạch

Mặc dù Sonnet 5 xuất sắc trong một số tác vụ mang tính tác vụ (agentic tasks), nó vẫn gặp khó khăn với các suy luận vật lý cấp độ cao. Trên bài kiểm tra CritPt từ Phòng thí nghiệm Quốc gia Argonne, mô hình chỉ đạt 17%, tụt lại phía sau các đối thủ nặng ký như GLM-5.2, Claude Fable 5 và GPT-5.5.

Khoảng cách hiệu suất và cấu trúc chi phí đang tăng này đặt Anthropic vào một vị thế bấp bênh. Khi các đối thủ Trung Quốc như Deepseek V4 Pro và GLM-5.2 cung cấp hiệu suất tầm trung tương đương với mức chi phí chỉ bằng một phần nhỏ, sự gia tăng giá "ẩn" của dòng Claude trở thành một yếu tố then chốt đối với việc áp dụng trong doanh nghiệp. Ngành công nghiệp đang hướng tới nhu cầu về các chỉ số minh bạch hơn—chẳng hạn như chi phí trên mỗi tác vụ chuẩn hóa—thay vì dựa vào số lượng token thô, vốn không còn phản ánh chính xác tải trọng tính toán thực tế của các quy trình làm việc dạng tác vụ (agentic workflows).

Các điểm chính cần lưu ý

  • Chi phí ẩn tăng cao: Mặc dù tỷ lệ token không đổi, Sonnet 5 đắt hơn khoảng 90% trên mỗi tác vụ so với Sonnet 4.6 do mức tiêu thụ token tăng lên.
  • Hiệu suất Benchmark: Sonnet 5 xếp thứ 5 toàn cầu với 53 điểm, cho thấy sự gia tăng vượt bậc trong các vòng lặp tác vụ và các bài kiểm tra cụ thể như SciCode và Terminal-Bench.
  • Sự chênh lệch về giá: Sonnet 5 "rẻ hơn" thực tế lại tốn nhiều chi phí hơn trên mỗi tác vụ (2,29 USD) so với phiên bản cao cấp Opus 4.8 (1,97 USD) khi đo lường bằng các bài kiểm tra trí tuệ thực tế.