CEO của Snowflake: GLM-5.2 đối đầu với Claude Opus 4.7 với mức chi phí chỉ bằng một phần nhỏ
Một bài kiểm tra hiệu năng (benchmark) thực tế gần đây do Snowflake thực hiện đã gây chấn động ngành công nghiệp AI, tiết lộ rằng mô hình GLM-5.2 của Trung Quốc có thể cạnh tranh với các mô hình hàng đầu của phương Tây trong các tác vụ lập trình chuyên dụng. Mặc dù Claude Opus 4.7 vẫn duy trì được lợi thế về mặt kỹ thuật, nhưng sự chênh lệch khổng lồ về giá cả cho thấy một sự thay đổi đang cận kề trong bài toán kinh tế của các Mô hình Ngôn ngữ Lớn (LLM).
Bài kiểm tra hiệu năng: Sự tương đồng về lập trình trong các môi trường phức tạp
CEO của Snowflake, Sridhar Ramaswamy, đã dẫn dắt một bài kiểm tra nghiêm ngặt bao gồm 103 tác vụ riêng biệt được thiết kế để đánh giá khả năng tạo mã (code generation) trên cả môi trường DuckDB và Snowflake. Kết quả cho thấy sự xấp xỉ đáng ngạc nhiên: khi được cho phép thực hiện ba lần thử cho mỗi tác vụ, GLM-5.2 đã giải quyết được 66% tác vụ, chỉ kém một chút so với Claude Opus 4.7 với tỷ lệ thành công đạt 67%.
Tuy nhiên, những sắc thái trong hiệu suất cho thấy sự phân hóa về độ tin cậy. Opus 4.7 thể hiện sự nhất quán vượt trội với độ chính xác ngay từ lần thử đầu tiên là 53,7%, so với 47,6% của GLM-5.2. Mô hình của Trung Quốc cũng cho thấy xu hướng "suy nghĩ quá mức" (over-think) hoặc lặp lại các quy trình không cần thiết. Trong một trường hợp đáng chú ý, GLM-5.2 đã thực hiện 411 lượt gọi công cụ (tool calls) trong suốt 24 phút—kiểm tra số lượng hàng, phân phối và các giá trị null—nhưng vẫn thất bại cả ba lần thử. Ngược lại, Opus 4.7 đã giải quyết cùng một tác vụ chỉ trong 9 phút với chỉ 49 lượt gọi.
Kinh tế học AI: Áp lực về giá từ Trung Quốc
Mặc dù Opus 4.7 là mô hình hiệu quả và nhất quán hơn, nhưng câu chuyện thực sự nằm ở kinh tế học đơn vị (unit economics). Sự khác biệt về chi phí giữa các mô hình hàng đầu của phương Tây và GLM-5.2 là cực kỳ lớn và có thể thay đổi căn bản các tính toán ROI (tỷ suất hoàn vốn) cho việc triển khai AI trong doanh nghiệp.
Theo bảng giá chính thức của Zhipu, GLM-5.2 có giá 1,40 USD cho mỗi triệu token đầu vào (input tokens) và 4,40 USD cho mỗi triệu token đầu ra (output tokens). Để dễ hình dung:
- Claude Opus 4.7: 5,00 USD (Đầu vào) / 25,00 USD (Đầu ra)
- GPT-5.5: 5,00 USD (Đầu vào) / 30,00 USD (Đầu ra)
Mặc dù GLM-5.2 "ngốn token" hơn—trung bình 99 lần chạy cho mỗi tác vụ so với 80 lần của Opus và tiêu thụ 860 triệu token so với 439 triệu token của Opus—nó vẫn rẻ hơn đáng kể. Mô hình định giá này đặt ra một thách thức trực tiếp đối với các chiến lược biên lợi nhuận cao mà OpenAI và Anthropic đang áp dụng hiện nay.
Tại sao điều này lại quan trọng đối với bối cảnh AI
Sự xuất hiện của các mô hình có khả năng cao với chi phí thấp như GLM-5.2 đóng vai trò như một bài kiểm tra áp lực (stress test) cho "bong bóng AI". Định giá khổng lồ của các phòng thí nghiệm AI phương Tây dựa trên giả định về sự tăng trưởng doanh thu nhanh chóng với biên lợi nhuận cao. Nếu các nhà phát triển và doanh nghiệp chuyển hướng sang các lựa chọn thay thế rẻ hơn nhiều cho các tác vụ có tần suất cao như lập trình và kỹ thuật dữ liệu, các dòng doanh thu dự kiến cho các mô hình hàng đầu có thể đối mặt với sự sụt giảm đáng kể.
Khi Snowflake chuẩn bị cung cấp GLM-5.2 cho khách hàng của mình, ngành công nghiệp đang tiến tới một thực tế nơi "trí tuệ" không còn là một mặt hàng xa xỉ, mà là một tiện ích mang tính hàng hóa phổ thông.
Các điểm chính cần lưu ý
- Sự tương đồng về năng lực cạnh tranh: GLM-5.2 đạt tỷ lệ thành công 66% trong các bài kiểm tra lập trình Snowflake/DuckDB phức tạp, gần như tương đương với mức 67% của Claude Opus 4.7.
- Khoảng cách về hiệu suất: Mặc dù GLM-5.2 có khả năng rất cao, nhưng nó kém hiệu quả hơn, đòi hỏi nhiều lượt gọi công cụ hơn và tiêu thụ token cao hơn để tìm ra giải pháp.
- Sự gián đoạn kinh tế: GLM-5.2 cung cấp mức giá token đầu ra chỉ bằng khoảng 1/5 đến 1/7 chi phí của Claude Opus 4.7 hoặc GPT-5.5, tạo ra áp lực cạnh tranh về giá gay gắt lên các nhà cung cấp AI phương Tây.
