Coinbase chuyển sang sử dụng các mô hình AI Trung Quốc để cắt giảm chi phí API

Trong khi các phòng thí nghiệm AI phương Tây đang chật vật để cân bằng giữa chi phí tính toán khổng lồ và khả năng sinh lời, các nhà lãnh đạo trong ngành đang bắt đầu hướng về phương Đông để tìm kiếm sự hiệu quả. Coinbase đã chính thức gia nhập nhóm các gã khổng lồ công nghệ đang chuyển hướng sang các mô hình AI Trung Quốc nhằm tối ưu hóa chi phí vận hành.

Chuyển hướng sang các mô hình Trung Quốc: GLM và Kimi

CEO của Coinbase, Brian Armstrong, gần đây đã tiết lộ rằng công ty đã tích hợp các mô hình do Trung Quốc phát triển, chẳng hạn như GLM 5.2 và Kimi 2.7, vào cơ sở hạ tầng của mình. Sự chuyển dịch chiến lược này đã cho phép Coinbase xử lý khối lượng token cao hơn đáng kể, đồng thời cắt giảm một nửa chi phí dành cho AI.

Động thái này không chỉ giới hạn trong lĩnh vực tiền điện tử. Startup Lindy đã chuyển sang DeepSeek v4, và gã khổng lồ dữ liệu Snowflake hiện đang thử nghiệm các mô hình Trung Quốc như những lựa chọn thay thế tiết kiệm chi phí so với các sản phẩm giá cao từ OpenAI và Anthropic. Sự thay đổi này báo hiệu một bước chuyển mình lớn trong cách các doanh nghiệp nhìn nhận về "ranh giới" (frontier) của AI, ưu tiên tỷ lệ hiệu năng trên giá thành hơn là sự quen thuộc với thương hiệu.

Định tuyến thông minh và Kỹ thuật ngữ cảnh (Context Engineering)

Để tối đa hóa các khoản tiết kiệm này, Coinbase đã triển khai một hệ thống định tuyến tự động. Thay vì phụ thuộc vào một LLM duy nhất, hệ thống sẽ đánh giá mọi yêu cầu dựa trên ba chỉ số quan trọng: độ phức tạp của tác vụ, chi phí và khả năng lưu trữ đệm (caching).

Việc thực thi kỹ thuật của chiến lược này phụ thuộc rất nhiều vào "kỹ thuật ngữ cảnh" (context engineering). Bằng cách khuyến khích các nhà phát triển giữ cho ngữ cảnh tinh gọn và bắt đầu các phiên làm việc mới cho các tác vụ mới, Coinbase đã tăng thành công tỷ lệ trúng cache (caching hit rate) từ mức chỉ 5% lên 60%. Hiệu quả này cho phép công ty tận dụng các mô hình rẻ hơn cho các tác vụ thông thường, trong khi dành riêng các mô hình có khả năng suy luận cao cho các hoạt động phức tạp—một kỹ thuật đang trở thành khuôn mẫu để mở rộng các quy trình làm việc dạng tác nhân (agentic workflows).

Tokenmaxxing kết hợp với Trách nhiệm hiệu suất

Sự trỗi dậy của các mô hình "suy luận tác nhân" (agentic reasoning)—chẳng hạn như dòng GPT-5.x đang được mong đợi—đã dẫn đến sự bùng nổ trong tiêu thụ token. Trong khi các công ty như Amazon và Meta đã chứng kiến xu hướng "tokenmaxxing", nơi nhân viên sử dụng một lượng lớn token mà không có sự giám sát chặt chẽ, thì Coinbase lại đang áp dụng một triết lý khác.

Armstrong đã giới thiệu một mô hình minh bạch nhưng không hạn chế: các nhà phát triển không bị giới hạn mức sử dụng, nhưng chi tiêu của họ là minh bạch. Nguyên tắc chủ đạo là "trách nhiệm dựa trên tác động" (impact-based accountability)—nhà phát triển chi tiêu càng nhiều cho token AI, thì kết quả đầu ra và tác động kinh doanh kỳ vọng phải càng cao. Cách tiếp cận này cân bằng giữa nhu cầu tính toán mạnh mẽ với sự cần thiết của tỷ lệ hoàn vốn (ROI).

Bài kiểm tra áp lực về giá đối với các phòng thí nghiệm phương Tây

Sự chuyển dịch hàng loạt sang các lựa chọn thay thế rẻ hơn từ Trung Quốc đang gây áp lực nặng nề lên các phòng thí nghiệm AI phương Tây, đặc biệt là khi các công ty như OpenAI và Anthropic đang hướng tới IPO và cần chứng minh sự tăng trưởng bền vững. Một cuộc chiến giá cả đang nhen nhóm và đã lộ rõ; có báo cáo cho rằng OpenAI đang đối phó với sự cạnh tranh bằng cách cung cấp các biến thể tiết kiệm token hơn, chẳng hạn như GPT-5.6-Sol, cùng các mô hình nhẹ hơn với giá thấp hơn. Đối với các nhà cung cấp phương Tây, thách thức không còn chỉ nằm ở trí thông minh, mà còn là duy trì mức giá để ngăn chặn các khách hàng doanh nghiệp chuyển sang các đối thủ cạnh tranh toàn cầu kinh tế hơn.

Các điểm chính cần lưu ý

  • Tối ưu hóa chi phí: Coinbase đã cắt giảm một nửa chi phí AI bằng cách tích hợp các mô hình Trung Quốc như GLM 5.2 và Kimi 2.7 trong khi vẫn tăng tổng lượng sử dụng token.
  • Hiệu quả kỹ thuật: Việc triển khai định tuyến tự động và kỹ thuật ngữ cảnh đã cho phép Coinbase tăng tỷ lệ trúng cache từ 5% lên 60%.
  • Áp lực thị trường: Việc chuyển hướng sang các mô hình rẻ hơn đang buộc các phòng thí nghiệm phương Tây phải bước vào một cuộc chiến giá cả để chứng minh cho mức định giá cao và triển vọng IPO sắp tới của họ.