Coinbase se tourne vers les modèles d'IA chinois pour réduire ses coûts d'API

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 6 jours3min de lecture

Dans cet article

Coinbase se tourne vers les modèles d'IA chinois pour réduire ses coûts d'API

Alors que les laboratoires d'IA occidentaux peinent à équilibrer des coûts de calcul massifs et rentabilité, les leaders du secteur commencent à se tourner vers l'Orient pour gagner en efficacité. Coinbase a officiellement rejoint un groupe croissant de géants de la technologie qui pivotent vers les modèles d'IA chinois pour optimiser leurs dépenses opérationnelles.

Le pivot vers les modèles chinois : GLM et Kimi

Le PDG de Coinbase, Brian Armstrong, a récemment révélé que l'entreprise a intégré des modèles développés en Chine, tels que GLM 5.2 et Kimi 2.7, dans son infrastructure. Ce changement stratégique a permis à Coinbase de gérer des volumes de tokens nettement plus élevés tout en réduisant de moitié ses dépenses en IA.

Ce mouvement ne se limite pas au secteur de la crypto. La startup Lindy est passée à DeepSeek v4, et le géant des données Snowflake teste actuellement des modèles chinois comme alternatives rentables aux offres onéreuses d'OpenAI et Anthropic. Ce virage signale une transition massive dans la manière dont les entreprises perçoivent la « frontière » de l'IA, privilégiant le rapport performance-prix à la notoriété de la marque.

Routage intelligent et ingénierie de contexte

Pour maximiser ces économies, Coinbase a mis en œuvre un système de routage automatisé. Plutôt que de s'appuyer sur un seul LLM, le système évalue chaque requête en fonction de trois mesures critiques : la complexité de la tâche, le coût et le potentiel de mise en cache.

L'exécution technique de cette stratégie repose largement sur l'« ingénierie de contexte ». En encourageant les développeurs à maintenir un contexte léger et à initier de nouvelles sessions pour de nouvelles tâches, Coinbase a réussi à faire passer son taux de réussite de mise en cache (caching hit rate) de seulement 5 % à 60 %. Cette efficacité permet à l'entreprise de tirer parti de modèles moins coûteux pour les tâches de routine, tout en réservant les modèles à haut niveau de raisonnement pour les opérations complexes, une technique qui devient un modèle pour le passage à l'échelle des flux de travail agentiques (agentic workflows).

Le « Tokenmaxxing » rencontre la responsabilité de performance

L'essor des modèles de « raisonnement agentique » — tels que la série anticipée GPT-5.x — a entraîné une explosion de la consommation de tokens. Alors que des entreprises comme Amazon et Meta ont observé une tendance au « tokenmaxxing », où les employés consomment des quantités massives de tokens sans surveillance stricte, Coinbase met en œuvre une philosophie différente.

Armstrong a introduit un modèle de visibilité sans restriction : les développeurs ne sont pas limités dans leur utilisation, mais leurs dépenses sont transparentes. Le principe directeur est la « responsabilité basée sur l'impact » : plus un développeur dépense en tokens d'IA, plus le résultat attendu et l'impact commercial doivent être élevés. Cette approche équilibre le besoin de puissance de calcul massive avec la nécessité d'un retour sur investissement (ROI).

Un test de résistance tarifaire pour les laboratoires occidentaux

L'exode vers des alternatives chinoises moins chères exerce une pression immense sur les laboratoires d'IA occidentaux, d'autant plus que des entreprises comme OpenAI et Anthropic envisagent une introduction en bourse (IPO) et doivent prouver une croissance durable. Une guerre des prix se prépare déjà ; OpenAI contre-attaquerait la concurrence en proposant des variantes plus économes en tokens, telles que GPT-5.6-Sol, ainsi que des modèles plus légers et moins coûteux. Pour les fournisseurs occidentaux, le défi n'est plus seulement l'intelligence, mais le maintien d'un niveau de prix qui empêche les clients entreprises de migrer vers des concurrents mondiaux plus économiques.

Points clés

Optimisation des coûts : Coinbase a réduit de moitié ses dépenses en IA en intégrant des modèles chinois comme GLM 5.2 et Kimi 2.7, tout en augmentant l'utilisation totale de tokens.
Efficacité technique : La mise en œuvre du routage automatisé et de l'ingénierie de contexte a permis à Coinbase de faire passer le taux de réussite de mise en cache de 5 % à 60 %.
Pression du marché : Le pivot vers des modèles moins chers force les laboratoires occidentaux à une guerre des prix pour justifier leurs valorisations élevées et leurs perspectives d'introduction en bourse.

Coinbase se tourne vers les modèles d'IA chinois pour réduire ses coûts d'API

Coinbase se tourne vers les modèles d'IA chinois pour réduire ses coûts d'API

Le pivot vers les modèles chinois : GLM et Kimi

Routage intelligent et ingénierie de contexte

Le « Tokenmaxxing » rencontre la responsabilité de performance

Un test de résistance tarifaire pour les laboratoires occidentaux

Points clés

Continuer la lecture

Le PDG de Snowflake : GLM 5.2 rivalise avec Claude Opus 4.7 pour une fraction du coût

Du tokenmaxxing au rationnement : la crise des coûts de l'IA en entreprise

Percée de la Chine en IA : de nouveaux outils de cybersécurité rivalisent avec la technologie américaine