Coinbase setzt auf chinesische KI-Modelle, um API-Kosten zu senken

Translated for your language. Original lesen.

AI-assisted draft.

GyaanSetu Editorialvor 6 Tagen3Min. Lesezeit

Coinbase setzt auf chinesische KI-Modelle, um API-Kosten zu senken

In diesem Artikel

Coinbase setzt auf chinesische KI-Modelle, um API-Kosten drastisch zu senken

Während westliche KI-Labore damit kämpfen, massive Rechenkosten mit Rentabilität in Einklang zu bringen, suchen Branchenführer zur Effizienzsteigerung zunehmend im Osten nach Lösungen. Coinbase hat sich offiziell einer wachsenden Gruppe von Tech-Giganten angeschlossen, die auf chinesische KI-Modelle umsteigen, um ihre Betriebsausgaben zu optimieren.

Der Wechsel zu chinesischen Modellen: GLM und Kimi

Coinbase-CEO Brian Armstrong enthüllte kürzlich, dass das Unternehmen in seiner Infrastruktur chinesisch entwickelte Modelle wie GLM 5.2 und Kimi 2.7 integriert hat. Dieser strategische Wechsel hat es Coinbase ermöglicht, deutlich höhere Token-Volumina zu bewältigen und gleichzeitig seine KI-Ausgaben zu halbieren.

Dieser Schritt beschränkt sich nicht nur auf den Krypto-Sektor. Das Startup Lindy ist auf DeepSeek v4 umgestiegen, und der Datengigant Snowflake testet derzeit chinesische Modelle als kostengünstige Alternativen zu den hochpreisigen Angeboten von OpenAI und Anthropic. Dieser Wandel signalisiert einen massiven Umbruch in der Art und Weise, wie Unternehmen die „Frontier“ der KI betrachten, wobei das Preis-Leistungs-Verhältnis gegenüber der Markenbekanntheit an Priorität gewinnt.

Intelligentes Routing und Context Engineering

Um diese Einsparungen zu maximieren, hat Coinbase ein automatisiertes Routing-System implementiert. Anstatt sich auf ein einzelnes LLM zu verlassen, bewertet das System jede Anfrage anhand von drei kritischen Metriken: Aufgabenkomplexität, Kosten und Caching-Potenzial.

Die technische Umsetzung dieser Strategie stützt sich stark auf „Context Engineering“. Indem Coinbase Entwickler dazu ermutigt, den Kontext schlank zu halten und für neue Aufgaben frische Sitzungen zu starten, konnte das Unternehmen die Caching-Trefferquote erfolgreich von lediglich 5 % auf 60 % steigern. Diese Effizienz ermöglicht es dem Unternehmen, günstigere Modelle für Routineaufgaben zu nutzen und gleichzeitig Modelle mit hoher Reasoning-Fähigkeit für komplexe Operationen zu reservieren – eine Technik, die sich zu einem Blueprint für die Skalierung agentischer Workflows entwickelt.

Tokenmaxxing trifft auf Performance-Verantwortlichkeit

Der Aufstieg von „Agentic Reasoning“-Modellen – wie der erwarteten GPT-5.x-Serie – hat zu einem sprunghaften Anstieg des Token-Verbrauchs geführt. Während Unternehmen wie Amazon und Meta einen Trend zum „Tokenmaxxing“ beobachten, bei dem Mitarbeiter ohne strenge Aufsicht massive Mengen an Token verbrauchen, verfolgt Coinbase eine andere Philosophie.

Armstrong hat ein Modell der Sichtbarkeit ohne Einschränkungen eingeführt: Für Entwickler gibt es kein Limit bei der Nutzung, aber ihre Ausgaben sind transparent. Das Leitprinzip lautet „impact-based accountability“ (ergebnisorientierte Verantwortlichkeit) – je mehr ein Entwickler für KI-Token ausgibt, desto höher müssen der erwartete Output und der geschäftliche Nutzen sein. Dieser Ansatz bringt den Bedarf an hoher Rechenleistung mit der Notwendigkeit eines ROI in Einklang.

Ein Preistest für westliche Labore

Die Abwanderung zu günstigeren chinesischen Alternativen setzt westliche KI-Labore unter enormen Druck, insbesondere da Unternehmen wie OpenAI und Anthropic einen Börsengang (IPO) anstreben und nachhaltiges Wachstum beweisen müssen. Ein drohender Preiskrieg ist bereits erkennbar; Berichten zufolge begegnet OpenAI dem Wettbewerb mit token-effizienteren Varianten wie GPT-5.6-Sol sowie preisgünstigeren, leichteren Modellen. Für westliche Anbieter besteht die Herausforderung nicht mehr nur in der Intelligenz der Modelle, sondern darin, einen Preispunkt zu halten, der verhindert, dass Unternehmenskunden zu wirtschaftlicheren globalen Konkurrenten abwandern.

Wichtigste Erkenntnisse

Kostenoptimierung: Coinbase hat seine KI-Ausgaben halbiert, indem es chinesische Modelle wie GLM 5.2 und Kimi 2.7 integriert und gleichzeitig die gesamte Token-Nutzung erhöht hat.
Technische Effizienz: Durch die Implementierung von automatisiertem Routing und Context Engineering konnte Coinbase die Caching-Trefferquote von 5 % auf 60 % steigern.
Marktdruck: Der Wechsel zu günstigeren Modellen zwingt westliche Labore in einen Preiskrieg, um ihre hohen Bewertungen und bevorstehenden IPO-Aussichten zu rechtfertigen.

Coinbase setzt auf chinesische KI-Modelle, um API-Kosten zu senken

Coinbase setzt auf chinesische KI-Modelle, um API-Kosten drastisch zu senken

Der Wechsel zu chinesischen Modellen: GLM und Kimi

Intelligentes Routing und Context Engineering

Tokenmaxxing trifft auf Performance-Verantwortlichkeit

Ein Preistest für westliche Labore

Wichtigste Erkenntnisse

Weiterlesen

Snowflake-CEO: GLM 5.2 konkurriert mit Claude Opus 4.7 zu einem Bruchteil der Kosten

Vom Tokenmaxxing zur Rationierung: Die KI-Kostenkrise in Unternehmen

Chinas KI-Durchbruch: Neue Cybersicherheits-Tools fordern US-Technologie heraus