Coinbase stapt over op Chinese AI-modellen om API-kosten te verlagen

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial6 dagen geleden3min read

In this article

Coinbase stapt over op Chinese AI-modellen om API-kosten te verlagen

Terwijl westerse AI-labs worstelen met het vinden van een balans tussen enorme rekenkosten en winstgevendheid, beginnen marktleiders naar het Oosten te kijken voor efficiëntie. Coinbase is officieel toegetreden tot een groeiende groep techreuzen die overstappen op Chinese AI-modellen om hun operationele uitgaven te optimaliseren.

De overstap naar Chinese modellen: GLM en Kimi

Coinbase-CEO Brian Armstrong onthulde onlangs dat het bedrijf in China ontwikkelde modellen, zoals GLM 5.2 en Kimi 2.7, heeft geïntegreerd in zijn infrastructuur. Deze strategische verschuiving heeft Coinbase in staat gesteld om aanzienlijk hogere tokenvolumes te verwerken, terwijl de AI-uitgaven tegelijkertijd met de helft zijn verminderd.

Deze stap is niet beperkt tot de cryptosector. De startup Lindy is overgestapt op DeepSeek v4, en datareus Snowflake test momenteel Chinese modellen als kosteneffectieve alternatieven voor de prijzigere aanbiedingen van OpenAI en Anthropic. Deze verschuiving signaleert een enorme transitie in hoe bedrijven de "frontier" van AI bekijken, waarbij de prijs-prestatieverhouding belangrijker wordt gevonden dan merkbekendheid.

Intelligent Routing en Context Engineering

Om deze besparingen te maximaliseren, heeft Coinbase een geautomatiseerd routing-systeem geïmplementeerd. In plaats van te vertrouwen op één enkel LLM, evalueert het systeem elke aanvraag op basis van drie cruciale metrieken: taakcomplexiteit, kosten en caching-potentieel.

De technische uitvoering van deze strategie leunt zwaar op "context engineering". Door ontwikkelaars aan te moedigen de context beperkt te houden en nieuwe sessies te starten voor nieuwe taken, heeft Coinbase het caching-hitrate succesvol verhoogd van slechts 5% naar 60%. Deze efficiëntie stelt het bedrijf in staat om goedkopere modellen te gebruiken voor routinetaken, terwijl high-reasoning modellen worden gereserveerd voor complexe operaties — een techniek die een blauwdruk wordt voor het schalen van agentic workflows.

Tokenmaxxing ontmoet prestatie-verantwoordelijkheid

De opkomst van "agentic reasoning"-modellen — zoals de verwachte GPT-5.x-serie — heeft geleid tot een enorme toename in tokenverbruik. Terwijl bedrijven als Amazon en Meta een trend van "tokenmaxxing" hebben gezien, waarbij werknemers enorme hoeveelheden tokens verbruiken zonder strikt toezicht, voert Coinbase een andere filosofie in.

Armstrong heeft een model van zichtbaarheid zonder beperkingen geïntroduceerd: ontwikkelaars hebben geen limiet op hun gebruik, maar hun uitgaven zijn transparant. Het leidende principe is "impact-gebaseerde verantwoordelijkheid" — hoe meer een ontwikkelaar uitgeeft aan AI-tokens, hoe hoger de verwachte output en de zakelijke impact moet zijn. Deze aanpak brengt de behoefte aan zware rekenkracht in balans met de noodzaak van ROI.

Een prijs-stresstest voor westerse labs

De exodus naar goedkopere Chinese alternatieven zet enorme druk op westerse AI-labs, vooral nu bedrijven als OpenAI en Anthropic naar een beursgang (IPO) kijken en duurzame groei moeten bewijzen. Een naderende prijsoorlog is al zichtbaar; OpenAI zou de concurrentie tegengaan door meer token-efficiënte varianten aan te bieden, zoals GPT-5.6-Sol, en goedkopere, lichtere modellen. Voor westerse aanbieders gaat de uitdaging niet langer alleen over intelligentie, maar over het handhaven van een prijsniveau dat voorkomt dat zakelijke klanten overstappen naar economisch voordeligere wereldwijde concurrenten.

Belangrijkste punten

Kostenoptimalisatie: Coinbase heeft zijn AI-uitgaven gehalveerd door Chinese modellen zoals GLM 5.2 en Kimi 2.7 te integreren, terwijl het totale tokenverbruik is toegenomen.
Technische efficiëntie: De implementatie van geautomatiseerde routing en context engineering heeft Coinbase in staat gesteld het caching-hitrate te verhogen van 5% naar 60%.
Marktdruk: De verschuiving naar goedkopere modellen dwingt westerse labs tot een prijsoorlog om hun hoge waarderingen en aanstaande beursgangen te rechtvaardigen.

Coinbase stapt over op Chinese AI-modellen om API-kosten te verlagen

Coinbase stapt over op Chinese AI-modellen om API-kosten te verlagen

De overstap naar Chinese modellen: GLM en Kimi

Intelligent Routing en Context Engineering

Tokenmaxxing ontmoet prestatie-verantwoordelijkheid

Een prijs-stresstest voor westerse labs

Belangrijkste punten

Continue reading

Snowflake CEO: GLM 5.2 evenaart Claude Opus 4.7 tegen een fractie van de kosten

Van tokenmaxxing naar rantsoenering: De AI-kosten crisis in het bedrijfsleven

Chinas AI-doorbraak: Nieuwe cybersecuritytools concurreren met Amerikaanse technologie