Coinbase passa ai modelli di IA cinesi per tagliare i costi delle API

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial6 giorni fa3min di lettura

Coinbase passa ai modelli di IA cinesi per tagliare i costi delle API

In questo articolo

Coinbase passa ai modelli IA cinesi per tagliare i costi delle API

Mentre i laboratori di IA occidentali faticano a bilanciare gli enormi costi di calcolo con la redditività, i leader del settore iniziano a guardare a est per trovare efficienza. Coinbase si è ufficialmente unita a un gruppo crescente di giganti tecnologici che si stanno orientando verso i modelli IA cinesi per ottimizzare le proprie spese operative.

Il passaggio ai modelli cinesi: GLM e Kimi

Il CEO di Coinbase, Brian Armstrong, ha recentemente rivelato che l'azienda ha integrato nella propria infrastruttura modelli sviluppati in Cina, come GLM 5.2 e Kimi 2.7. Questo spostamento strategico ha permesso a Coinbase di gestire volumi di token significativamente più elevati, riducendo contemporaneamente del 50% la spesa per l'IA.

Questa mossa non riguarda solo il settore crypto. La startup Lindy è passata a DeepSeek v4, e il gigante dei dati Snowflake sta attualmente testando modelli cinesi come alternative convenienti alle costose offerte di OpenAI e Anthropic. Questo cambiamento segnala una massiccia transizione nel modo in cui le imprese vedono la "frontiera" dell'IA, dando priorità al rapporto prezzo-prestazioni rispetto alla notorietà del marchio.

Routing intelligente e Context Engineering

Per massimizzare questi risparmi, Coinbase ha implementato un sistema di routing automatizzato. Invece di affidarsi a un singolo LLM, il sistema valuta ogni richiesta in base a tre metriche critiche: complessità del compito, costo e potenziale di caching.

L'esecuzione tecnica di questa strategia si basa pesantemente sul "context engineering". Incoraggiando gli sviluppatori a mantenere il contesto snello e ad avviare nuove sessioni per nuovi compiti, Coinbase è riuscita ad aumentare il tasso di successo del caching dal misero 5% al 60%. Questa efficienza consente all'azienda di sfruttare modelli più economici per i compiti di routine, riservando i modelli ad alto ragionamento per le operazioni complesse, una tecnica che sta diventando un modello per la scalabilità dei workflow agentici.

Il "Tokenmaxxing" incontra la responsabilità delle prestazioni

L'ascesa dei modelli di "ragionamento agentico" (agentic reasoning) — come l'attesa serie GPT-5.x — ha portato a un aumento del consumo di token. Mentre aziende come Amazon e Meta hanno osservato una tendenza al "tokenmaxxing", in cui i dipendenti consumano enormi quantità di token senza una stretta supervisione, Coinbase sta implementando una filosofia diversa.

Armstrong ha introdotto un modello di visibilità senza restrizioni: agli sviluppatori non viene imposto un limite di utilizzo, ma la loro spesa è trasparente. Il principio guida è la "responsabilità basata sull'impatto": più uno sviluppatore spende in token IA, maggiore deve essere l'output previsto e l'impatto sul business. Questo approccio bilancia la necessità di un'elevata potenza di calcolo con la necessità di un ROI.

Uno stress test sui prezzi per i laboratori occidentali

L'esodo verso le più economiche alternative cinesi sta esercitando una pressione immensa sui laboratori di IA occidentali, in particolare mentre aziende come OpenAI e Anthropic puntano alle IPO e devono dimostrare una crescita sostenibile. Una guerra dei prezzi è già evidente: si dice che OpenAI stia contrastando la concorrenza offrendo varianti più efficienti in termini di token, come GPT-5.6-Sol, e modelli più leggeri e a prezzi inferiori. Per i fornitori occidentali, la sfida non riguarda più solo l'intelligenza, ma il mantenimento di una fascia di prezzo che impedisca ai clienti aziendali di migrare verso competitor globali più economici.

Punti chiave

Ottimizzazione dei costi: Coinbase ha dimezzato la spesa per l'IA integrando modelli cinesi come GLM 5.2 e Kimi 2.7, pur aumentando l'utilizzo totale di token.
Efficienza tecnica: L'implementazione del routing automatizzato e del context engineering ha permesso a Coinbase di aumentare i tassi di successo del caching dal 5% al 60%.
Pressione di mercato: Il passaggio verso modelli più economici sta costringendo i laboratori occidentali in una guerra dei prezzi per giustificare le loro alte valutazioni e le prospettive di imminenti IPO.

Coinbase passa ai modelli di IA cinesi per tagliare i costi delle API

Coinbase passa ai modelli IA cinesi per tagliare i costi delle API

Il passaggio ai modelli cinesi: GLM e Kimi

Routing intelligente e Context Engineering

Il "Tokenmaxxing" incontra la responsabilità delle prestazioni

Uno stress test sui prezzi per i laboratori occidentali

Punti chiave

Continua a leggere

Il CEO di Snowflake: GLM 5.2 sfida Claude Opus 4.7 a una frazione del costo

Dal tokenmaxxing al razionamento: la crisi dei costi dell'IA aziendale

Svolta dell'IA in Cina: nuovi strumenti di cybersicurezza sfidano la tecnologia statunitense