Coinbase migra para modelos de IA chineses para reduzir custos de API

Enquanto os laboratórios de IA ocidentais lutam para equilibrar os enormes custos de computação com a lucratividade, os líderes do setor estão começando a olhar para o Oriente em busca de eficiência. A Coinbase juntou-se oficialmente a um grupo crescente de gigantes da tecnologia que estão migrando para modelos de IA chineses para otimizar suas despesas operacionais.

A migração para modelos chineses: GLM e Kimi

O CEO da Coinbase, Brian Armstrong, revelou recentemente que a empresa integrou modelos desenvolvidos na China, como o GLM 5.2 e o Kimi 2.7, em sua infraestrutura. Essa mudança estratégica permitiu que a Coinbase lidasse com volumes de tokens significativamente maiores, ao mesmo tempo em que reduziu seus gastos com IA pela metade.

Esse movimento não é isolado ao setor de cripto. A startup Lindy migrou para o DeepSeek v4, e a gigante de dados Snowflake está testando modelos chineses como alternativas de baixo custo às ofertas de alto preço da OpenAI e Anthropic. Essa mudança sinaliza uma transição massiva na forma como as empresas veem a "fronteira" da IA, priorizando a relação custo-benefício em vez da familiaridade com a marca.

Roteamento Inteligente e Engenharia de Contexto

Para maximizar essa economia, a Coinbase implementou um sistema de roteamento automatizado. Em vez de depender de um único LLM, o sistema avalia cada solicitação com base em três métricas críticas: complexidade da tarefa, custo e potencial de cache.

A execução técnica dessa estratégia depende fortemente da "engenharia de contexto". Ao incentivar os desenvolvedores a manter o contexto enxuto e iniciar novas sessões para novas tarefas, a Coinbase conseguiu aumentar sua taxa de acerto de cache (caching hit rate) de meros 5% para 60%. Essa eficiência permite que a empresa utilize modelos mais baratos para tarefas rotineiras, enquanto reserva modelos de alto raciocínio para operações complexas, uma técnica que está se tornando um modelo para a escala de fluxos de trabalho de agentes (agentic workflows).

"Tokenmaxxing" encontra a Responsabilidade de Desempenho

O surgimento de modelos de "raciocínio de agentes" (agentic reasoning) — como a antecipada série GPT-5.x — levou a um aumento no consumo de tokens. Enquanto empresas como Amazon e Meta observaram uma tendência de "tokenmaxxing", onde funcionários consomem quantidades massivas de tokens sem uma supervisão rigorosa, a Coinbase está implementando uma filosofia diferente.

Armstrong introduziu um modelo de visibilidade sem restrição: os desenvolvedores não têm limites de uso, mas seus gastos são transparentes. O princípio orientador é a "responsabilidade baseada em impacto" — quanto mais um desenvolvedor gasta em tokens de IA, maior deve ser o resultado esperado e o impacto nos negócios. Essa abordagem equilibra a necessidade de computação pesada com a necessidade de ROI.

Um Teste de Estresse de Preços para Laboratórios Ocidentais

O êxodo em direção a alternativas chinesas mais baratas está exercendo uma pressão imensa sobre os laboratórios de IA ocidentais, particularmente à medida que empresas como OpenAI e Anthropic visam IPOs e precisam provar um crescimento sustentável. Uma guerra de preços iminente já é evidente; a OpenAI estaria combatendo a concorrência oferecendo variantes mais eficientes em termos de tokens, como o GPT-5.6-Sol, e modelos de menor peso e preço mais baixo. Para os provedores ocidentais, o desafio não é mais apenas a inteligência, mas manter um ponto de preço que impeça os clientes corporativos de migrarem para concorrentes globais mais econômicos.

Principais Conclusões

  • Otimização de Custos: A Coinbase reduziu seus gastos com IA pela metade ao integrar modelos chineses como GLM 5.2 e Kimi 2.7, ao mesmo tempo em que aumentou o uso total de tokens.
  • Eficiência Técnica: A implementação de roteamento automatizado e engenharia de contexto permitiu que a Coinbase aumentasse as taxas de acerto de cache de 5% para 60%.
  • Pressão de Mercado: A migração para modelos mais baratos está forçando os laboratórios ocidentais a uma guerra de preços para justificar suas altas avaliações e perspectivas de IPO.