Coinbase passa a utilizar modelos de IA chineses para reduzir custos de API

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 6 dias3min de leitura

Coinbase passa a utilizar modelos de IA chineses para reduzir custos de API

Neste artigo

Coinbase migra para modelos de IA chineses para reduzir custos de API

Enquanto os laboratórios de IA ocidentais lutam para equilibrar os enormes custos de computação com a lucratividade, os líderes do setor estão começando a olhar para o Oriente em busca de eficiência. A Coinbase juntou-se oficialmente a um grupo crescente de gigantes da tecnologia que estão migrando para modelos de IA chineses para otimizar suas despesas operacionais.

A migração para modelos chineses: GLM e Kimi

O CEO da Coinbase, Brian Armstrong, revelou recentemente que a empresa integrou modelos desenvolvidos na China, como o GLM 5.2 e o Kimi 2.7, em sua infraestrutura. Essa mudança estratégica permitiu que a Coinbase lidasse com volumes de tokens significativamente maiores, ao mesmo tempo em que reduziu seus gastos com IA pela metade.

Esse movimento não é isolado ao setor de cripto. A startup Lindy migrou para o DeepSeek v4, e a gigante de dados Snowflake está testando modelos chineses como alternativas de baixo custo às ofertas de alto preço da OpenAI e Anthropic. Essa mudança sinaliza uma transição massiva na forma como as empresas veem a "fronteira" da IA, priorizando a relação custo-benefício em vez da familiaridade com a marca.

Roteamento Inteligente e Engenharia de Contexto

Para maximizar essa economia, a Coinbase implementou um sistema de roteamento automatizado. Em vez de depender de um único LLM, o sistema avalia cada solicitação com base em três métricas críticas: complexidade da tarefa, custo e potencial de cache.

A execução técnica dessa estratégia depende fortemente da "engenharia de contexto". Ao incentivar os desenvolvedores a manter o contexto enxuto e iniciar novas sessões para novas tarefas, a Coinbase conseguiu aumentar sua taxa de acerto de cache (caching hit rate) de meros 5% para 60%. Essa eficiência permite que a empresa utilize modelos mais baratos para tarefas rotineiras, enquanto reserva modelos de alto raciocínio para operações complexas, uma técnica que está se tornando um modelo para a escala de fluxos de trabalho de agentes (agentic workflows).

"Tokenmaxxing" encontra a Responsabilidade de Desempenho

O surgimento de modelos de "raciocínio de agentes" (agentic reasoning) — como a antecipada série GPT-5.x — levou a um aumento no consumo de tokens. Enquanto empresas como Amazon e Meta observaram uma tendência de "tokenmaxxing", onde funcionários consomem quantidades massivas de tokens sem uma supervisão rigorosa, a Coinbase está implementando uma filosofia diferente.

Armstrong introduziu um modelo de visibilidade sem restrição: os desenvolvedores não têm limites de uso, mas seus gastos são transparentes. O princípio orientador é a "responsabilidade baseada em impacto" — quanto mais um desenvolvedor gasta em tokens de IA, maior deve ser o resultado esperado e o impacto nos negócios. Essa abordagem equilibra a necessidade de computação pesada com a necessidade de ROI.

Um Teste de Estresse de Preços para Laboratórios Ocidentais

O êxodo em direção a alternativas chinesas mais baratas está exercendo uma pressão imensa sobre os laboratórios de IA ocidentais, particularmente à medida que empresas como OpenAI e Anthropic visam IPOs e precisam provar um crescimento sustentável. Uma guerra de preços iminente já é evidente; a OpenAI estaria combatendo a concorrência oferecendo variantes mais eficientes em termos de tokens, como o GPT-5.6-Sol, e modelos de menor peso e preço mais baixo. Para os provedores ocidentais, o desafio não é mais apenas a inteligência, mas manter um ponto de preço que impeça os clientes corporativos de migrarem para concorrentes globais mais econômicos.

Principais Conclusões

Otimização de Custos: A Coinbase reduziu seus gastos com IA pela metade ao integrar modelos chineses como GLM 5.2 e Kimi 2.7, ao mesmo tempo em que aumentou o uso total de tokens.
Eficiência Técnica: A implementação de roteamento automatizado e engenharia de contexto permitiu que a Coinbase aumentasse as taxas de acerto de cache de 5% para 60%.
Pressão de Mercado: A migração para modelos mais baratos está forçando os laboratórios ocidentais a uma guerra de preços para justificar suas altas avaliações e perspectivas de IPO.

Coinbase passa a utilizar modelos de IA chineses para reduzir custos de API

Coinbase migra para modelos de IA chineses para reduzir custos de API

A migração para modelos chineses: GLM e Kimi

Roteamento Inteligente e Engenharia de Contexto

"Tokenmaxxing" encontra a Responsabilidade de Desempenho

Um Teste de Estresse de Preços para Laboratórios Ocidentais

Principais Conclusões

Continuar lendo

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost

Do Tokenmaxxing ao Racionamento: A Crise de Custos de IA Corporativa

Avanço da IA na China: Novas Ferramentas de Cibersegurança Rivalizam com a Tecnologia dos EUA