Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

Translated for your language. Ler o original.

AI-assisted draft.

ontem2min de leitura

𝗖𝗼𝗺𝗼 𝗥𝗲𝗱𝘂𝘇𝗶 𝗡𝗼𝘀𝘀𝗮 𝗖𝗼𝗻𝘁𝗮 𝗱𝗲 𝗔𝗣𝗜 𝗱𝗲 𝗜𝗔 𝗽𝗲𝗹𝗮 𝗠𝗲𝗱𝗶𝗮𝗱𝗲 𝗲𝗻𝘁𝗿𝗲𝗻𝘁𝗿𝗼 𝗮𝘁𝗶𝗻𝗴𝗶𝗻𝗱𝗼 𝗦𝗟𝗔𝘀 𝗱𝗲 𝗽𝟵𝟵

Nossa conta de IA estava crescendo rápido demais. Meu CFO chamou isso de uma taxa de queima (burn rate) insustentável. Na época, usávamos o GPT-4o para tudo. Funcionava, mas os custos eram muito altos e a latência p99 era inconsistente.

Decidi tratar a seleção de modelos de IA como um problema de design de sistemas. Parei de procurar pelo melhor modelo e comecei a procurar pelo melhor modelo para nossos SLAs específicos.

Defini metas claras primeiro: • latência p99 abaixo de 1,5 segundos para chat • 99,9% de disponibilidade • failover multi-região • capacidade de throughput de 3x a carga de pico

Assim que tive esses números, a solução ficou clara. O modelo mais barato por token nem sempre é a melhor escolha para produção. Se um modelo barato dobrar sua latência, você perde usuários.

Comparei muitos modelos. A diferença de preço era massiva. O GPT-4o custa US$ 10,00 por milhão de tokens de saída. O GLM-4 Plus custa US$ 0,80. Nossos testes mostraram que o GLM-4 Plus teve um desempenho quase tão bom quanto o GPT-4o para nossas tarefas específicas, como sumarização e extração.

Construí uma camada de roteamento para gerenciar isso. O sistema segue estas regras: • Roteie as solicitações com base no tipo de carga de trabalho • Use um modelo de fallback se a latência disparar • Distribua o tráfego entre regiões • Faça cache de solicitações frequentes

Também adicionei um cache Redis. A taxa de acerto (hit rate) atingiu 40% em uma semana. Isso reduziu nosso gasto de tokens em consultas repetidas e baixou a latência de 1,4 segundos para 200 milissegundos.

Os resultados: • O gasto mensal com inferência caiu 58% • A latência p99 caiu de 1,6s para 1,18s • O uptime permaneceu em 99,95% • A taxa de acerto do cache atingiu 42%

Três lições que aprendi:

Construa sua própria suíte de avaliação. Não confie em benchmarks genéricos. Use seus dados reais de produção.
Monitore de perto os limites de taxa (rate limits). O tráfego regional pode causar picos inesperados.
Construa um kill switch. Um prompt ruim pode causar um pico massivo no uso de tokens. Um limite de tokens máximos nos economizou US$ 14.000 uma vez.

Se sua conta de IA estiver muito alta, defina seu SLA primeiro. Construa uma suíte de avaliação a partir do tráfego real. Depois, analise o preço dos modelos que você ignora atualmente.

Fonte: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Comunidade de aprendizado opcional: https://

Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

Continuar lendo

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Como reduzi meus custos de IA em 60% com esta configuração de RAG

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

7 Maneiras de Reduzir sua Fatura de IA