Eu reduzi meus custos de API de IA em 70%

Minha fatura da OpenAI saltou de $30 para $150. Um pequeno bot do Slack causou isso. Prompts repetidos e tentativas de reenvio custaram caro demais.

Tentei correções simples. Usei cache básico. Troquei de modelos. Nada funcionou. Usuários reformulam perguntas. O cache básico falha quando as palavras mudam.

Eu construí um proxy de IA. Ele fica entre meu app e a API. Ele faz três coisas:

  • Cache semântico. Eu uso embeddings para encontrar perguntas semelhantes. Eu entrego a resposta em cache se a correspondência for alta.
  • Limitação de taxa (rate limiting). Eu uso Redis para interromper picos de requisições.
  • Buffers de reenvio (retry buffers). O proxy tenta novamente as chamadas que falharam automaticamente.

Isso reduziu meus custos em 70%.

Existem compensações (trade-offs):

  • Latência. Adiciona 200ms por requisição.
  • Memória. O Redis precisa de espaço para vetores.
  • Precisão. Alguns prompts semelhantes precisam de respostas diferentes.

Lições para você:

  • Comece com ferramentas de código aberto como o LiteLLM.
  • Monitore seus dados desde o primeiro dia.
  • Use filas de mensagens (message queues) para alto tráfego.

Pare de tratar APIs de IA como caixas pretas. Elas são endpoints HTTP. Use middleware para controlá-las.

Qual é a sua configuração? Você usa um serviço ou constrói o seu próprio?

Fonte: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf