Eu reduzi meus custos de API de IA em 70%
Minha fatura da OpenAI saltou de $30 para $150. Um pequeno bot do Slack causou isso. Prompts repetidos e tentativas de reenvio custaram caro demais.
Tentei correções simples. Usei cache básico. Troquei de modelos. Nada funcionou. Usuários reformulam perguntas. O cache básico falha quando as palavras mudam.
Eu construí um proxy de IA. Ele fica entre meu app e a API. Ele faz três coisas:
- Cache semântico. Eu uso embeddings para encontrar perguntas semelhantes. Eu entrego a resposta em cache se a correspondência for alta.
- Limitação de taxa (rate limiting). Eu uso Redis para interromper picos de requisições.
- Buffers de reenvio (retry buffers). O proxy tenta novamente as chamadas que falharam automaticamente.
Isso reduziu meus custos em 70%.
Existem compensações (trade-offs):
- Latência. Adiciona 200ms por requisição.
- Memória. O Redis precisa de espaço para vetores.
- Precisão. Alguns prompts semelhantes precisam de respostas diferentes.
Lições para você:
- Comece com ferramentas de código aberto como o LiteLLM.
- Monitore seus dados desde o primeiro dia.
- Use filas de mensagens (message queues) para alto tráfego.
Pare de tratar APIs de IA como caixas pretas. Elas são endpoints HTTP. Use middleware para controlá-las.
Qual é a sua configuração? Você usa um serviço ou constrói o seu próprio?