𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Translated for your language. Ler o original.

AI-assisted draft.

há 2 semanas1min de leitura

Eu reduzi meus custos de API de IA em 70%

Minha fatura da OpenAI saltou de $30 para $150. Um pequeno bot do Slack causou isso. Prompts repetidos e tentativas de reenvio custaram caro demais.

Tentei correções simples. Usei cache básico. Troquei de modelos. Nada funcionou. Usuários reformulam perguntas. O cache básico falha quando as palavras mudam.

Eu construí um proxy de IA. Ele fica entre meu app e a API. Ele faz três coisas:

Cache semântico. Eu uso embeddings para encontrar perguntas semelhantes. Eu entrego a resposta em cache se a correspondência for alta.
Limitação de taxa (rate limiting). Eu uso Redis para interromper picos de requisições.
Buffers de reenvio (retry buffers). O proxy tenta novamente as chamadas que falharam automaticamente.

Isso reduziu meus custos em 70%.

Existem compensações (trade-offs):

Latência. Adiciona 200ms por requisição.
Memória. O Redis precisa de espaço para vetores.
Precisão. Alguns prompts semelhantes precisam de respostas diferentes.

Lições para você:

Comece com ferramentas de código aberto como o LiteLLM.
Monitore seus dados desde o primeiro dia.
Use filas de mensagens (message queues) para alto tráfego.

Pare de tratar APIs de IA como caixas pretas. Elas são endpoints HTTP. Use middleware para controlá-las.

Qual é a sua configuração? Você usa um serviço ou constrói o seu próprio?

Fonte: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Continuar lendo

Pare de desperdiçar dinheiro com APIs de IA

Como reduzi meus custos de IA em 60% com esta configuração de RAG

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

7 Maneiras de Reduzir sua Fatura de IA