Reduzi a conta de tokens do meu agente de IA em 62% em um fim de semana
Meu agente de IA custava US$ 5,40 por tarefa. Reduzi esse custo para US$ 2,05 por tarefa em um único fim de semana. Consegui essa queda de 62% sem perder qualidade.
Aqui está como eu fiz isso.
O problema: Meu agente executa um loop de pesquisa. Ele pesquisa na web, faz o scraping de páginas e escreve resumos. Ele estava consumindo tokens de três maneiras:
- Context stuffing: Eu enviava páginas inteiras de 50.000 caracteres para o modelo. Eu só precisava de 2.000 caracteres. Eu pagava pelo palheiro inteiro para encontrar uma única agulha.
- Prompts verbosos: Meus system prompts repetiam as mesmas instruções três vezes. Eu pagava para o modelo reler minhas próprias palavras todas as vezes.
- Uso excessivo de modelos caros: Eu usava modelos de raciocínio de alto nível para tarefas simples, como resumir um único parágrafo.
As soluções:
Filtre antes de enviar Em vez de enviar páginas inteiras, agora eu divido o texto em chunks. Eu encontro as partes relevantes primeiro. Depois, envio apenas essas partes para o modelo. Isso reduziu os tokens de entrada de 12.500 para 3.200 por página.
Reduza o system prompt Eu deletei instruções redundantes. Removi descrições de ferramentas que o modelo já conhece. Parei de usar boilerplate como "pense passo a passo", porque os modelos modernos já fazem isso por padrão.
Roteamento de modelos em camadas Parei de usar um único modelo para tudo. Dividi as tarefas em três níveis:
- Extração: Use um modelo pequeno e barato.
- Síntese: Use um modelo de raciocínio de alto nível.
- Formatação: Use um modelo pequeno e barato.
Os resultados de um teste de 50 tarefas:
- Custo por tarefa: de US$ 5,40 para US$ 2,05
- Latência: de 41s para 28s
- Cobertura de citações: de 67% para 89%
O agente não ficou mais inteligente. O pipeline apenas ficou mais eficiente.
Três lições para seus agentes em produção:
- Defina um orçamento rígido de tokens. Interrompa a tarefa se ela exceder seu limite.
- Faça cache dos seus resultados. Não faça o scraping da mesma URL duas vezes.
- Registre tudo (logs). Você precisa saber exatamente qual etapa custa mais dinheiro.
Pare de recorrer a modelos maiores quando a qualidade cair. Comece a usar modelos menores com um contexto mais restrito.
Fonte: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi