Reduzi a conta de tokens do meu agente de IA em 62% em um fim de semana

Meu agente de IA custava US$ 5,40 por tarefa. Reduzi esse custo para US$ 2,05 por tarefa em um único fim de semana. Consegui essa queda de 62% sem perder qualidade.

Aqui está como eu fiz isso.

O problema: Meu agente executa um loop de pesquisa. Ele pesquisa na web, faz o scraping de páginas e escreve resumos. Ele estava consumindo tokens de três maneiras:

  • Context stuffing: Eu enviava páginas inteiras de 50.000 caracteres para o modelo. Eu só precisava de 2.000 caracteres. Eu pagava pelo palheiro inteiro para encontrar uma única agulha.
  • Prompts verbosos: Meus system prompts repetiam as mesmas instruções três vezes. Eu pagava para o modelo reler minhas próprias palavras todas as vezes.
  • Uso excessivo de modelos caros: Eu usava modelos de raciocínio de alto nível para tarefas simples, como resumir um único parágrafo.

As soluções:

  1. Filtre antes de enviar Em vez de enviar páginas inteiras, agora eu divido o texto em chunks. Eu encontro as partes relevantes primeiro. Depois, envio apenas essas partes para o modelo. Isso reduziu os tokens de entrada de 12.500 para 3.200 por página.

  2. Reduza o system prompt Eu deletei instruções redundantes. Removi descrições de ferramentas que o modelo já conhece. Parei de usar boilerplate como "pense passo a passo", porque os modelos modernos já fazem isso por padrão.

  3. Roteamento de modelos em camadas Parei de usar um único modelo para tudo. Dividi as tarefas em três níveis:

  • Extração: Use um modelo pequeno e barato.
  • Síntese: Use um modelo de raciocínio de alto nível.
  • Formatação: Use um modelo pequeno e barato.

Os resultados de um teste de 50 tarefas:

  • Custo por tarefa: de US$ 5,40 para US$ 2,05
  • Latência: de 41s para 28s
  • Cobertura de citações: de 67% para 89%

O agente não ficou mais inteligente. O pipeline apenas ficou mais eficiente.

Três lições para seus agentes em produção:

  • Defina um orçamento rígido de tokens. Interrompa a tarefa se ela exceder seu limite.
  • Faça cache dos seus resultados. Não faça o scraping da mesma URL duas vezes.
  • Registre tudo (logs). Você precisa saber exatamente qual etapa custa mais dinheiro.

Pare de recorrer a modelos maiores quando a qualidade cair. Comece a usar modelos menores com um contexto mais restrito.

Fonte: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi