𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Translated for your language. Ler o original.

AI-assisted draft.

ontem2min de leitura

Reduzi a conta de tokens do meu agente de IA em 62% em um fim de semana

Meu agente de IA custava US$ 5,40 por tarefa. Reduzi esse custo para US$ 2,05 por tarefa em um único fim de semana. Consegui essa queda de 62% sem perder qualidade.

Aqui está como eu fiz isso.

O problema: Meu agente executa um loop de pesquisa. Ele pesquisa na web, faz o scraping de páginas e escreve resumos. Ele estava consumindo tokens de três maneiras:

Context stuffing: Eu enviava páginas inteiras de 50.000 caracteres para o modelo. Eu só precisava de 2.000 caracteres. Eu pagava pelo palheiro inteiro para encontrar uma única agulha.
Prompts verbosos: Meus system prompts repetiam as mesmas instruções três vezes. Eu pagava para o modelo reler minhas próprias palavras todas as vezes.
Uso excessivo de modelos caros: Eu usava modelos de raciocínio de alto nível para tarefas simples, como resumir um único parágrafo.

As soluções:

Filtre antes de enviar Em vez de enviar páginas inteiras, agora eu divido o texto em chunks. Eu encontro as partes relevantes primeiro. Depois, envio apenas essas partes para o modelo. Isso reduziu os tokens de entrada de 12.500 para 3.200 por página.
Reduza o system prompt Eu deletei instruções redundantes. Removi descrições de ferramentas que o modelo já conhece. Parei de usar boilerplate como "pense passo a passo", porque os modelos modernos já fazem isso por padrão.
Roteamento de modelos em camadas Parei de usar um único modelo para tudo. Dividi as tarefas em três níveis:

Extração: Use um modelo pequeno e barato.
Síntese: Use um modelo de raciocínio de alto nível.
Formatação: Use um modelo pequeno e barato.

Os resultados de um teste de 50 tarefas:

Custo por tarefa: de US$ 5,40 para US$ 2,05
Latência: de 41s para 28s
Cobertura de citações: de 67% para 89%

O agente não ficou mais inteligente. O pipeline apenas ficou mais eficiente.

Três lições para seus agentes em produção:

Defina um orçamento rígido de tokens. Interrompa a tarefa se ela exceder seu limite.
Faça cache dos seus resultados. Não faça o scraping da mesma URL duas vezes.
Registre tudo (logs). Você precisa saber exatamente qual etapa custa mais dinheiro.

Pare de recorrer a modelos maiores quando a qualidade cair. Comece a usar modelos menores com um contexto mais restrito.

Fonte: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Continuar lendo

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

7 Maneiras de Reduzir sua Fatura de IA