𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Ler o original.

AI-assisted draft.

há 3 semanas1min de leitura

Evite picos de custos de LLM antes do faturamento

Você usa OTel e OpenInference. Você vê a contagem de tokens. Você não vê qual equipe está gastando dinheiro.

Use estes três atributos.

team.id: Adicione tags aos spans no gateway. Isso mostra o custo por equipe.
feature.id: Adicione tags à funcionalidade. Isso mostra qual funcionalidade está causando picos.
llm.model: Separe modelos baratos de modelos caros.

Execute uma consulta diária no Grafana. Observe o percentil 95 dos tokens de saída. Agrupe por equipe, funcionalidade e modelo.

Configure um alerta para um salto de 2x na média de 7 dias. Isso detectou um loop de retentativa no último trimestre. O dashboard principal não percebeu. O gasto total permaneceu dentro do orçamento. Uma equipe gastou o dobro.

Ignore o user.id por privacidade. Ignore o request.id para manter o volume de dados reduzido.

Fonte: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Continuar lendo

Por que seus agentes estão queimando tokens

Otimização de Custos para Sistemas LLM

𝗪𝗵𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝗦𝗽𝗶𝗿𝗮𝗹 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗧𝗼 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗧𝗵𝗲𝗺

Como reduzi nossa conta de API de IA pela metade enquanto atingia 99 SLAs

7 Maneiras de Reduzir sua Fatura de IA