Evite picos de custos de LLM antes do faturamento

Você usa OTel e OpenInference. Você vê a contagem de tokens. Você não vê qual equipe está gastando dinheiro.

Use estes três atributos.

  • team.id: Adicione tags aos spans no gateway. Isso mostra o custo por equipe.
  • feature.id: Adicione tags à funcionalidade. Isso mostra qual funcionalidade está causando picos.
  • llm.model: Separe modelos baratos de modelos caros.

Execute uma consulta diária no Grafana. Observe o percentil 95 dos tokens de saída. Agrupe por equipe, funcionalidade e modelo.

Configure um alerta para um salto de 2x na média de 7 dias. Isso detectou um loop de retentativa no último trimestre. O dashboard principal não percebeu. O gasto total permaneceu dentro do orçamento. Uma equipe gastou o dobro.

Ignore o user.id por privacidade. Ignore o request.id para manter o volume de dados reduzido.

Fonte: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi