Detén los picos de costos de LLM antes de la facturación

Usas OTel y OpenInference. Ves el recuento de tokens. No ves qué equipo gasta el dinero.

Usa estos tres atributos.

  • team.id: Etiqueta los spans en el gateway. Esto muestra el costo por equipo.
  • feature.id: Etiqueta la funcionalidad. Esto muestra qué funcionalidad tiene picos.
  • llm.model: Separa los modelos económicos de los costosos.

Ejecuta una consulta diaria en Grafana. Observa el percentil 95 de los tokens de salida. Agrupa por equipo, funcionalidad y modelo.

Configura una alerta para un salto de 2x en el promedio de 7 días. Esto detectó un bucle de reintentos el trimestre pasado. El dashboard principal no lo detectó. El gasto total se mantuvo bajo el presupuesto. Un equipo gastó el doble.

Omite user.id por privacidad. Omite request.id para mantener los datos ligeros.

Fuente: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi