Stop i picchi di costo degli LLM prima della fatturazione

Usi OTel e OpenInference. Vedi il conteggio dei token. Non vedi quale team sta spendendo denaro.

Usa questi tre attributi.

  • team.id: Tagga gli span al gateway. Questo mostra il costo per team.
  • feature.id: Tagga la feature. Questo mostra quale feature causa i picchi.
  • llm.model: Separa i modelli economici da quelli costosi.

Esegui una query giornaliera in Grafana. Controlla il 95° percentile dei token di output. Raggruppa per team, feature e modello.

Imposta un alert per un salto di 2x nella media a 7 giorni. Questo ha permesso di individuare un loop di retry lo scorso trimestre. La dashboard principale non l'aveva rilevato. La spesa totale è rimasta sotto budget. Un singolo team ha speso il doppio.

Salta user.id per motivi di privacy. Salta request.id per mantenere i dati leggeri.

Fonte: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Community di apprendimento opzionale: https://t.me/GyaanSetuAi