Stop i picchi di costo degli LLM prima della fatturazione
Usi OTel e OpenInference. Vedi il conteggio dei token. Non vedi quale team sta spendendo denaro.
Usa questi tre attributi.
- team.id: Tagga gli span al gateway. Questo mostra il costo per team.
- feature.id: Tagga la feature. Questo mostra quale feature causa i picchi.
- llm.model: Separa i modelli economici da quelli costosi.
Esegui una query giornaliera in Grafana. Controlla il 95° percentile dei token di output. Raggruppa per team, feature e modello.
Imposta un alert per un salto di 2x nella media a 7 giorni. Questo ha permesso di individuare un loop di retry lo scorso trimestre. La dashboard principale non l'aveva rilevato. La spesa totale è rimasta sotto budget. Un singolo team ha speso il doppio.
Salta user.id per motivi di privacy. Salta request.id per mantenere i dati leggeri.
Fonte: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Community di apprendimento opzionale: https://t.me/GyaanSetuAi