𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴
Je gebruikt OTel en OpenInference. Je ziet de tokenaantallen. Je ziet niet welk team geld uitgeeft.
Gebruik deze drie attributen.
- team.id: Tag spans bij de gateway. Dit toont de kosten per team.
- feature.id: Tag de feature. Dit laat zien welke feature piekt.
- llm.model: Maak onderscheid tussen goedkope en dure modellen.
Voer een dagelijkse query uit in Grafana. Kijk naar het 95e percentiel van de output-tokens. Gropeer op team, feature en model.
Stel een alert in voor een verdubbeling van het 7-daagse gemiddelde. Dit heeft vorig kwartaal een retry-loop ontdekt. Het hoofd-dashboard miste het. De totale uitgaven bleven binnen het budget. Eén team gaf echter het dubbele uit.
Sla user.id over vanwege privacy. Sla request.id over om de hoeveelheid data klein te houden.
Bron: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Optionele leercommunity: https://t.me/GyaanSetuAi