𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

3 weken geleden1min read

Je gebruikt OTel en OpenInference. Je ziet de tokenaantallen. Je ziet niet welk team geld uitgeeft.

Gebruik deze drie attributen.

team.id: Tag spans bij de gateway. Dit toont de kosten per team.
feature.id: Tag de feature. Dit laat zien welke feature piekt.
llm.model: Maak onderscheid tussen goedkope en dure modellen.

Voer een dagelijkse query uit in Grafana. Kijk naar het 95e percentiel van de output-tokens. Gropeer op team, feature en model.

Stel een alert in voor een verdubbeling van het 7-daagse gemiddelde. Dit heeft vorig kwartaal een retry-loop ontdekt. Het hoofd-dashboard miste het. De totale uitgaven bleven binnen het budget. Eén team gaf echter het dubbele uit.

Sla user.id over vanwege privacy. Sla request.id over om de hoeveelheid data klein te houden.

Bron: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Optionele leercommunity: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Continue reading

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

Kostenoptimalisatie voor LLM-systemen

Waarom AI-kosten uit de hand lopen en hoe je ze onder controle houdt

Hoe ik onze AI API-kosten halveerde terwijl we 99 SLA's behaalden

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹