Zatrzymaj nagłe wzrosty kosztów LLM przed wystawieniem faktury
Korzystasz z OTel i OpenInference. Widzisz liczbę tokenów. Nie widzisz jednak, który zespół generuje koszty.
Skorzystaj z tych trzech atrybutów.
- team.id: Taguj spany na gatewayu. To pokazuje koszty według zespołu.
- feature.id: Taguj funkcję. To pokazuje, która funkcja powoduje wzrosty.
- llm.model: Oddziel tanie modele od drogich.
Uruchamiaj codziennie zapytanie w Grafana. Sprawdzaj 95. percentyl liczby tokenów wyjściowych. Grupuj wyniki według zespołu, funkcji i modelu.
Ustaw alert na dwukrotny wzrost średniej z 7 dni. W zeszłym kwartale pozwoliło to wykryć pętlę ponowień (retry loop). Główny dashboard tego nie wyłapał. Całkowite wydatki pozostały w budżecie, ale jeden zespół wydał dwa razy więcej.
Pomiń user.id ze względu na prywatność. Pomiń request.id, aby zachować niewielki rozmiar danych.
Źródło: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi