Zatrzymaj nagłe wzrosty kosztów LLM przed wystawieniem faktury

Korzystasz z OTel i OpenInference. Widzisz liczbę tokenów. Nie widzisz jednak, który zespół generuje koszty.

Skorzystaj z tych trzech atrybutów.

  • team.id: Taguj spany na gatewayu. To pokazuje koszty według zespołu.
  • feature.id: Taguj funkcję. To pokazuje, która funkcja powoduje wzrosty.
  • llm.model: Oddziel tanie modele od drogich.

Uruchamiaj codziennie zapytanie w Grafana. Sprawdzaj 95. percentyl liczby tokenów wyjściowych. Grupuj wyniki według zespołu, funkcji i modelu.

Ustaw alert na dwukrotny wzrost średniej z 7 dni. W zeszłym kwartale pozwoliło to wykryć pętlę ponowień (retry loop). Główny dashboard tego nie wyłapał. Całkowite wydatki pozostały w budżecie, ale jeden zespół wydał dwa razy więcej.

Pomiń user.id ze względu na prywatność. Pomiń request.id, aby zachować niewielki rozmiar danych.

Źródło: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi