𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

3 tygodnie temu1min read

Zatrzymaj nagłe wzrosty kosztów LLM przed wystawieniem faktury

Korzystasz z OTel i OpenInference. Widzisz liczbę tokenów. Nie widzisz jednak, który zespół generuje koszty.

Skorzystaj z tych trzech atrybutów.

team.id: Taguj spany na gatewayu. To pokazuje koszty według zespołu.
feature.id: Taguj funkcję. To pokazuje, która funkcja powoduje wzrosty.
llm.model: Oddziel tanie modele od drogich.

Uruchamiaj codziennie zapytanie w Grafana. Sprawdzaj 95. percentyl liczby tokenów wyjściowych. Grupuj wyniki według zespołu, funkcji i modelu.

Ustaw alert na dwukrotny wzrost średniej z 7 dni. W zeszłym kwartale pozwoliło to wykryć pętlę ponowień (retry loop). Główny dashboard tego nie wyłapał. Całkowite wydatki pozostały w budżecie, ale jeden zespół wydał dwa razy więcej.

Pomiń user.id ze względu na prywatność. Pomiń request.id, aby zachować niewielki rozmiar danych.

Źródło: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Continue reading

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

Dlaczego koszty AI wymykają się spod kontroli i jak nad nimi zapanować

Jak zmniejszyłem nasze rachunki za AI API o połowę, zachowując 99% SLA

7 sposobów na obniżenie rachunków za AI