Останавливайте скачки затрат на LLM до выставления счетов
Вы используете OTel и OpenInference. Вы видите количество токенов. Но вы не видите, какая команда тратит деньги.
Используйте эти три атрибута:
team.id: Тегируйте спаны на шлюзе. Это покажет затраты по командам.feature.id: Тегируйте фичу. Это покажет, какая именно функция вызывает скачок расходов.llm.model: Отделяйте дешевые модели от дорогих.
Запускайте ежедневный запрос в Grafana. Смотрите на 95-й перцентиль выходных токенов. Группируйте по команде, фиче и модели.
Настройте алерт на двукратный скачок среднего значения за 7 дней. В прошлом квартале это помогло обнаружить цикл повторных попыток (retry loop). Основной дашборд это пропустил. Общие расходы остались в рамках бюджета, но одна команда потратила вдвое больше.
Пропускайте user.id в целях конфиденциальности. Пропускайте request.id, чтобы не раздувать объем данных.
Источник: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi