Останавливайте скачки затрат на LLM до выставления счетов

Вы используете OTel и OpenInference. Вы видите количество токенов. Но вы не видите, какая команда тратит деньги.

Используйте эти три атрибута:

  • team.id: Тегируйте спаны на шлюзе. Это покажет затраты по командам.
  • feature.id: Тегируйте фичу. Это покажет, какая именно функция вызывает скачок расходов.
  • llm.model: Отделяйте дешевые модели от дорогих.

Запускайте ежедневный запрос в Grafana. Смотрите на 95-й перцентиль выходных токенов. Группируйте по команде, фиче и модели.

Настройте алерт на двукратный скачок среднего значения за 7 дней. В прошлом квартале это помогло обнаружить цикл повторных попыток (retry loop). Основной дашборд это пропустил. Общие расходы остались в рамках бюджета, но одна команда потратила вдвое больше.

Пропускайте user.id в целях конфиденциальности. Пропускайте request.id, чтобы не раздувать объем данных.

Источник: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi