Зупиніть різке зростання витрат на LLM до виставлення рахунку

Ви використовуєте OTel та OpenInference. Ви бачите кількість токенів. Але ви не бачите, яка саме команда витрачає гроші.

Використовуйте ці три атрибути.

  • team.id: Тегуйте спани на шлюзі. Це покаже витрати за командами.
  • feature.id: Тегуйте функцію. Це покаже, у якій саме функції стався стрибок витрат.
  • llm.model: Відокремте дешеві моделі від дорогих.

Запускайте щоденний запит у Grafana. Дивіться на 95-й перцентиль вихідних токенів. Групуйте за командою, функцією та моделлю.

Налаштуйте сповіщення на двократне зростання середнього значення за 7 днів. Це допомогло виявити цикл повторних спроб (retry loop) минулого кварталу. Головний дашборд цього не помітив. Загальні витрати залишилися в межах бюджету, але одна команда витратила вдвічі більше.

Пропускайте user.id задля конфіденційності. Пропускайте request.id, щоб не роздувати обсяг даних.

Джерело: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Додаткова спільнота для навчання: https://t.me/GyaanSetuAi