Остановите резкие скачки затрат на LLM до выставления счета

Translated for your language. Читать оригинал.

AI-assisted draft.

3 недели назад1мин чтения

Останавливайте скачки затрат на LLM до выставления счетов

Вы используете OTel и OpenInference. Вы видите количество токенов. Но вы не видите, какая команда тратит деньги.

Используйте эти три атрибута:

team.id: Тегируйте спаны на шлюзе. Это покажет затраты по командам.
feature.id: Тегируйте фичу. Это покажет, какая именно функция вызывает скачок расходов.
llm.model: Отделяйте дешевые модели от дорогих.

Запускайте ежедневный запрос в Grafana. Смотрите на 95-й перцентиль выходных токенов. Группируйте по команде, фиче и модели.

Настройте алерт на двукратный скачок среднего значения за 7 дней. В прошлом квартале это помогло обнаружить цикл повторных попыток (retry loop). Основной дашборд это пропустил. Общие расходы остались в рамках бюджета, но одна команда потратила вдвое больше.

Пропускайте user.id в целях конфиденциальности. Пропускайте request.id, чтобы не раздувать объем данных.

Источник: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Остановите резкие скачки затрат на LLM до выставления счета

Продолжить чтение

Почему ваши агенты сжигают токены

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

Почему расходы на ИИ растут по спирали и как их контролировать

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹