𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

3 тижні тому1min read

Зупиніть різке зростання витрат на LLM до виставлення рахунку

Ви використовуєте OTel та OpenInference. Ви бачите кількість токенів. Але ви не бачите, яка саме команда витрачає гроші.

Використовуйте ці три атрибути.

team.id: Тегуйте спани на шлюзі. Це покаже витрати за командами.
feature.id: Тегуйте функцію. Це покаже, у якій саме функції стався стрибок витрат.
llm.model: Відокремте дешеві моделі від дорогих.

Запускайте щоденний запит у Grafana. Дивіться на 95-й перцентиль вихідних токенів. Групуйте за командою, функцією та моделлю.

Налаштуйте сповіщення на двократне зростання середнього значення за 7 днів. Це допомогло виявити цикл повторних спроб (retry loop) минулого кварталу. Головний дашборд цього не помітив. Загальні витрати залишилися в межах бюджету, але одна команда витратила вдвічі більше.

Пропускайте user.id задля конфіденційності. Пропускайте request.id, щоб не роздувати обсяг даних.

Джерело: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Continue reading

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

Оптимізація витрат для систем LLM

𝗪𝗵𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝗦𝗽𝗶𝗿𝗮𝗹 𝗔𝗻𝗱 𝗛𝗼𝘄 𝗧𝗼 𝗖𝗼𝗻𝘁𝗿𝗼𝗹 𝗧𝗵𝗲𝗺

Як я скоротив наші витрати на AI API вдвічі, дотримуючись 99 SLA

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹