𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

לפני 3 שבועות1min read

עצרו קפיצות בעלויות LLM לפני החיוב

אתם משתמשים ב-OTel וב-OpenInference. אתם רואים את ספירת הטוקנים, אך אינכם רואים איזה צוות מוציא כסף.

השתמשו בשלושת המאפיינים הבאים:

team.id: תייגו spans ב-gateway. זה מציג עלויות לפי צוות.
feature.id: תייגו את הפיצ'ר. זה מראה איזה פיצ'ר גורם לקפיצה.
llm.model: הפרידו בין מודלים זולים למודלים יקרים.

הריצו שאילתה יומית ב-Grafana. בדקו את האחוזון ה-95 (95th percentile) של טוקני הפלט. קבצו (Group by) לפי צוות, פיצ'ר ומודל.

הגדירו התראה על קפיצה פי 2 בממוצע של 7 הימים האחרונים. זה תפס לולאת ניסיונות חוזרים (retry loop) ברבעון האחרון. לוח הבקרה (dashboard) הראשי פספס זאת. ההוצאה הכוללת נשארה מתחת לתקציב, אך צוות אחד הוציא פי שניים.

הימנעו משימוש ב-user.id למען הפרטיות. הימנעו מ-request.id כדי לשמור על נפח נתונים קטן.

מקור: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴

Continue reading

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

למה עלויות ה-AI מזנקות ואיך לשלוט בהן

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹