עצרו קפיצות בעלויות LLM לפני החיוב

אתם משתמשים ב-OTel וב-OpenInference. אתם רואים את ספירת הטוקנים, אך אינכם רואים איזה צוות מוציא כסף.

השתמשו בשלושת המאפיינים הבאים:

  • team.id: תייגו spans ב-gateway. זה מציג עלויות לפי צוות.
  • feature.id: תייגו את הפיצ'ר. זה מראה איזה פיצ'ר גורם לקפיצה.
  • llm.model: הפרידו בין מודלים זולים למודלים יקרים.

הריצו שאילתה יומית ב-Grafana. בדקו את האחוזון ה-95 (95th percentile) של טוקני הפלט. קבצו (Group by) לפי צוות, פיצ'ר ומודל.

הגדירו התראה על קפיצה פי 2 בממוצע של 7 הימים האחרונים. זה תפס לולאת ניסיונות חוזרים (retry loop) ברבעון האחרון. לוח הבקרה (dashboard) הראשי פספס זאת. ההוצאה הכוללת נשארה מתחת לתקציב, אך צוות אחד הוציא פי שניים.

הימנעו משימוש ב-user.id למען הפרטיות. הימנעו מ-request.id כדי לשמור על נפח נתונים קטן.

מקור: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n קהילת למידה אופציונלית: https://t.me/GyaanSetuAi