బిల్లింగ్ రాకముందే LLM ఖర్చుల పెరుగుదలను అరికట్టండి

మీరు OTel మరియు OpenInference ఉపయోగిస్తున్నారు. మీరు టోకెన్ కౌంట్‌లను చూస్తున్నారు. కానీ ఏ టీమ్ ఎంత డబ్బు ఖర్చు చేస్తోందో మీకు తెలియదు.

ఈ మూడు అట్రిబ్యూట్‌లను ఉపయోగించండి.

  • team.id: గేట్‌వే వద్ద spansను ట్యాగ్ చేయండి. ఇది టీమ్ వారీగా ఖర్చును చూపుతుంది.
  • feature.id: ఫీచర్‌ను ట్యాగ్ చేయండి. దీనివల్ల ఏ ఫీచర్ వల్ల ఖర్చు పెరుగుతుందో తెలుస్తుంది.
  • llm.model: తక్కువ ఖర్చుతో కూడిన మోడళ్లను మరియు ఎక్కువ ఖర్చుతో కూడిన మోడళ్లను వేరు చేయండి.

Grafanaలో ప్రతిరోజూ ఒక క్వెరీ రన్ చేయండి. అవుట్‌పుట్ టోకెన్‌ల 95th percentile ను గమనించండి. టీమ్, ఫీచర్ మరియు మోడల్ ఆధారంగా గ్రూప్ చేయండి.

7 రోజుల సగటులో 2x పెరుగుదల కనిపిస్తే అలర్ట్ వచ్చేలా సెట్ చేయండి. గత త్రైమాసికంలో ఒక 'retry loop'ను ఇది గుర్తించింది. మెయిన్ డ్యాష్‌బోర్డ్ దానిని గమనించలేకపోయింది. మొత్తం ఖర్చు బడ్జెట్ లోపే ఉంది, కానీ ఒక టీమ్ మాత్రం రెట్టింపు ఖర్చు చేసింది.

ప్రైవసీ కోసం user.id ని వదిలేయండి. డేటా పరిమాణం తక్కువగా ఉండటానికి request.id ని వదిలేయండి.

మూలం (Source): https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n ఐచ్ఛిక అభ్యాస సమూహం (Optional learning community): https://t.me/GyaanSetuAi