બિલિંગ પહેલા LLM ખર્ચમાં થતા ઉછાળાને રોકો

તમે OTel અને OpenInference નો ઉપયોગ કરો છો. તમે ટોકન કાઉન્ટ જુઓ છો. પરંતુ કઈ ટીમ કેટલો ખર્ચ કરી રહી છે તે તમે જોઈ શકતા નથી.

આ ત્રણ એટ્રિબ્યુટ્સનો ઉપયોગ કરો.

  • team.id: ગેટવે પર spans ને ટેગ કરો. આ ટીમ મુજબ ખર્ચ દર્શાવે છે.
  • feature.id: ફીચરને ટેગ કરો. આ કયા ફીચરમાં ઉછાળો આવે છે તે દર્શાવે છે.
  • llm.model: સસ્તા મોડલ્સને મોંઘા મોડલ્સથી અલગ કરો.

Grafana માં દરરોજ એક ક્વેરી રન કરો. આઉટપુટ ટોકન્સના 95th percentile ને જુઓ. ટીમ, ફીચર અને મોડલ મુજબ ગ્રુપ કરો.

7-દિવસીય સરેરાશમાં 2x વધારા માટે એલર્ટ સેટ કરો. ગયા ક્વાર્ટરમાં આનાથી એક રીટ્રાય લૂપ (retry loop) પકડાઈ ગયો હતો. મુખ્ય ડેશબોર્ડ તેને ચૂકી ગયું હતું. કુલ ખર્ચ બજેટની અંદર રહ્યો, પરંતુ એક ટીમે બમણો ખર્ચ કર્યો હતો.

પ્રાઇવસી માટે user.id ને અવગણો. ડેટા નાનો રાખવા માટે request.id ને અવગણો.

Source: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Optional learning community: https://t.me/GyaanSetuAi