मी एका वीकेंडमध्ये माझ्या AI Agent चा टोकन बिल ६२% ने कमी केले

माझ्या AI agent चा खर्च प्रति टास्क $5.40 होता. मी एका वीकेंडमध्ये तो खर्च कमी करून प्रति टास्क $2.05 वर आणला. गुणवत्ता न गमावता मी ही ६२% घट साध्य केली.

मी हे कसे केले ते खाली दिले आहे.

समस्या: माझा agent एक रिसर्च लूप (research loop) चालवतो. तो वेबवर शोधतो, पेजेस स्क्रॅप करतो आणि सारांश (summaries) लिहितो. तो तीन प्रकारे टोकन्स खर्च करत होता:

  • Context stuffing: मी मॉडेलला ५०,००० कॅरेक्टर्सची संपूर्ण पेजेस पाठवत होतो. मला फक्त २,००० कॅरेक्टर्सची गरज होती. एका सुईच्या शोधासाठी मी संपूर्ण गवताचा ढीग (haystack) खरेदी केल्यासारखे पैसे मोजत होतो.
  • Verbose prompts: माझ्या सिस्टम प्रॉम्प्ट्समध्ये (system prompts) एकाच सूचना तीन वेळा पुन्हा पुन्हा येत होत्या. मॉडेलला माझेच शब्द पुन्हा पुन्हा वाचण्यासाठी मी पैसे मोजत होतो.
  • महागड्या मॉडेल्सचा अतिवापर: मी एका परिच्छेदाचा सारांश काढण्यासारख्या साध्या कामांसाठी देखील हाय-टियर रिझनिंग मॉडेल्स (high-tier reasoning models) वापरत होतो.

उपाय:

१. पाठवण्यापूर्वी फिल्टर करा संपूर्ण पेजेस पाठवण्याऐवजी, आता मी मजकुराचे तुकडे (chunks) करतो. मी प्रथम संबंधित भाग शोधतो आणि त्यानंतर फक्त तेच भाग मॉडेलला पाठवतो. यामुळे प्रति पेज इनपुट टोकन्स १२,५०० वरून ३,२०० पर्यंत कमी झाले.

२. सिस्टम प्रॉम्प्ट कमी करा (Trim) मी अनावश्यक सूचना काढून टाकल्या. मॉडेलला आधीच माहित असलेल्या टूल वर्णनांना (tool descriptions) मी काढून टाकले. मी "think step-by-step" सारख्या बोअरप्लेट (boilerplate) सूचना वापरणे थांबवले, कारण आधुनिक मॉडेल्स हे काम डिफॉल्टनुसार करतात.

३. टियर्ड मॉडेल राउटिंग (Tiered model routing) मी सर्व कामांसाठी एकच मॉडेल वापरणे थांबवले. मी कामांचे तीन स्तरांत विभाजन केले:

  • Extraction: स्वस्त आणि लहान मॉडेल वापरा.
  • Synthesis: हाय-टियर रिझनिंग मॉडेल वापरा.
  • Formatting: स्वस्त आणि लहान मॉडेल वापरा.

५० टास्कच्या चाचणीचे निकाल:

  • प्रति टास्क खर्च: $5.40 वरून $2.05
  • लॅटन्सी (Latency): 41s ते 28s
  • सायटेशन कव्हरेज (Citation coverage): 67% ते 89%

Agent अधिक हुशार झालेला नाही, तर पाइपलाइन फक्त अधिक कार्यक्षम झाली आहे.

तुमच्या प्रोडक्शन एजंट्ससाठी तीन धडे:

  • टोकनसाठी एक कडक बजेट (hard token budget) निश्चित करा. जर खर्च मर्यादेपेक्षा जास्त झाला, तर टास्क थांबवा.
  • तुमचे रिझल्ट्स कॅश (cache) करा. एकाच URL ला पुन्हा पुन्हा स्क्रॅप करू नका.
  • सर्व काही लॉग (log) करा. कोणत्या टप्प्यावर सर्वात जास्त खर्च होत आहे, हे तुम्हाला नक्की माहित असणे आवश्यक आहे.

गुणवत्ता कमी झाल्यावर मोठ्या मॉडेल्सकडे धाव घेणे थांबवा. त्याऐवजी, अधिक अचूक कॉन्टेक्स्टसह (tighter context) लहान मॉडेल्स वापरण्यास सुरुवात करा.

स्रोत: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi