मैंने एक वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया

मेरे AI एजेंट की लागत प्रति टास्क $5.40 थी। मैंने एक वीकेंड में इस लागत को घटाकर $2.05 प्रति टास्क कर दिया। मैंने गुणवत्ता खोए बिना यह 62% की कमी हासिल की।

मैंने यह कैसे किया, यहाँ बताया गया है।

समस्या: मेरा एजेंट एक रिसर्च लूप चलाता है। यह वेब पर सर्च करता है, पेजों को स्क्रैप करता है और सारांश (summaries) लिखता है। यह तीन तरीकों से टोकन खर्च कर रहा था:

  • कॉन्टेक्स्ट स्टफिंग (Context stuffing): मैं मॉडल को पूरे 50,000 कैरेक्टर वाले पेज भेज रहा था। मुझे केवल 2,000 कैरेक्टर की आवश्यकता थी। मैं एक सुई खोजने के लिए पूरे घास के ढेर (haystack) के लिए भुगतान कर रहा था।
  • वर्बोस प्रॉम्प्ट्स (Verbose prompts): मेरे सिस्टम प्रॉम्प्ट्स में एक ही निर्देश तीन बार दोहराए जा रहे थे। मैं हर बार मॉडल को अपने ही शब्दों को दोबारा पढ़ने के लिए भुगतान कर रहा था।
  • महंगे मॉडल्स का अत्यधिक उपयोग: मैं एक पैराग्राफ का सारांश लिखने जैसे सरल कार्यों के लिए भी हाई-टियर रीजनिंग मॉडल्स का उपयोग कर रहा था।

समाधान:

  1. भेजने से पहले फ़िल्टर करें पूरे पेज भेजने के बजाय, अब मैं टेक्स्ट को चंक्स (chunks) में बाँट देता हूँ। मैं पहले प्रासंगिक (relevant) हिस्सों को ढूँढता हूँ। फिर मैं मॉडल को केवल उन्हीं हिस्सों को भेजता हूँ। इससे प्रति पेज इनपुट टोकन 12,500 से घटकर 3,200 रह गए।

  2. सिस्टम प्रॉम्प्ट को छोटा करें मैंने अनावश्यक निर्देशों को हटा दिया। मैंने उन टूल विवरणों (tool descriptions) को हटा दिया जिन्हें मॉडल पहले से ही जानता है। मैंने "think step-by-step" जैसे बॉयलरप्लेट (boilerplate) का उपयोग करना बंद कर दिया क्योंकि आधुनिक मॉडल्स इसे डिफ़ॉल्ट रूप से करते हैं।

  3. टियर्ड मॉडल राउटिंग (Tiered model routing) मैंने हर काम के लिए एक ही मॉडल का उपयोग करना बंद कर दिया। मैंने कार्यों को तीन स्तरों में विभाजित किया:

  • एक्सट्रैक्शन (Extraction): एक सस्ता, छोटा मॉडल उपयोग करें।
  • सिंथेसिस (Synthesis): एक हाई-टियर रीजनिंग मॉडल का उपयोग करें।
  • फॉर्मेटिंग (Formatting): एक सस्ता, छोटा मॉडल उपयोग करें।

50-टास्क टेस्ट के परिणाम:

  • प्रति टास्क लागत: $5.40 से $2.05
  • लेटेंसी (Latency): 41s से 28s
  • साइटेशन कवरेज (Citation coverage): 67% से 89%

एजेंट अधिक स्मार्ट नहीं हुआ है। पाइपलाइन बस अधिक कुशल (efficient) हो गई है।

आपके प्रोडक्शन एजेंटों के लिए तीन सबक:

  • एक सख्त टोकन बजट निर्धारित करें। यदि यह आपकी सीमा से अधिक हो जाए, तो टास्क को रोक दें।
  • अपने परिणामों को कैश (cache) करें। एक ही URL को दोबारा स्क्रैप न करें।
  • सब कुछ लॉग (log) करें। आपको सटीक रूप से पता होना चाहिए कि किस स्टेप पर सबसे अधिक पैसा खर्च हो रहा है।

जब गुणवत्ता कम हो, तो बड़े मॉडल्स की ओर भागना बंद करें। टाइट कॉन्टेक्स्ट के साथ छोटे मॉडल्स का उपयोग करना शुरू करें।

स्रोत: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi