मैंने एक वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया
मेरे AI एजेंट की लागत प्रति टास्क $5.40 थी। मैंने एक वीकेंड में इस लागत को घटाकर $2.05 प्रति टास्क कर दिया। मैंने गुणवत्ता खोए बिना यह 62% की कमी हासिल की।
मैंने यह कैसे किया, यहाँ बताया गया है।
समस्या: मेरा एजेंट एक रिसर्च लूप चलाता है। यह वेब पर सर्च करता है, पेजों को स्क्रैप करता है और सारांश (summaries) लिखता है। यह तीन तरीकों से टोकन खर्च कर रहा था:
- कॉन्टेक्स्ट स्टफिंग (Context stuffing): मैं मॉडल को पूरे 50,000 कैरेक्टर वाले पेज भेज रहा था। मुझे केवल 2,000 कैरेक्टर की आवश्यकता थी। मैं एक सुई खोजने के लिए पूरे घास के ढेर (haystack) के लिए भुगतान कर रहा था।
- वर्बोस प्रॉम्प्ट्स (Verbose prompts): मेरे सिस्टम प्रॉम्प्ट्स में एक ही निर्देश तीन बार दोहराए जा रहे थे। मैं हर बार मॉडल को अपने ही शब्दों को दोबारा पढ़ने के लिए भुगतान कर रहा था।
- महंगे मॉडल्स का अत्यधिक उपयोग: मैं एक पैराग्राफ का सारांश लिखने जैसे सरल कार्यों के लिए भी हाई-टियर रीजनिंग मॉडल्स का उपयोग कर रहा था।
समाधान:
भेजने से पहले फ़िल्टर करें पूरे पेज भेजने के बजाय, अब मैं टेक्स्ट को चंक्स (chunks) में बाँट देता हूँ। मैं पहले प्रासंगिक (relevant) हिस्सों को ढूँढता हूँ। फिर मैं मॉडल को केवल उन्हीं हिस्सों को भेजता हूँ। इससे प्रति पेज इनपुट टोकन 12,500 से घटकर 3,200 रह गए।
सिस्टम प्रॉम्प्ट को छोटा करें मैंने अनावश्यक निर्देशों को हटा दिया। मैंने उन टूल विवरणों (tool descriptions) को हटा दिया जिन्हें मॉडल पहले से ही जानता है। मैंने "think step-by-step" जैसे बॉयलरप्लेट (boilerplate) का उपयोग करना बंद कर दिया क्योंकि आधुनिक मॉडल्स इसे डिफ़ॉल्ट रूप से करते हैं।
टियर्ड मॉडल राउटिंग (Tiered model routing) मैंने हर काम के लिए एक ही मॉडल का उपयोग करना बंद कर दिया। मैंने कार्यों को तीन स्तरों में विभाजित किया:
- एक्सट्रैक्शन (Extraction): एक सस्ता, छोटा मॉडल उपयोग करें।
- सिंथेसिस (Synthesis): एक हाई-टियर रीजनिंग मॉडल का उपयोग करें।
- फॉर्मेटिंग (Formatting): एक सस्ता, छोटा मॉडल उपयोग करें।
50-टास्क टेस्ट के परिणाम:
- प्रति टास्क लागत: $5.40 से $2.05
- लेटेंसी (Latency): 41s से 28s
- साइटेशन कवरेज (Citation coverage): 67% से 89%
एजेंट अधिक स्मार्ट नहीं हुआ है। पाइपलाइन बस अधिक कुशल (efficient) हो गई है।
आपके प्रोडक्शन एजेंटों के लिए तीन सबक:
- एक सख्त टोकन बजट निर्धारित करें। यदि यह आपकी सीमा से अधिक हो जाए, तो टास्क को रोक दें।
- अपने परिणामों को कैश (cache) करें। एक ही URL को दोबारा स्क्रैप न करें।
- सब कुछ लॉग (log) करें। आपको सटीक रूप से पता होना चाहिए कि किस स्टेप पर सबसे अधिक पैसा खर्च हो रहा है।
जब गुणवत्ता कम हो, तो बड़े मॉडल्स की ओर भागना बंद करें। टाइट कॉन्टेक्स्ट के साथ छोटे मॉडल्स का उपयोग करना शुरू करें।
स्रोत: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi