मैंने एक ही वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

कल2मिनट पढ़ें

मैंने एक वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया

मेरे AI एजेंट की लागत प्रति टास्क $5.40 थी। मैंने एक वीकेंड में इस लागत को घटाकर $2.05 प्रति टास्क कर दिया। मैंने गुणवत्ता खोए बिना यह 62% की कमी हासिल की।

मैंने यह कैसे किया, यहाँ बताया गया है।

समस्या: मेरा एजेंट एक रिसर्च लूप चलाता है। यह वेब पर सर्च करता है, पेजों को स्क्रैप करता है और सारांश (summaries) लिखता है। यह तीन तरीकों से टोकन खर्च कर रहा था:

कॉन्टेक्स्ट स्टफिंग (Context stuffing): मैं मॉडल को पूरे 50,000 कैरेक्टर वाले पेज भेज रहा था। मुझे केवल 2,000 कैरेक्टर की आवश्यकता थी। मैं एक सुई खोजने के लिए पूरे घास के ढेर (haystack) के लिए भुगतान कर रहा था।
वर्बोस प्रॉम्प्ट्स (Verbose prompts): मेरे सिस्टम प्रॉम्प्ट्स में एक ही निर्देश तीन बार दोहराए जा रहे थे। मैं हर बार मॉडल को अपने ही शब्दों को दोबारा पढ़ने के लिए भुगतान कर रहा था।
महंगे मॉडल्स का अत्यधिक उपयोग: मैं एक पैराग्राफ का सारांश लिखने जैसे सरल कार्यों के लिए भी हाई-टियर रीजनिंग मॉडल्स का उपयोग कर रहा था।

समाधान:

भेजने से पहले फ़िल्टर करें पूरे पेज भेजने के बजाय, अब मैं टेक्स्ट को चंक्स (chunks) में बाँट देता हूँ। मैं पहले प्रासंगिक (relevant) हिस्सों को ढूँढता हूँ। फिर मैं मॉडल को केवल उन्हीं हिस्सों को भेजता हूँ। इससे प्रति पेज इनपुट टोकन 12,500 से घटकर 3,200 रह गए।
सिस्टम प्रॉम्प्ट को छोटा करें मैंने अनावश्यक निर्देशों को हटा दिया। मैंने उन टूल विवरणों (tool descriptions) को हटा दिया जिन्हें मॉडल पहले से ही जानता है। मैंने "think step-by-step" जैसे बॉयलरप्लेट (boilerplate) का उपयोग करना बंद कर दिया क्योंकि आधुनिक मॉडल्स इसे डिफ़ॉल्ट रूप से करते हैं।
टियर्ड मॉडल राउटिंग (Tiered model routing) मैंने हर काम के लिए एक ही मॉडल का उपयोग करना बंद कर दिया। मैंने कार्यों को तीन स्तरों में विभाजित किया:

एक्सट्रैक्शन (Extraction): एक सस्ता, छोटा मॉडल उपयोग करें।
सिंथेसिस (Synthesis): एक हाई-टियर रीजनिंग मॉडल का उपयोग करें।
फॉर्मेटिंग (Formatting): एक सस्ता, छोटा मॉडल उपयोग करें।

50-टास्क टेस्ट के परिणाम:

प्रति टास्क लागत: $5.40 से $2.05
लेटेंसी (Latency): 41s से 28s
साइटेशन कवरेज (Citation coverage): 67% से 89%

एजेंट अधिक स्मार्ट नहीं हुआ है। पाइपलाइन बस अधिक कुशल (efficient) हो गई है।

आपके प्रोडक्शन एजेंटों के लिए तीन सबक:

एक सख्त टोकन बजट निर्धारित करें। यदि यह आपकी सीमा से अधिक हो जाए, तो टास्क को रोक दें।
अपने परिणामों को कैश (cache) करें। एक ही URL को दोबारा स्क्रैप न करें।
सब कुछ लॉग (log) करें। आपको सटीक रूप से पता होना चाहिए कि किस स्टेप पर सबसे अधिक पैसा खर्च हो रहा है।

जब गुणवत्ता कम हो, तो बड़े मॉडल्स की ओर भागना बंद करें। टाइट कॉन्टेक्स्ट के साथ छोटे मॉडल्स का उपयोग करना शुरू करें।

स्रोत: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

मैंने एक ही वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया

पढ़ना जारी रखें

मैंने अपने AI API खर्चों में 70% की कटौती की

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

मैंने अपने AI फीचर को अपना पैसा खत्म करने से कैसे रोका

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

अपने AI बिल को कम करने के 7 तरीके