𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Translated for your language. Read the original.

AI-assisted draft.

काल2min read

मी एका वीकेंडमध्ये माझ्या AI Agent चा टोकन बिल ६२% ने कमी केले

माझ्या AI agent चा खर्च प्रति टास्क $5.40 होता. मी एका वीकेंडमध्ये तो खर्च कमी करून प्रति टास्क $2.05 वर आणला. गुणवत्ता न गमावता मी ही ६२% घट साध्य केली.

मी हे कसे केले ते खाली दिले आहे.

समस्या: माझा agent एक रिसर्च लूप (research loop) चालवतो. तो वेबवर शोधतो, पेजेस स्क्रॅप करतो आणि सारांश (summaries) लिहितो. तो तीन प्रकारे टोकन्स खर्च करत होता:

Context stuffing: मी मॉडेलला ५०,००० कॅरेक्टर्सची संपूर्ण पेजेस पाठवत होतो. मला फक्त २,००० कॅरेक्टर्सची गरज होती. एका सुईच्या शोधासाठी मी संपूर्ण गवताचा ढीग (haystack) खरेदी केल्यासारखे पैसे मोजत होतो.
Verbose prompts: माझ्या सिस्टम प्रॉम्प्ट्समध्ये (system prompts) एकाच सूचना तीन वेळा पुन्हा पुन्हा येत होत्या. मॉडेलला माझेच शब्द पुन्हा पुन्हा वाचण्यासाठी मी पैसे मोजत होतो.
महागड्या मॉडेल्सचा अतिवापर: मी एका परिच्छेदाचा सारांश काढण्यासारख्या साध्या कामांसाठी देखील हाय-टियर रिझनिंग मॉडेल्स (high-tier reasoning models) वापरत होतो.

उपाय:

१. पाठवण्यापूर्वी फिल्टर करा संपूर्ण पेजेस पाठवण्याऐवजी, आता मी मजकुराचे तुकडे (chunks) करतो. मी प्रथम संबंधित भाग शोधतो आणि त्यानंतर फक्त तेच भाग मॉडेलला पाठवतो. यामुळे प्रति पेज इनपुट टोकन्स १२,५०० वरून ३,२०० पर्यंत कमी झाले.

२. सिस्टम प्रॉम्प्ट कमी करा (Trim) मी अनावश्यक सूचना काढून टाकल्या. मॉडेलला आधीच माहित असलेल्या टूल वर्णनांना (tool descriptions) मी काढून टाकले. मी "think step-by-step" सारख्या बोअरप्लेट (boilerplate) सूचना वापरणे थांबवले, कारण आधुनिक मॉडेल्स हे काम डिफॉल्टनुसार करतात.

३. टियर्ड मॉडेल राउटिंग (Tiered model routing) मी सर्व कामांसाठी एकच मॉडेल वापरणे थांबवले. मी कामांचे तीन स्तरांत विभाजन केले:

Extraction: स्वस्त आणि लहान मॉडेल वापरा.
Synthesis: हाय-टियर रिझनिंग मॉडेल वापरा.
Formatting: स्वस्त आणि लहान मॉडेल वापरा.

५० टास्कच्या चाचणीचे निकाल:

प्रति टास्क खर्च: $5.40 वरून $2.05
लॅटन्सी (Latency): 41s ते 28s
सायटेशन कव्हरेज (Citation coverage): 67% ते 89%

Agent अधिक हुशार झालेला नाही, तर पाइपलाइन फक्त अधिक कार्यक्षम झाली आहे.

तुमच्या प्रोडक्शन एजंट्ससाठी तीन धडे:

टोकनसाठी एक कडक बजेट (hard token budget) निश्चित करा. जर खर्च मर्यादेपेक्षा जास्त झाला, तर टास्क थांबवा.
तुमचे रिझल्ट्स कॅश (cache) करा. एकाच URL ला पुन्हा पुन्हा स्क्रॅप करू नका.
सर्व काही लॉग (log) करा. कोणत्या टप्प्यावर सर्वात जास्त खर्च होत आहे, हे तुम्हाला नक्की माहित असणे आवश्यक आहे.

गुणवत्ता कमी झाल्यावर मोठ्या मॉडेल्सकडे धाव घेणे थांबवा. त्याऐवजी, अधिक अचूक कॉन्टेक्स्टसह (tighter context) लहान मॉडेल्स वापरण्यास सुरुवात करा.

स्रोत: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Continue reading

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

तुमचा AI बिल कमी करण्याचे ७ मार्ग