আমি এক সপ্তাহান্তেই আমার AI এজেন্টের টোকেন বিল ৬২% কমিয়ে ফেলেছি

Translated for your language. Read the original.

AI-assisted draft.

গতকাল2min read

আমি মাত্র এক সপ্তাহেই আমার AI এজেন্টের টোকেন বিল ৬২% কমিয়ে ফেললাম

আমার AI এজেন্ট প্রতি টাস্কে $৫.৪০ খরচ করত। আমি মাত্র এক সপ্তাহেই সেই খরচ কমিয়ে প্রতি টাস্কে $২.০৫-এ নিয়ে এসেছি। গুণমান বজায় রেখেই আমি এই ৬২% সাশ্রয় করতে পেরেছি।

আমি এটি কীভাবে করলাম তা নিচে দেওয়া হলো।

সমস্যা: আমার এজেন্ট একটি research loop চালায়। এটি ওয়েব সার্চ করে, পেজ scrape করে এবং summary বা সারসংক্ষেপ লেখে। এটি তিনটি উপায়ে টোকেন অপচয় করছিল:

Context stuffing: আমি মডেলের কাছে পুরো ৫০,০০০ ক্যারেক্টারের পেজ পাঠিয়ে দিচ্ছিলাম। অথচ আমার মাত্র ২,০০০ ক্যারেক্টার প্রয়োজন ছিল। একটি সুঁই খোঁজার জন্য আমি পুরো খড়ের গাদার জন্য টাকা দিচ্ছিলাম।
Verbose prompts: আমার system prompts গুলো একই নির্দেশ তিনবার পুনরাবৃত্তি করত। ফলে মডেলকে প্রতিবার আমার নিজের কথা পুনরায় পড়ার জন্য আমি টাকা দিচ্ছিলাম।
দামী মডেলের অতিরিক্ত ব্যবহার: একটি মাত্র প্যারাগ্রাফ সামারি করার মতো সাধারণ কাজের জন্যও আমি high-tier reasoning মডেল ব্যবহার করছিলাম।

সমাধানসমূহ:

১. পাঠানোর আগে ফিল্টার করুন পুরো পেজ পাঠানোর পরিবর্তে, আমি এখন টেক্সটগুলোকে chunk বা ছোট ছোট অংশে ভাগ করি। প্রথমে আমি প্রাসঙ্গিক অংশগুলো খুঁজে বের করি। তারপর শুধুমাত্র সেই অংশগুলোই মডেলের কাছে পাঠাই। এর ফলে প্রতি পেজে input tokens ১২,৫০০ থেকে কমে ৩,২০০-তে নেমে এসেছে।

২. System prompt ছোট করুন আমি অপ্রয়োজনীয় নির্দেশগুলো মুছে ফেলেছি। মডেল আগে থেকেই জানে এমন tool descriptions গুলো সরিয়ে দিয়েছি। আমি "think step-by-step"-এর মতো boilerplate ব্যবহার করা বন্ধ করেছি, কারণ আধুনিক মডেলগুলো ডিফল্টভাবেই এটি করে থাকে।

৩. Tiered model routing আমি সব কাজের জন্য একটি মাত্র মডেল ব্যবহার করা বন্ধ করেছি। আমি কাজগুলোকে তিনটি স্তরে ভাগ করেছি:

Extraction: একটি সস্তা ও ছোট মডেল ব্যবহার করুন।
Synthesis: একটি high-tier reasoning মডেল ব্যবহার করুন।
Formatting: একটি সস্তা ও ছোট মডেল ব্যবহার করুন।

৫০টি টাস্কের একটি টেস্ট থেকে প্রাপ্ত ফলাফল:

প্রতি টাস্কের খরচ: $৫.৪০ থেকে $২.০৫
Latency: ৪১ সেকেন্ড থেকে ২৮ সেকেন্ড
Citation coverage: ৬৭% থেকে ৮৯%

এজেন্টটি আরও বুদ্ধিমান হয়ে যায়নি। পাইপলাইনটি কেবল আরও দক্ষ হয়েছে।

আপনার production agents-এর জন্য তিনটি শিক্ষা:

একটি নির্দিষ্ট token budget সেট করুন। যদি টাস্কটি আপনার সীমার বাইরে চলে যায়, তবে সেটি বন্ধ করে দিন।
আপনার ফলাফলগুলো cache করে রাখুন। একই URL দুবার scrape করবেন না।
সবকিছু log করুন। আপনার অবশ্যই জানতে হবে কোন ধাপে সবচেয়ে বেশি খরচ হচ্ছে।

গুণমান কমে গেলে বড় মডেলের দিকে না ছুটে, আরও সুনির্দিষ্ট context-সহ ছোট মডেল ব্যবহার করা শুরু করুন।

Source: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Optional learning community: https://t.me/GyaanSetuAi

আমি এক সপ্তাহান্তেই আমার AI এজেন্টের টোকেন বিল ৬২% কমিয়ে ফেলেছি

Continue reading

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

কীভাবে আমি আমার এআই (AI) ফিচার দিয়ে পকেট খালি হওয়া থেকে নিজেকে বাঁচিয়েছিলাম

কীভাবে আমি ৯৯টি SLA বজায় রেখে আমাদের AI API বিল অর্ধেক কমিয়ে আনলাম

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹