আমি মাত্র এক সপ্তাহেই আমার AI এজেন্টের টোকেন বিল ৬২% কমিয়ে ফেললাম

আমার AI এজেন্ট প্রতি টাস্কে $৫.৪০ খরচ করত। আমি মাত্র এক সপ্তাহেই সেই খরচ কমিয়ে প্রতি টাস্কে $২.০৫-এ নিয়ে এসেছি। গুণমান বজায় রেখেই আমি এই ৬২% সাশ্রয় করতে পেরেছি।

আমি এটি কীভাবে করলাম তা নিচে দেওয়া হলো।

সমস্যা: আমার এজেন্ট একটি research loop চালায়। এটি ওয়েব সার্চ করে, পেজ scrape করে এবং summary বা সারসংক্ষেপ লেখে। এটি তিনটি উপায়ে টোকেন অপচয় করছিল:

  • Context stuffing: আমি মডেলের কাছে পুরো ৫০,০০০ ক্যারেক্টারের পেজ পাঠিয়ে দিচ্ছিলাম। অথচ আমার মাত্র ২,০০০ ক্যারেক্টার প্রয়োজন ছিল। একটি সুঁই খোঁজার জন্য আমি পুরো খড়ের গাদার জন্য টাকা দিচ্ছিলাম।
  • Verbose prompts: আমার system prompts গুলো একই নির্দেশ তিনবার পুনরাবৃত্তি করত। ফলে মডেলকে প্রতিবার আমার নিজের কথা পুনরায় পড়ার জন্য আমি টাকা দিচ্ছিলাম।
  • দামী মডেলের অতিরিক্ত ব্যবহার: একটি মাত্র প্যারাগ্রাফ সামারি করার মতো সাধারণ কাজের জন্যও আমি high-tier reasoning মডেল ব্যবহার করছিলাম।

সমাধানসমূহ:

১. পাঠানোর আগে ফিল্টার করুন পুরো পেজ পাঠানোর পরিবর্তে, আমি এখন টেক্সটগুলোকে chunk বা ছোট ছোট অংশে ভাগ করি। প্রথমে আমি প্রাসঙ্গিক অংশগুলো খুঁজে বের করি। তারপর শুধুমাত্র সেই অংশগুলোই মডেলের কাছে পাঠাই। এর ফলে প্রতি পেজে input tokens ১২,৫০০ থেকে কমে ৩,২০০-তে নেমে এসেছে।

২. System prompt ছোট করুন আমি অপ্রয়োজনীয় নির্দেশগুলো মুছে ফেলেছি। মডেল আগে থেকেই জানে এমন tool descriptions গুলো সরিয়ে দিয়েছি। আমি "think step-by-step"-এর মতো boilerplate ব্যবহার করা বন্ধ করেছি, কারণ আধুনিক মডেলগুলো ডিফল্টভাবেই এটি করে থাকে।

৩. Tiered model routing আমি সব কাজের জন্য একটি মাত্র মডেল ব্যবহার করা বন্ধ করেছি। আমি কাজগুলোকে তিনটি স্তরে ভাগ করেছি:

  • Extraction: একটি সস্তা ও ছোট মডেল ব্যবহার করুন।
  • Synthesis: একটি high-tier reasoning মডেল ব্যবহার করুন।
  • Formatting: একটি সস্তা ও ছোট মডেল ব্যবহার করুন।

৫০টি টাস্কের একটি টেস্ট থেকে প্রাপ্ত ফলাফল:

  • প্রতি টাস্কের খরচ: $৫.৪০ থেকে $২.০৫
  • Latency: ৪১ সেকেন্ড থেকে ২৮ সেকেন্ড
  • Citation coverage: ৬৭% থেকে ৮৯%

এজেন্টটি আরও বুদ্ধিমান হয়ে যায়নি। পাইপলাইনটি কেবল আরও দক্ষ হয়েছে।

আপনার production agents-এর জন্য তিনটি শিক্ষা:

  • একটি নির্দিষ্ট token budget সেট করুন। যদি টাস্কটি আপনার সীমার বাইরে চলে যায়, তবে সেটি বন্ধ করে দিন।
  • আপনার ফলাফলগুলো cache করে রাখুন। একই URL দুবার scrape করবেন না।
  • সবকিছু log করুন। আপনার অবশ্যই জানতে হবে কোন ধাপে সবচেয়ে বেশি খরচ হচ্ছে।

গুণমান কমে গেলে বড় মডেলের দিকে না ছুটে, আরও সুনির্দিষ্ট context-সহ ছোট মডেল ব্যবহার করা শুরু করুন।

Source: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Optional learning community: https://t.me/GyaanSetuAi