আপনার AI এজেন্ট যখন প্রোডাকশনে আটকে যায় তখন কী ঘটে?

সবচেয়ে ব্যয়বহুল AI এজেন্ট ব্যর্থতাগুলো মডেলের ব্যর্থতা নয়।

এগুলো হলো নীরব ব্যর্থতা (silent failures)।

এজেন্টকে সুস্থ দেখায়। ওয়ার্কফ্লো চলে। টোকেন খরচ হয়। কিন্তু এজেন্ট কোনো অগ্রগতি করতে পারে না।

আমি বারবার এই সমস্যাগুলো দেখেছি:

  • ইনফিনিট লুপ (Infinite loops)
  • রিট্রাই স্টর্মস (Retry storms)
  • সাইলেন্ট স্টল (Silent stalls)
  • সফল রেসপন্সের আড়ালে টুল ফেইলিওর
  • লক্ষ্য থেকে এজেন্টের বিচ্যুতি (Drift)
  • এজেন্টের কাজের ওপর কোনো দৃশ্যমানতা না থাকা

একটি উন্নত প্রম্পট এগুলো সমাধান করবে না।

আপনার একটি রানটাইম সুপারভিশন লেয়ার প্রয়োজন। বেশিরভাগ ফ্রেমওয়ার্ক এজেন্ট চালানোর দিকে মনোনিবেশ করে। প্রোডাকশন টিমগুলোকে ভিন্ন ভিন্ন প্রশ্নের উত্তর দিতে হয়:

  • এটি কেন আটকে আছে?
  • এটি কি অগ্রগতি করছে?
  • আমি কি এটি পজ করতে পারি?
  • আমি কি এটি পুনরায় শুরু করতে পারি?
  • আমার কি এটি বন্ধ (kill) করে দেওয়া উচিত?

শুধুমাত্র লগ এই প্রশ্নগুলোর উত্তর দিতে পারে না।

সুপারভিশনকে এজেন্ট লজিক থেকে আলাদা করুন। ওয়ার্কফ্লোর ভেতরে গার্ডরেল (guardrails) রাখবেন না। এক্সিকিউশন পর্যবেক্ষণের জন্য একটি ডেডিকেটেড রানটাইম লেয়ার ব্যবহার করুন। এটি ওয়ার্কফ্লোকে সহজ রাখে।

রানটাইম যা পরিচালনা করে:

  • লুপ ডিটেকশন
  • রিট্রাই ম্যানেজমেন্ট
  • বাজেটের সীমা
  • পজ এবং রিজুম
  • চেকপয়েন্ট
  • থামার কারণ
  • লাইভ টেলিমেট্রি

স্ট্যাটাস হিসেবে "failed" ব্যবহার করা বন্ধ করুন। নির্দিষ্ট কারণ ব্যবহার করুন:

  • LOOP_DETECTED
  • BUDGET_EXCEEDED
  • RETRY_LIMIT_REACHED
  • TOOL_FAILURE
  • TIMEOUT
  • USER_PAUSED

এটি অপারেটরদের জানায় কীভাবে রিকভার করতে হবে।

লুপ ডিটেকশনের ক্ষেত্রে স্টেপ কাউন্ট ব্যর্থ হয়। এজেন্ট লুপ ছাড়াই ভুল লক্ষ্য অনুসরণ করতে পারে। তারা লক্ষ্য থেকে দূরে সরে যেতে বিশটি স্টেপ ব্যয় করতে পারে।

এর পরিবর্তে এটি জিজ্ঞাসা করুন: "আমরা কি কয়েক ধাপ আগে যেখানে ছিলাম তার চেয়ে লক্ষ্যের কাছাকাছি পৌঁছেছি?" এটি অতিরিক্ত খরচ হওয়ার আগেই বিচ্যুতি রোধ করে।

পজ (pause) এবং কিল (kill)-এর মধ্যে পার্থক্য বুঝুন:

  • পজ স্টেট (state) সংরক্ষণ করে। আপনি পরে এটি পুনরায় শুরু করতে পারেন।
  • কিল সবকিছু বন্ধ করে দেয়। আপনি এটি চালিয়ে যেতে পারবেন না।

API কল, ব্রাউজার টাস্ক বা ডেটাবেস রাইটের মতো প্রতিটি এক্সটার্নাল অ্যাকশনের আগে চেকপয়েন্ট তৈরি করুন। যদি কোনো প্রসেস ক্র্যাশ করে, সিস্টেমটি ঠিক জানে যে কী কাজ চলছিল। এটি নীরব ব্যর্থতাগুলোকে রিকভারযোগ্য ব্যর্থতায় পরিণত করে।

ব্যর্থতার সময় এজেন্টদের টোকেন খরচ করা থেকে আটকাতে এই তিনটি ব্যবহার করুন:

  • এক্সপোনেনশিয়াল ব্যাকঅফ (Exponential backoff)
  • রিট্রাই বাজেট
  • সার্কিট ব্রেকার (Circuit breakers)

লগ অতীত দেখায়। অপারেটরদের বর্তমান দেখা প্রয়োজন। রিয়েল টাইমে বর্তমান টাস্ক, স্টেপ, টুল এবং স্ট্যাটাস ট্র্যাক করুন।

এজেন্ট তৈরি করা সহজ। নির্ভরযোগ্য এজেন্ট তৈরি করা কঠিন। নির্ভরযোগ্যতার সমস্যাগুলো মডেলের বাইরে ঘটে। এগুলো ঘটে আপনার রিট্রাই, চেকপয়েন্ট এবং সুপারভিশনে।

AI এজেন্টদের ক্ষেত্রে আপনি প্রোডাকশনে দেখা সবচেয়ে কঠিন ব্যর্থতা কোনটি?

Source: https://dev.to/milancharan/what-happens-when-your-ai-agent-gets-stuck-in-production-3327

Optional learning community: https://t.me/GyaanSetuAi