৬টি বাগ যা কেবল একটি লাইভ মডেলই আমাদের শেখাতে পারে
অফলাইন টেস্ট প্রয়োজন। তবে তা যথেষ্ট নয়।
আমি পেরুতে পরিবেশগত কমপ্লায়েন্স ট্র্যাক করার জন্য AgentOps Debugger তৈরি করেছি। এটি রেকর্ড খুঁজে পেতে এবং রিপোর্ট লিখতে Qwen Cloud-এ Qwen-plus ব্যবহার করে।
আমি সিস্টেমটিকে অফলাইন-ফার্স্ট হিসেবে ডিজাইন করেছি। আমার ৩১৫টি টেস্ট কোনো নেটওয়ার্ক কল ছাড়াই সম্পন্ন হয়েছে। সব টেস্ট পাস করেছে। কিন্তু যখন আমি Alibaba Cloud-এ লাইভ মডেলে সুইচ করলাম, সিস্টেমটি ভেঙে পড়ল।
কোড ঠিক ছিল। সমস্যাটি ছিল মডেলের আউটপুটে।
বাস্তব জগতের মডেলের ব্যর্থতা থেকে প্রাপ্ত ছয়টি শিক্ষা এখানে দেওয়া হলো:
• Label Mismatch স্কিমা "completed" অথবা "failed" আশা করছিল। মডেল পাঠিয়েছে "success" অথবা "done"। একটি মাত্র শব্দের কারণে পার্সারটি দরকারী উত্তরগুলো প্রত্যাখ্যান করেছে। সমাধান: সমার্থক শব্দগুলোকে স্বাভাবিক করতে টলারেন্ট প্রিপ্রসেসর (tolerant preprocessors) ব্যবহার করুন।
• Degenerate Plans প্ল্যানার মাঝে মাঝে কিছুই রিটার্ন করত না। অ্যাপটি এই নীরবতাকে একটি স্বাভাবিক রেসপন্সে রূপান্তর করার চেষ্টা করত। এর ফলে ভুয়া উত্তর তৈরি হতো। সমাধান: একটি প্ল্যান ইন্টারপ্রেটার যোগ করুন। যদি প্ল্যান খালি থাকে, তবে মিথ্যা বলার পরিবর্তে ব্যবহারকারীকে জানান যে সিস্টেমটি প্ল্যান করতে ব্যর্থ হয়েছে।
• Schema Drift মডেল "documentTitle"-এর মতো ফিল্ডের নাম পরিবর্তন করে "title" করে ফেলছিল। এটি ইংরেজি এবং স্প্যানিশ লেবেলও মিশিয়ে ফেলছিল। সমাধান: এলিয়াস ম্যাপিং (alias mapping) ব্যবহার করুন এবং বৈধ অংশগুলো উদ্ধার করুন। যদি একটি সাইটেশন খারাপ হয়, তবে বাকি চারটি রাখুন।
• Unpaired Tasks মডেলটি একটি রিপোর্ট ড্রাফট করার আগেই সেটি সেভ করতে বলেছিল। লজিকটি নিরাপদ ছিল, কিন্তু ইউজার এক্সপেরিয়েন্স বা ব্যবহারকারীর অভিজ্ঞতা নষ্ট হয়ে গিয়েছিল। সমাধান: কোডটিকে অবশ্যই অনুপস্থিত ধাপগুলো শনাক্ত করতে হবে এবং স্বয়ংক্রিয়ভাবে সেগুলো যুক্ত করতে হবে।
• Loop Errors ব্যবহারকারী উত্তর দেওয়ার পরেও মডেলটি একই স্পষ্টীকরণ প্রশ্ন বারবার করতে থাকল। সমাধান: এনটিটি রেজোলিউশন (entity resolution) মডেল থেকে কোডে নিয়ে আসুন। একবার ব্যবহারকারী ডেটা প্রদান করলে, সিস্টেম বাকি কাজগুলো ডিটারমিনিস্টিক্যালি (deterministically) সম্পন্ন করবে।
• False Ambiguity একটি কোম্পানির নাম অস্পষ্ট (ambiguous) না হওয়া সত্ত্বেও মডেল দাবি করেছিল যে এটি অস্পষ্ট। এটি ওয়ার্কফ্লো থামিয়ে দিয়েছিল। সমাধান: মডেলকে অস্পষ্টতার পরামর্শ দিতে দিন, কিন্তু সেটি বাস্তব কি না তা ডেটা দিয়ে সিদ্ধান্ত নিতে দিন।
মূল নীতি: LLM-কে বর্ণনা করতে দিন, কিন্তু কাঠামোগত ফলাফলের (structured outcomes) নিয়ন্ত্রণ তাকে দেবেন না।
মডেলের কাজ হওয়া উচিত ইনটেন্ট (intent), প্ল্যানিং এবং ভাষা সামলানো। কোডকে অবশ্যই এনটিটি রেজোলিউশন, চার্ট ডেটা এবং রিপোর্ট অ্যাসেম্বলি সামলাতে হবে।
একটি সিস্টেম তখনই নির্ভরযোগ্য হয়ে ওঠে যখন আপনি প্রতিটি সিদ্ধান্তকে একটি রেকর্ডের সাথে মিলিয়ে দেখতে পারেন। গল্পের জন্য মডেল ব্যবহার করুন, কিন্তু সত্যের জন্য আপনার কোড ব্যবহার করুন।
উৎস: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
