৬টি বাগ যা কেবল একটি লাইভ মডেলই আমাদের শেখাতে পারে

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial৯ ঘন্টা আগে2min read

৬টি বাগ যা কেবল একটি লাইভ মডেলই আমাদের শেখাতে পারে

অফলাইন টেস্ট প্রয়োজন। তবে তা যথেষ্ট নয়।

আমি পেরুতে পরিবেশগত কমপ্লায়েন্স ট্র্যাক করার জন্য AgentOps Debugger তৈরি করেছি। এটি রেকর্ড খুঁজে পেতে এবং রিপোর্ট লিখতে Qwen Cloud-এ Qwen-plus ব্যবহার করে।

আমি সিস্টেমটিকে অফলাইন-ফার্স্ট হিসেবে ডিজাইন করেছি। আমার ৩১৫টি টেস্ট কোনো নেটওয়ার্ক কল ছাড়াই সম্পন্ন হয়েছে। সব টেস্ট পাস করেছে। কিন্তু যখন আমি Alibaba Cloud-এ লাইভ মডেলে সুইচ করলাম, সিস্টেমটি ভেঙে পড়ল।

কোড ঠিক ছিল। সমস্যাটি ছিল মডেলের আউটপুটে।

বাস্তব জগতের মডেলের ব্যর্থতা থেকে প্রাপ্ত ছয়টি শিক্ষা এখানে দেওয়া হলো:

• Label Mismatch স্কিমা "completed" অথবা "failed" আশা করছিল। মডেল পাঠিয়েছে "success" অথবা "done"। একটি মাত্র শব্দের কারণে পার্সারটি দরকারী উত্তরগুলো প্রত্যাখ্যান করেছে। সমাধান: সমার্থক শব্দগুলোকে স্বাভাবিক করতে টলারেন্ট প্রিপ্রসেসর (tolerant preprocessors) ব্যবহার করুন।

• Degenerate Plans প্ল্যানার মাঝে মাঝে কিছুই রিটার্ন করত না। অ্যাপটি এই নীরবতাকে একটি স্বাভাবিক রেসপন্সে রূপান্তর করার চেষ্টা করত। এর ফলে ভুয়া উত্তর তৈরি হতো। সমাধান: একটি প্ল্যান ইন্টারপ্রেটার যোগ করুন। যদি প্ল্যান খালি থাকে, তবে মিথ্যা বলার পরিবর্তে ব্যবহারকারীকে জানান যে সিস্টেমটি প্ল্যান করতে ব্যর্থ হয়েছে।

• Schema Drift মডেল "documentTitle"-এর মতো ফিল্ডের নাম পরিবর্তন করে "title" করে ফেলছিল। এটি ইংরেজি এবং স্প্যানিশ লেবেলও মিশিয়ে ফেলছিল। সমাধান: এলিয়াস ম্যাপিং (alias mapping) ব্যবহার করুন এবং বৈধ অংশগুলো উদ্ধার করুন। যদি একটি সাইটেশন খারাপ হয়, তবে বাকি চারটি রাখুন।

• Unpaired Tasks মডেলটি একটি রিপোর্ট ড্রাফট করার আগেই সেটি সেভ করতে বলেছিল। লজিকটি নিরাপদ ছিল, কিন্তু ইউজার এক্সপেরিয়েন্স বা ব্যবহারকারীর অভিজ্ঞতা নষ্ট হয়ে গিয়েছিল। সমাধান: কোডটিকে অবশ্যই অনুপস্থিত ধাপগুলো শনাক্ত করতে হবে এবং স্বয়ংক্রিয়ভাবে সেগুলো যুক্ত করতে হবে।

• Loop Errors ব্যবহারকারী উত্তর দেওয়ার পরেও মডেলটি একই স্পষ্টীকরণ প্রশ্ন বারবার করতে থাকল। সমাধান: এনটিটি রেজোলিউশন (entity resolution) মডেল থেকে কোডে নিয়ে আসুন। একবার ব্যবহারকারী ডেটা প্রদান করলে, সিস্টেম বাকি কাজগুলো ডিটারমিনিস্টিক্যালি (deterministically) সম্পন্ন করবে।

• False Ambiguity একটি কোম্পানির নাম অস্পষ্ট (ambiguous) না হওয়া সত্ত্বেও মডেল দাবি করেছিল যে এটি অস্পষ্ট। এটি ওয়ার্কফ্লো থামিয়ে দিয়েছিল। সমাধান: মডেলকে অস্পষ্টতার পরামর্শ দিতে দিন, কিন্তু সেটি বাস্তব কি না তা ডেটা দিয়ে সিদ্ধান্ত নিতে দিন।

মূল নীতি: LLM-কে বর্ণনা করতে দিন, কিন্তু কাঠামোগত ফলাফলের (structured outcomes) নিয়ন্ত্রণ তাকে দেবেন না।

মডেলের কাজ হওয়া উচিত ইনটেন্ট (intent), প্ল্যানিং এবং ভাষা সামলানো। কোডকে অবশ্যই এনটিটি রেজোলিউশন, চার্ট ডেটা এবং রিপোর্ট অ্যাসেম্বলি সামলাতে হবে।

একটি সিস্টেম তখনই নির্ভরযোগ্য হয়ে ওঠে যখন আপনি প্রতিটি সিদ্ধান্তকে একটি রেকর্ডের সাথে মিলিয়ে দেখতে পারেন। গল্পের জন্য মডেল ব্যবহার করুন, কিন্তু সত্যের জন্য আপনার কোড ব্যবহার করুন।

উৎস: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

৬টি বাগ যা কেবল একটি লাইভ মডেলই আমাদের শেখাতে পারে

Continue reading

AI এজেন্টদের নির্ভরযোগ্যতার সমস্যা রয়েছে

FailureDNA তৈরি করা: এমন একটি এজেন্ট মেমরি যা জানে কখন নিজেকে বিশ্বাস করা উচিত নয়

আমি একটি এআই সিকিউরিটি স্ক্যানার তৈরি করেছিলাম — তারপর নিজের ডিটেক্টরেই একটি বাগ খুঁজে পেলাম

আমি একটি AI সিকিউরিটি স্ক্যানার তৈরি করেছি — তারপর আমার নিজের ডিটেক্টরে একটি বাগ খুঁজে পেলাম