LLM-এর উৎসগুলো আসল কি না তা জিজ্ঞেস করা বন্ধ করুন

আপনি একটি AI-এর কাছে কিছু উৎসের তালিকা চান। এটি আপনাকে শিরোনাম, লেখক এবং DOI প্রদান করে। সবকিছুই নিখুঁত মনে হয়। তারপর আপনি জানতে পারেন যে সেগুলোর অর্ধেকই অস্তিত্বহীন।

DOI-টি কোনো কিছু নির্দেশ করে না। গবেষণাপত্রটি কখনোই লেখা হয়নি।

আপনার সহজাত প্রবৃত্তি হলো মডেলটিকে জিজ্ঞেস করা: "আপনি কি নিশ্চিত যে এটি আসল?" AI বলবে হ্যাঁ। এটি সবসময়ই হ্যাঁ বলে। আপনি একজন জালিয়াতি করা ব্যক্তিকে জিজ্ঞেস করছেন তার কাজ কি খাঁটি কি না।

একটি LLM গবেষণাপত্রের কোনো ডেটাবেস ব্যবহার করে না। এটি একটি সিকোয়েন্সের পরবর্তী শব্দটি অনুমান করে। একটি AI-এর কাছে, একটি সাইটেশন (citation) কেবল একটি প্যাটার্ন মাত্র। এটি জানে যে একটি সাইটেশনের জন্য একটি নাম, একটি বছর এবং দশটি ডিজিট প্রয়োজন। এটি সত্য ধারণ না করেই একটি আসল উৎসের আকৃতি অনুকরণ করে।

মডেলটিকে তার নিজের কাজ যাচাই করতে বলা বন্ধ করুন। এটি দুটি কারণে তা করতে পারে না:

  • এর কোনো লাইভ রেজিস্ট্রির অ্যাক্সেস নেই। এটি কেবল বিশ্বাসযোগ্য টেক্সট তৈরি করে।
  • এটি ইতিমধ্যে যা বলেছে তা নিশ্চিত করার দিকে একটি পক্ষপাতিত্ব (bias) রাখে।

তথ্য যাচাই করার জন্য আপনাকে অবশ্যই বাহ্যিক টুল ব্যবহার করতে হবে। টেকনিক্যাল রাইটিংয়ের জন্য এখানে একটি তিন-ধাপের ফিল্টার দেওয়া হলো:

১. অস্তিত্ব (Existence)। Crossref-এর মতো কোনো API-এর মাধ্যমে DOI যাচাই করুন। যদি API একটি 404 error প্রদান করে, তবে উৎসটি ভুয়া। একটি উদ্ভাবিত DOI কখনোই কাজ করবে না।

২. নির্ভরযোগ্যতা (Credibility)। একটি উৎস বিদ্যমান থাকতে পারে কিন্তু তবুও তা মূল্যহীন হতে পারে। জার্নাল বা কনফারেন্সটি স্বীকৃত কি না তা যাচাই করুন। একটি বৈধ DOI গুণমানের নিশ্চয়তা দেয় না।

৩. বিশ্বস্ততা (Fidelity)। গবেষণাপত্রটি কি আসলেই আপনার দাবিকে সমর্থন করে? আপনাকে বিষয়বস্তু পড়তে হবে। অ্যাবস্ট্রাক্ট (abstract) প্রতিটি বিস্তারিত বিষয় কভার করবে বলে ধরে নেবেন না। একটি মিথ্যা দাবির জন্য ব্যবহৃত আসল সাইটেশনও আসলে একটি মিথ্যা।

এটি কেবল একাডেমিক গবেষণাপত্রের ক্ষেত্রেই নয়। যদি একটি AI কোনো JIRA ticket, CVE number, বা code commit উল্লেখ করে, তবে আপনাকে অবশ্যই প্রকৃত সিস্টেমের সাথে তা যাচাই করতে হবে।

AI আর্কিটেকচারের সবচেয়ে বড় ভুল হলো মডেলটিকে নিজে যাচাই করার জন্য বিশ্বাস করা। যাচাইকরণ অবশ্যই একটি আলাদা ধাপ হতে হবে। ব্যবহারকারী ফলাফল দেখার আগে এটিকে অবশ্যই একটি বাহ্যিক সত্যের উৎসের (external source of truth) সাথে যুক্ত করতে হবে।

মডেলগুলোকে আরও সৎ করার চেষ্টা করবেন না। তারা টেক্সট জেনারেটর, এবং তারা সবসময়ই হ্যালুসিনেশন (hallucinate) করবে। পরিবর্তে, তাদের কথা অন্ধভাবে বিশ্বাস করা বন্ধ করুন।

একটি সাইটেশন যা আপনি কোনো রেজিস্ট্রির মাধ্যমে যাচাই করতে পারেন না, তা সাইটেশন নয়। এটি একটি ল্যাব কোট পরা অনুমান মাত্র।

উৎস: https://dev.to/ohugonnot/stop-asking-the-llm-whether-its-source-is-real-2oaa

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi