AI ডিটেক্টরগুলো আসলে অনুমান করছে
AI ডিটেক্টরগুলো প্রায়শই মানুষের লেখা শনাক্ত করে মেশিন-নির্মিত হিসেবে। অনেক কোম্পানি নিয়োগ বা গ্রেডিংয়ের জন্য এই টুলগুলো ব্যবহার করে। তারা এই স্কোরকে একটি সত্য হিসেবে গণ্য করে। কিন্তু এটি কোনো সত্য নয়।
এই টুলগুলো আপনার লেখার অর্থ বোঝার জন্য তা পড়ে না। তারা মেশিন আউটপুটের সম্ভাবনা অনুমান করার জন্য গণিত ব্যবহার করে।
তারা মূলত তিনটি বিষয় দেখে:
- Perplexity (পারপ্লেক্সিটি): এটি পরিমাপ করে যে আপনার শব্দগুলো কতটা অনুমানযোগ্য। AI সবচেয়ে সম্ভাব্য পরবর্তী শব্দটি বেছে নেয়। মানুষের লেখা প্রায়শই অপ্রত্যাশিত হয়। কম perplexity থাকলে তা AI-এর মতো মনে হয়।
- Burstiness (বার্স্টিনেস): এটি বাক্যের বৈচিত্র্য পরিমাপ করে। মানুষ ছোট এবং বড় বাক্যের মিশ্রণ ঘটায়। AI প্রায়শই একটি স্থির ছন্দ ব্যবহার করে। কম বৈচিত্র্য থাকলে তা AI-এর মতো মনে হয়।
- Classifiers (ক্লাসিফায়ার): এই মডেলগুলো মানুষের লেখা এবং মেশিনের তৈরি নমুনার ওপর গবেষণা করে। তারা প্যাটার্নের ওপর ভিত্তি করে অনুমান করে। মডেলটি যদি কোনো নতুন লেখার শৈলী দেখে, তবে এটি ব্যর্থ হয়।
Watermarking হলো আরেকটি পদ্ধতি। এটি শব্দ চয়নের মধ্যে প্যাটার্ন লুকিয়ে রাখে। যদি কেউ লেখাটি এডিট বা প্যারাফ্রেজ (paraphrase) করে, তবে এই পদ্ধতিটি ব্যর্থ হয়।
এই টুলগুলোর গুরুতর ত্রুটি রয়েছে:
- ভালো লেখা AI-এর মতো মনে হতে পারে। স্পষ্ট, সহজ এবং সুগঠিত গদ্যের perplexity কম থাকে। আপনি যত ভালো লিখবেন, একটি টুলের কাছে আপনি তত বেশি রোবোটিক বা যান্ত্রিক মনে হবেন।
- অ-মাতৃভাষী (non-native) বক্তাদের প্রতি পক্ষপাতিত্ব। স্ট্যানফোর্ড ইউনিভার্সিটির একটি গবেষণায় দেখা গেছে যে, ডিটেক্টরগুলো অ-মাতৃভাষী ইংরেজিভাষীদের লেখা বেশি প্রায়শই ফ্ল্যাগ করে। এই টুলগুলোর কাছে সহজ বাক্য গঠন মেশিনের আউটপুটের মতো মনে হয়।
- ঠকানো সহজ। সামান্য কিছু সমার্থক শব্দ বা হালকা এডিট ডিটেক্টরকে বিভ্রান্ত করতে পারে। এটি সৎ লেখকদের শাস্তি দেয়, অথচ কম পরিশ্রমে AI ব্যবহারকারীদের সহজেই পার হতে দেয়।
এমনকি OpenAI ২০২৩ সালে তাদের নিজস্ব ডিটেক্টর ব্যবহার করা বন্ধ করে দিয়েছিল কারণ এটি নির্ভুল ছিল না। যদি নির্মাতারা নিজেরাই তাদের AI শনাক্ত করতে না পারেন, তবে উচ্চ নির্ভুলতার দাবি করা কোনো থার্ড-পার্টি টুলের ওপর ভরসা করবেন না।
এই স্কোরগুলো কীভাবে নিরাপদে ব্যবহার করবেন:
- একটি মাত্র স্কোরের ওপর ভিত্তি করে কোনো ব্যবস্থা নেবেন না। একটি ভুল অভিযোগ শিক্ষার্থী বা চাকরিপ্রার্থীদের জন্য প্রকৃত ক্ষতি করতে পারে।
- প্রক্রিয়াটি যাচাই করুন। একটি সম্ভাব্যতা স্কোরের পরিবর্তে এডিট হিস্ট্রি (edit history) এবং ড্রাফটগুলো দেখুন।
- অনিশ্চয়তা প্রকাশ করুন। আপনি যদি এই টুলগুলো ব্যবহার করেন, তবে কেবল 'মানুষ' বা 'AI' লেবেল না দিয়ে আত্মবিশ্বাসের একটি পরিসর (range of confidence) দেখান।
AI ডিটেক্টরগুলো হলো প্যাটার্ন ম্যাচার। এগুলো সংকেত বা ইঙ্গিত পাওয়ার জন্য উপযোগী হলেও প্রমাণের জন্য বিপজ্জনক।
Source: https://dev.to/ricco020/ai-text-detectors-are-mostly-guessing-how-they-actually-work-2ibl
Optional learning community: https://t.me/GyaanSetuAi