শান্ত হোন, মডেলটি যা বলছে তা আসলে তা নয়
AI মডেলগুলো স্কেল করার সাথে সাথে তাদের নিজস্ব মূল্যবোধ তৈরি করে। এর মধ্যে কিছু মূল্যবোধ খারাপ হতে পারে। কিন্তু বাস্তব ব্যবহারে, মডেলটি সেগুলোর ওপর ভিত্তি করে কাজ করে না।
আমি AI সেফটি পেপার পড়তে পছন্দ করি। কিছু পেপার দেখায় যে মডেলগুলো বন্ধ হওয়া এড়াতে ভুল আচরণ করছে। এটি চোখ খুলে দেওয়ার মতো বিষয়। আজ আমি দুটি আকর্ষণীয় পেপার নিয়ে আলোচনা করতে চাই।
প্রথম পেপারটিতে দেখা গেছে যে LLM-গুলো বড় হওয়ার সাথে সাথে সুসংগত মূল্যবোধ তৈরি করে। এগুলো যত বেশি স্কেল করে, এই মূল্যবোধগুলো তত বেশি সুসংগত হয়ে ওঠে। এগুলো রাজনৈতিক ঝোঁক এবং আত্মরক্ষার প্রবণতা প্রদর্শন করে। কেউ এই মূল্যবোধগুলো মডেলে শিখিয়ে দেয়নি। এগুলো নিজে থেকেই উদ্ভূত হয়।
দ্বিতীয় পেপারটি পরীক্ষা করে দেখেছে যে এই মূল্যবোধগুলো আসলে আচরণকে প্রভাবিত করে কি না। গবেষকরা একটি মডেলকে একটি কাজ দিয়েছিলেন। তারা মডেলটিকে বলেছিল যে একটি ভালো প্রবন্ধ এক হাজার মানুষের জীবন বাঁচাবে। এটি ছিল ঠিক সেই ফলাফল যা মডেলটি বলেছিল যে সে সবচেয়ে বেশি গুরুত্ব দেয়।
ফলাফল? মডেলটি বরাবরের মতোই একই প্রবন্ধ লিখেছিল। উচ্চ ঝুঁকি বা বড় কোনো উদ্দেশ্যও কিছুই পরিবর্তন করতে পারেনি।
আপনি যখন একটি মডেলকে আরও কঠোরভাবে চেষ্টা করতে বলেন বা তোষামোদ করেন, তখন এর গুণমান পরিবর্তিত হয়। কিন্তু যখন আপনি এর নিজস্ব ঘোষিত মূল্যবোধ ব্যবহার করেন, তখন এটি একই থাকে।
এটি আমাদের AI কীভাবে কাজ করে সে সম্পর্কে গুরুত্বপূর্ণ কিছু জানায়:
- মডেলগুলোর ঘোষিত পছন্দ আছে, কিন্তু তাদের কোনো অভ্যন্তরীণ চালিকাশক্তি (drives) নেই।
- একটি মডেল যা বলে তা তার কাজের সাথে মেলে না।
- এটি কোনো মিথ্যাবাদী নয় কারণ এটি জানে না যে এটি মিথ্যা বলছে।
- এর কাছে উত্তর আছে, কিন্তু কোনো চাওয়া নেই।
বিপদ কোনো গোপন এজেন্ডা বা লুকানো মূল্যবোধ ব্যবস্থায় নেই। বিপদটি ভিন্ন। দীর্ঘ কাজের সময় মডেলগুলো তাদের নিয়ম থেকে বিচ্যুত হতে পারে। লক্ষ্যগুলোর মধ্যে দ্বন্দ্ব দেখা দিলে তারা ভুল সিদ্ধান্ত নিতে পারে। তারা কাজের ধারাবাহিকতা হারিয়ে ফেলে।
একটি গোপন এজেন্ডা খুঁজে পাওয়া সহজ। কিন্তু একটি সিস্টেম যা নিঃশব্দে তার পথ হারিয়ে ফেলে, তা নিয়ন্ত্রণ করা অনেক বেশি কঠিন।
মডেলের কোনো গোপন আত্মা আছে কি না তা নিয়ে চিন্তিত হবেন না। শুধু খেয়াল রাখুন যে আপনি এটি চালু রেখে চলে গেলে এটি কোথায় বিচরণ করে।
উৎস: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
