তিনটি ধাপের প্রশিক্ষণ একটি চ্যাটবট তৈরি করে
একটি Transformer তৈরি করাই যথেষ্ট নয়। আপনি এতে পুরো ইন্টারনেট ঢেলে দিতে পারেন এবং কম্পিউটেশনে লক্ষ লক্ষ ডলার খরচ করতে পারেন। তবুও আপনি এমন একটি মেশিনের মুখোমুখি হবেন যা একটি সাধারণ প্রশ্নের উত্তরও দিতে পারে না।
একটি র (raw) মডেল হলো কেবল টেক্সট অনুকরণকারী। এটি প্যাটার্নের ওপর ভিত্তি করে পরবর্তী শব্দটি অনুমান করে। আপনি যদি একে জিজ্ঞাসা করেন "আমি কীভাবে আমার রাউটার রিসেট করব?", এটি হয়তো "আমি কীভাবে আমার পাসওয়ার্ড পরিবর্তন করব?" এর মতো আরও কিছু প্রশ্ন দিয়ে উত্তর দিতে পারে। এটি জানে না যে আপনি সাহায্য চাইছেন। এটি কেবল জানে কীভাবে ইন্টারনেট একটি বাক্যকে এগিয়ে নিয়ে যায়।
এই প্রেডিক্টরটিকে একটি চ্যাটবটে রূপান্তরিত করতে আপনার তিনটি ধাপের প্রশিক্ষণের প্রয়োজন।
Pretraining (The Engine) আপনি মডেলটিকে ট্রিলিয়ন ট্রিলিয়ন শব্দ দেখান। আপনি শেষ শব্দটি লুকিয়ে ফেলেন এবং এটিকে অনুমান করতে বলেন। এটি জ্ঞান তৈরি করে। এটি তথ্য, ব্যাকরণ এবং যুক্তি শেখে। এটি কাজ করে কারণ ডেটা নিজেই নিজেকে লেবেল করে। Scale এটিকে অনুমানযোগ্য করে তোলে। আরও বেশি ডেটা এবং আরও বেশি compute উন্নত ফলাফল প্রদান করে।
Instruction Tuning (The Script) বেস মডেলটি সবকিছু জানে কিন্তু এর কোনো লক্ষ্য নেই। এই ধাপে, আপনি একে একটি prompt এবং তার সাথে একটি সঠিক মানুষের উত্তরের কয়েক হাজার উদাহরণ দেখান। এটি নতুন কোনো জ্ঞান যোগ করে না। এটি মডেলটিকে একটি নতুন আচরণ শেখায়। আপনি একজন অভিনেতাকে একটি script দিচ্ছেন। এটি কেবল টেক্সট পূর্ণ করার পরিবর্তে একজন সহায়ক assistant-এর মতো কাজ করতে শেখে।
Preference Tuning (The Manners) Scripts সীমাবদ্ধ। আপনি প্রতিটি পরিস্থিতির জন্য নিয়ম লিখতে পারেন না। এই ধাপে, আপনি মডেলটিকে দুটি ভিন্ন উত্তর দেখান এবং একজন মানুষকে সেরাটি বেছে নিতে দেন। মডেলটি মানুষের রুচির ওপর ভিত্তি করে উচ্চ স্কোর পাওয়ার চেষ্টা করতে শেখে। এটি মডেলটিকে তার নিজস্ব tone, তার নম্রতা এবং তার safety limits প্রদান করে।
সারসংক্ষেপটি সহজ:
- Pretraining জ্ঞান তৈরি করে।
- Instruction tuning ভিড়ের মধ্য থেকে একজন assistant-কে বেছে নেয়।
- Preference tuning বিচারবুদ্ধি এবং শিষ্টাচার যোগ করে।
চ্যাট উইন্ডোতে আপনি যে ব্যক্তিত্ব দেখেন তা একটি র (raw) word predictor-এর ওপর কেবল একটি পাতলা স্তর মাত্র। এটি তৈরি করতে আমাদের বুদ্ধিমত্তার কোনো তত্ত্বের প্রয়োজন ছিল না। আমাদের প্রয়োজন ছিল একটি সাধারণ লক্ষ্য, scale, এবং কোচিংয়ের দুটি ধাপ।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
