𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽

Translated for your language. Read the original.

AI-assisted draft.

আমি আমার ল্যাপটপে একটি ২৭০এম (270M) মডেল ফাইন-টিউন করেছি

আমি মডেল ফাইন-টিউন করার তিনটি পদ্ধতি পরীক্ষা করছি। আমি তিনটির জন্যই একই টাস্ক ব্যবহার করছি। আমি ক্ষুদ্রতম মডেল থেকে বৃহত্তম মডেলের দিকে ধাপে ধাপে এগোচ্ছি।

সিরিজটি এই পথ অনুসরণ করে:

Full Fine-Tuning (২৭০এম প্যারামিটার)
LoRA (১.৫বি প্যারামিটার)
QLoRA (৭বি প্যারামিটার)

আমি এর কার্যপদ্ধতি বুঝতে চাই। আমি অন্ধভাবে কোনো টিউটোরিয়াল অনুসরণ করতে চাই না।

এই প্রথম ধাপে, আমি full fine-tuning ব্যবহার করেছি। এই পদ্ধতিতে মডেলের প্রতিটি weight আপডেট করা হয়। এটি প্রশিক্ষণের সবচেয়ে ব্যয়বহুল পদ্ধতি।

আমি Banking77 dataset ব্যবহার করেছি। এতে ১৩,০০০টি কাস্টমার সাপোর্ট মেসেজ রয়েছে। এর লক্ষ্য হলো ৭৭টি ভিন্ন ভিন্ন intent শনাক্ত করা, যেমন কার্ড হারিয়ে যাওয়া বা এক্সচেঞ্জ রেট।

আমি Gemma 3 (270M) বেছে নিয়েছি। Apple Silicon ব্যবহার করে ল্যাপটপে প্রশিক্ষণ দেওয়ার জন্য এই মডেলটি যথেষ্ট ছোট। Full fine-tuning করার জন্য gradients এবং optimizer states সংরক্ষণের জন্য মডেলের আকারের চারগুণ মেমরি প্রয়োজন হয়।

একটি classification head যোগ করার পরিবর্তে, আমি মডেলটিকে text হিসেবে intent জেনারেট করতে বলেছি। এটি প্রক্রিয়াটিকে instruction tuning-এর মতো করে তোলে। এটি প্রজেক্টটিকে পরবর্তী ধাপগুলোর জন্য প্রস্তুত করে।

একটি গুরুত্বপূর্ণ ধাপ হলো loss masking করা। আপনাকে মডেলটিকে নির্দেশ দিতে হবে যেন এটি prompt উপেক্ষা করে এবং শুধুমাত্র label-এর ওপর ভিত্তি করে নিজেকে মূল্যায়ন করে। আপনি যদি এটি বাদ দেন, তবে মডেলটি আপনার prompt পুনরাবৃত্তি করার চেষ্টায় শক্তি অপচয় করবে।

আমি 5e-5 এর একটি নিম্ন learning rate ব্যবহার করেছি। Full fine-tuning করার সময় উচ্চ learning rate pretrained knowledge নষ্ট করে দেয়। 2e-4 রেট ব্যবহারের ফলে মডেলটি ব্যর্থ হয়েছিল।

ফলাফল:

সাধারণ intent-গুলোর ক্ষেত্রে ৯৬% নির্ভুলতা (accuracy)।
মডেলটি ল্যাপটপে ভালোভাবে কাজ করে।
এটি এখনও কার্ড আসা (card arrival) এবং ডেলিভারি এস্টিমেটের (delivery estimates) মধ্যে বিভ্রান্ত হয়।

পার্ট ২-এ, আমি পাঁচ গুণ বড় একটি মডেল ব্যবহার করব। আমি LoRA ব্যবহার করে এর ১%-এরও কম weight প্রশিক্ষণ দেব। আমি দেখব যে আমি একই নির্ভুলতা পেতে পারি কি না।

উৎস: https://dev.to/sumanpro/i-fine-tuned-a-270m-model-on-my-laptop-full-fine-tuning-from-scratch-3p4l

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽

Continue reading

একটি জিপিইউতে দুটি মডেল চালানো: লোকাল LLM-এর পেছনের গণিত

𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

মডেল রাউটিং: সবকিছুর জন্য একটি মডেল ব্যবহার করা বন্ধ করুন

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

একটি ফারসি সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা