GGUF: আপনার ল্যাপটপে AI চালানোর ফাইল ফরম্যাট
একটি লার্জ ল্যাঙ্গুয়েজ মডেল চালানোর জন্য আপনার কোনো বিশাল সার্ভারের প্রয়োজন নেই। আপনার শুধু সঠিক ফাইল ফরম্যাটটি প্রয়োজন।
আপনি যদি Ollama বা LM Studio ব্যবহার করেন, তবে আপনি ইতিমধ্যেই GGUF ব্যবহার করছেন। এই ফরম্যাটটি বুদ্ধিমত্তাকে ডেটা সেন্টার থেকে আপনার নিজস্ব ডিভাইসে নিয়ে আসার মাধ্যমে AI-এর জগতে পরিবর্তন এনেছে।
GGUF কী?
GGUF হলো একটি সিঙ্গেল বাইনারি ফাইল। এটি মডেল ওয়েটস (weights), টোকেনাইজার (tokenizer) এবং আর্কিটেকচার মেটাডেটা একত্রে প্যাকেজ করে। আপনার অতিরিক্ত কনফিগ ফোল্ডার বা জটিল পাইথন এনভায়রনমেন্টের প্রয়োজন নেই। এটি সরাসরি কাজ করে।
ফাইলের নামে থাকা কোয়ান্টাইজেশন (quantization) নির্বাচনটি একটি গুরুত্বপূর্ণ সিদ্ধান্ত। Q4_K_M এর মতো একটি নাম আপনাকে বলে দেয় যে গতি এবং সাইজের জন্য আপনি কতটা গুণমান (quality) ত্যাগ করছেন।
নামগুলো কীভাবে বুঝবেন:
- সংখ্যাটি হলো প্রতি ওয়েট-এ বিট (bits per weight)। Q8 আটটি বিট ব্যবহার করে। Q4 চারটি বিট ব্যবহার করে।
- K-quants হলো আধুনিক স্ট্যান্ডার্ড। গুণমান উচ্চ রাখতে এগুলো গুরুত্বপূর্ণ লেয়ারগুলোতে বেশি বিট খরচ করে।
- সাফিক্স (suffix) আপনাকে সাইজ সম্পর্কে জানায়। M মানে মাঝারি (medium), S মানে ছোট (small) এবং L মানে বড় (large)।
আপনার হার্ডওয়্যারের জন্য একটি দ্রুত নির্দেশিকা:
- কোনো ডেডিকেটেড GPU বা 8GB VRAM নেই: Q4_K_M ব্যবহার করুন। এটি সাইজ এবং বুদ্ধিমত্তার মধ্যে সেরা ভারসাম্য প্রদান করে।
- 12GB থেকে 16GB VRAM: উচ্চতর গুণমানের জন্য Q5_K_M বা Q6_K ব্যবহার করুন।
- 24GB+ VRAM বা নিখুঁত কাজের জন্য: Q8_0 ব্যবহার করুন। গণিত এবং কোডিংয়ের ক্ষেত্রে এতে গুণমানের প্রায় কোনো ক্ষতি হয় না।
সাইজ কেন গুরুত্বপূর্ণ?
টেক্সট জেনারেশন মেমরি ব্যান্ডউইথের (memory bandwidth) ওপর নির্ভর করে। একটি ছোট ফাইল মানে কম্পিউটার প্রতিটি শব্দ লেখার জন্য কম বাইট পড়ে। এটি মডেলটিকে দ্রুততর করে তোলে।
একটি Q4 মডেল প্রায়শই একটি Q8 মডেলের চেয়ে দ্রুত চলে। এটি দ্রুত চিন্তা করে না; এটি কেবল কম ডেটা পড়ে।
ট্রেড-অফ (The trade-off):
- চ্যাট এবং লেখার জন্য: Q4_K_M নিখুঁত। ১ থেকে ৩ শতাংশ গুণমানের ক্ষতি প্রায় চোখে পড়ে না।
- গণিত এবং কোডিংয়ের জন্য: Q8_0 ব্যবহার করুন। ৪-বিট মডেলের সামান্য ভুল জটিল লজিক নষ্ট করে দিতে পারে।
সেটিংস নিয়ে অনুমান করা বন্ধ করুন। আপনার মেমরি দেখুন এবং সঠিক কোয়ান্ট (quant) বেছে নিন।
উৎস: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
