𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠
আমি আমার কাজের ল্যাপটপে একটি ২০ GB মডেল চালানোর চেষ্টা করেছিলাম। ল্যাপটপটিতে একটি RTX 4070 এবং ১৬ GB RAM আছে। এটি ব্যর্থ হয়েছে। সিস্টেমটি পুরোপুরি ফ্রিজ হয়ে গিয়েছিল।
পরিবর্তে আমি একটি পুরনো ২০০৮ সালের সার্ভার পরীক্ষা করার সিদ্ধান্ত নিলাম। সার্ভারটিতে দুটি Intel Xeon E5440 CPU এবং ৬৪ GB RAM আছে। এতে কোনো GPU নেই।
লক্ষ্যটি ছিল সহজ। পর্যাপ্ত মেমরি সম্পন্ন পুরনো হার্ডওয়্যার কি এমন একটি বড় মডেল চালাতে পারে যা আমার ল্যাপটপ পারে না?
হার্ডওয়্যারের তুলনা নিচে দেওয়া হলো:
ল্যাপটপ:
- CPU: আধুনিক নোটবুক
- RAM: ১৬ GB
- GPU: ৮ GB VRAM
- ফলাফল: সিস্টেম ফ্রিজ হয়ে যাওয়া
সার্ভার:
- CPU: ২x Xeon E5440
- RAM: ৬৪ GB
- GPU: নেই
- ফলাফল: এটি চলছে
সার্ভারটি ধীরগতির। এটি প্রতি সেকেন্ডে প্রায় ০.০১ টোকেন জেনারেট করে। আমি মাঝরাতে পরীক্ষাটি শুরু করেছিলাম এবং সকালে এটি পরীক্ষা করে দেখেছিলাম।
মডেলটি Forth ভাষায় কোড লেখার চেষ্টা করেছিল। কয়েক ঘণ্টা পর এটি দুটি ভিন্ন সংস্করণ তৈরি করেছিল। দুটি সংস্করণই চলতে ব্যর্থ হয়েছে।
আমি এখান থেকে দুটি জিনিস শিখেছি:
১. RAM-এর পরিমাণ গুরুত্বপূর্ণ। ৬৪ GB সিস্টেম RAM আপনাকে এমন মডেল চালানোর সুযোগ দেয় যা ২৪ GB সম্মিলিত VRAM এবং RAM দিয়ে সম্ভব নয়। তবে, কাজের জন্য প্রতি সেকেন্ডে ০.০১ টোকেন ব্যবহার করা বাস্তবসম্মত নয়।
২. বড় মডেল মানেই জাদু নয়। একটি বড় মডেল যদি Forth-এর মতো কোনো বিশেষায়িত (niche) ভাষায় প্রশিক্ষিত না হয়, তবে সেটি সেই ভাষায় প্রোগ্রাম করতে পারবে না। কার্যকর কোড পেতে আপনার আরও উন্নত প্রক্রিয়ার প্রয়োজন। আপনার অ্যালগরিদম, ডিটারমিনিস্টিক ট্রান্সপাইলার এবং আরও উন্নত টুলের প্রয়োজন।
কোনো আইডিয়া পরীক্ষা করার জন্য দামী হার্ডওয়্যার কিনবেন না। প্রথমে আপনার কাছে যা আছে তা দিয়েই পরীক্ষা চালিয়ে দেখুন। ধীরগতির ইনফারেন্স (inference) হলেও তা ইনফারেন্সই। এটি কোনো বিশাল খরচ ছাড়াই আমাকে প্রয়োজনীয় উত্তরটি দিয়ে দিয়েছে।
উৎস: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi