২০০৮ জিয়ঁ-এ ৩২বি এলএলএম: ভিরামের চেয়ে র‍্যাম বেশি গুরুত্বপূর্ণ

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

আমি আমার কাজের ল্যাপটপে একটি ২০ GB মডেল চালানোর চেষ্টা করেছিলাম। ল্যাপটপটিতে একটি RTX 4070 এবং ১৬ GB RAM আছে। এটি ব্যর্থ হয়েছে। সিস্টেমটি পুরোপুরি ফ্রিজ হয়ে গিয়েছিল।

পরিবর্তে আমি একটি পুরনো ২০০৮ সালের সার্ভার পরীক্ষা করার সিদ্ধান্ত নিলাম। সার্ভারটিতে দুটি Intel Xeon E5440 CPU এবং ৬৪ GB RAM আছে। এতে কোনো GPU নেই।

লক্ষ্যটি ছিল সহজ। পর্যাপ্ত মেমরি সম্পন্ন পুরনো হার্ডওয়্যার কি এমন একটি বড় মডেল চালাতে পারে যা আমার ল্যাপটপ পারে না?

হার্ডওয়্যারের তুলনা নিচে দেওয়া হলো:

ল্যাপটপ:

CPU: আধুনিক নোটবুক
RAM: ১৬ GB
GPU: ৮ GB VRAM
ফলাফল: সিস্টেম ফ্রিজ হয়ে যাওয়া

সার্ভার:

CPU: ২x Xeon E5440
RAM: ৬৪ GB
GPU: নেই
ফলাফল: এটি চলছে

সার্ভারটি ধীরগতির। এটি প্রতি সেকেন্ডে প্রায় ০.০১ টোকেন জেনারেট করে। আমি মাঝরাতে পরীক্ষাটি শুরু করেছিলাম এবং সকালে এটি পরীক্ষা করে দেখেছিলাম।

মডেলটি Forth ভাষায় কোড লেখার চেষ্টা করেছিল। কয়েক ঘণ্টা পর এটি দুটি ভিন্ন সংস্করণ তৈরি করেছিল। দুটি সংস্করণই চলতে ব্যর্থ হয়েছে।

আমি এখান থেকে দুটি জিনিস শিখেছি:

১. RAM-এর পরিমাণ গুরুত্বপূর্ণ। ৬৪ GB সিস্টেম RAM আপনাকে এমন মডেল চালানোর সুযোগ দেয় যা ২৪ GB সম্মিলিত VRAM এবং RAM দিয়ে সম্ভব নয়। তবে, কাজের জন্য প্রতি সেকেন্ডে ০.০১ টোকেন ব্যবহার করা বাস্তবসম্মত নয়।

২. বড় মডেল মানেই জাদু নয়। একটি বড় মডেল যদি Forth-এর মতো কোনো বিশেষায়িত (niche) ভাষায় প্রশিক্ষিত না হয়, তবে সেটি সেই ভাষায় প্রোগ্রাম করতে পারবে না। কার্যকর কোড পেতে আপনার আরও উন্নত প্রক্রিয়ার প্রয়োজন। আপনার অ্যালগরিদম, ডিটারমিনিস্টিক ট্রান্সপাইলার এবং আরও উন্নত টুলের প্রয়োজন।

কোনো আইডিয়া পরীক্ষা করার জন্য দামী হার্ডওয়্যার কিনবেন না। প্রথমে আপনার কাছে যা আছে তা দিয়েই পরীক্ষা চালিয়ে দেখুন। ধীরগতির ইনফারেন্স (inference) হলেও তা ইনফারেন্সই। এটি কোনো বিশাল খরচ ছাড়াই আমাকে প্রয়োজনীয় উত্তরটি দিয়ে দিয়েছে।

উৎস: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

২০০৮ জিয়ঁ-এ ৩২বি এলএলএম: ভিরামের চেয়ে র‍্যাম বেশি গুরুত্বপূর্ণ

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

দক্ষ LLM সার্ভিংয়ের দিকে

RAM হলো নতুন GPU

একটি জিপিইউতে দুটি মডেল চালানো: লোকাল LLM-এর পেছনের গণিত