পাথর, কাগজ, সিলিকন: কীভাবে আমি একটি MacBook-এ একটি 235B AI মডেল চালালাম

বেশিরভাগ মানুষ বলে যে আপনি সাধারণ কনজিউমার হার্ডওয়্যারে ফ্রন্টিয়ার AI মডেল চালাতে পারবেন না।

Qwen3-235B-এর মতো একটি মডেল চালানোর জন্য আপনার ৪৭০ GB RAM প্রয়োজন। একটি হাই-এন্ড Mac Studio-তে মাত্র ১৯২ GB থাকে। ইন্ডাস্ট্রি আপনাকে এর পরিবর্তে একটি ক্লাউড GPU ভাড়া নেওয়ার পরামর্শ দেয়।

আমি একজন ওয়েব ডেভেলপার, সিস্টেম ইঞ্জিনিয়ার নই। আমি GPU kernels বা low-level memory নিয়ে কাজ করি না। কিন্তু আমার মনে একটি প্রশ্ন জেগেছিল: যদি আপনি মডেলের শুধুমাত্র সেই অংশগুলোই লোড করেন যা আসলে কাজ করে (fire)?

একটি Mixture of Experts (MoE) মডেলে, বেশিরভাগ প্যারামিটার বেশিরভাগ সময় নিষ্ক্রিয় থাকে। আমি এমন একটি সিস্টেম তৈরি করার সিদ্ধান্ত নিলাম যা প্রয়োজন হওয়ার ঠিক আগে weights লোড করে।

আমি C++ কোড লিখতে সাহায্য করার জন্য একটি AI agent ব্যবহার করেছি। আমি কৌতূহল নিয়ে এসেছিলাম, আর এজেন্ট এনেছিল বাস্তবায়নের গভীরতা (implementation depth)।

আমার অনুপ্রেরণা এসেছিল Filippo Biondi-এর একটি স্যাটেলাইট পেপার থেকে। তিনি গিজার গ্রেট পিরামিডের ভেতরটা দেখার জন্য রাডার ব্যবহার করেছিলেন। রাডার পাথরের ভেতরে প্রবেশ করতে পারে না, কিন্তু পাথর আঘাতপ্রাপ্ত হলে যে কম্পন তৈরি করে তা পরিমাপ করতে পারে। তিনি সেই কম্পনগুলো পরিমাপ করে ভেতরের মানচিত্র তৈরি করেছিলেন।

আমি এই লজিকটি AI মেমরির ক্ষেত্রে প্রয়োগ করেছি।

আমি এটিকে S-MoE (Seismic Mixture of Experts) বলছি। এটি তিনটি স্ট্রিম ব্যবহার করে কাজ করে:

• The Scout: মডেলের একটি হালকা অংশ যা RAM-এ চলে। এটি অনুমান করে যে পরবর্তী কোন experts-রা সক্রিয় হবে। • The Streamer: একটি I/O থ্রেড যা আপনার SSD থেকে সেই নির্দিষ্ট expert ব্লকগুলোকে মেমরিতে লোড করে। • The GPU: মাত্র আসা weights ব্যবহার করে গাণিতিক কাজ সম্পন্ন করে।

এই সিস্টেমটি OS cache বাইপাস করার জন্য Direct I/O ব্যবহার করে। এটি কোনো runtime heap allocations ব্যবহার করে না। এটি সমস্ত OS mutex এড়িয়ে চলে।

ফলাফল? একটি ১৬ GB Mac এবং একটি ৫১২ GB Mac একটি 235B মডেল থেকে ঠিক একই বুদ্ধিমত্তা প্রদর্শন করবে। একটি কেবল অন্যটির চেয়ে দ্রুততর।

AI-এর চারপাশের মেমরি ওয়াল (memory wall) একটি সফটওয়্যার ধারণা মাত্র, প্রকৃতির কোনো নিয়ম নয়। আপনার কাছে থাকা হার্ডওয়্যারে আপনি ফ্রন্টিয়ার মডেল চালাতে পারেন।

S-MoE ওপেন সোর্স।

উৎস: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi