𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

میں نے اپنے کام کے لیپ ٹاپ پر 20 GB کا ماڈل چلانے کی کوشش کی۔ لیپ ٹاپ میں RTX 4070 اور 16 GB RAM ہے۔ یہ ناکام رہا۔ سسٹم مکمل طور پر فریز ہو گیا۔

اس کے بجائے میں نے ایک پرانے 2008 کے سرور پر تجربہ کرنے کا فیصلہ کیا۔ سرور میں دو Intel Xeon E5440 CPUs اور 64 GB RAM ہے۔ اس میں کوئی GPU نہیں ہے۔

مقصد سادہ تھا۔ کیا کافی میموری والا پرانا ہارڈ ویئر ایک ایسا بڑا ماڈل چلا سکتا ہے جو میرا لیپ ٹاپ نہیں چلا سکتا؟

ہارڈ ویئر کا موازنہ کچھ یوں ہے:

لیپ ٹاپ:

سرور:

سرور سست ہے۔ یہ تقریباً 0.01 ٹوکن فی سیکنڈ جنریٹ کرتا ہے۔ میں نے ٹیسٹ آدھی رات کو شروع کیا اور صبح اسے چیک کیا۔

ماڈل نے Forth میں کوڈ لکھنے کی کوشش کی۔ کئی گھنٹوں کے بعد اس نے دو مختلف ورژن تیار کیے۔ دونوں ورژن چلنے میں ناکام رہے۔

میں نے اس سے دو چیزیں سیکھیں:

  1. RAM کی مقدار اہم ہے۔ 64 GB سسٹم RAM آپ کو ایسے ماڈلز چلانے کی اجازت دیتی ہے جو 24 GB مجموعی VRAM اور RAM نہیں چلا سکتے۔ تاہم، 0.01 ٹوکن فی سیکنڈ کام کے لیے عملی نہیں ہے۔

  2. بڑے ماڈلز کوئی جادو نہیں ہیں۔ اگر کسی بڑے ماڈل کو Forth جیسی مخصوص زبان پر تربیت نہیں دی گئی، تو وہ اس میں پروگرامنگ نہیں کر سکتا۔ کام کرنے والا کوڈ حاصل کرنے کے لیے، آپ کو ایک بہتر عمل کی ضرورت ہے۔ آپ کو الگورتھم، deterministic transpilers، اور بہتر ٹولز کی ضرورت ہے۔

کسی آئیڈیا کو آزمانے کے لیے مہنگا ہارڈ ویئر نہ خریدیں۔ پہلے اپنے پاس موجود چیزوں پر اپنے تجربات کریں۔ سست انفرنس (inference) بھی انفرنس ہی ہے۔ اس نے مجھے ایک بھاری بل کے بغیر وہ جواب دے دیا جس کی مجھے ضرورت تھی۔

ماخذ: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi