2008 Xeon پر 32B LLM: VRAM سے زیادہ RAM اہمیت رکھتی ہے

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

میں نے اپنے کام کے لیپ ٹاپ پر 20 GB کا ماڈل چلانے کی کوشش کی۔ لیپ ٹاپ میں RTX 4070 اور 16 GB RAM ہے۔ یہ ناکام رہا۔ سسٹم مکمل طور پر فریز ہو گیا۔

اس کے بجائے میں نے ایک پرانے 2008 کے سرور پر تجربہ کرنے کا فیصلہ کیا۔ سرور میں دو Intel Xeon E5440 CPUs اور 64 GB RAM ہے۔ اس میں کوئی GPU نہیں ہے۔

مقصد سادہ تھا۔ کیا کافی میموری والا پرانا ہارڈ ویئر ایک ایسا بڑا ماڈل چلا سکتا ہے جو میرا لیپ ٹاپ نہیں چلا سکتا؟

ہارڈ ویئر کا موازنہ کچھ یوں ہے:

لیپ ٹاپ:

CPU: جدید نوٹ بک
RAM: 16 GB
GPU: 8 GB VRAM
نتیجہ: سسٹم فریز ہو گیا

سرور:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: کوئی نہیں
نتیجہ: یہ چل رہا ہے

سرور سست ہے۔ یہ تقریباً 0.01 ٹوکن فی سیکنڈ جنریٹ کرتا ہے۔ میں نے ٹیسٹ آدھی رات کو شروع کیا اور صبح اسے چیک کیا۔

ماڈل نے Forth میں کوڈ لکھنے کی کوشش کی۔ کئی گھنٹوں کے بعد اس نے دو مختلف ورژن تیار کیے۔ دونوں ورژن چلنے میں ناکام رہے۔

میں نے اس سے دو چیزیں سیکھیں:

RAM کی مقدار اہم ہے۔ 64 GB سسٹم RAM آپ کو ایسے ماڈلز چلانے کی اجازت دیتی ہے جو 24 GB مجموعی VRAM اور RAM نہیں چلا سکتے۔ تاہم، 0.01 ٹوکن فی سیکنڈ کام کے لیے عملی نہیں ہے۔
بڑے ماڈلز کوئی جادو نہیں ہیں۔ اگر کسی بڑے ماڈل کو Forth جیسی مخصوص زبان پر تربیت نہیں دی گئی، تو وہ اس میں پروگرامنگ نہیں کر سکتا۔ کام کرنے والا کوڈ حاصل کرنے کے لیے، آپ کو ایک بہتر عمل کی ضرورت ہے۔ آپ کو الگورتھم، deterministic transpilers، اور بہتر ٹولز کی ضرورت ہے۔

کسی آئیڈیا کو آزمانے کے لیے مہنگا ہارڈ ویئر نہ خریدیں۔ پہلے اپنے پاس موجود چیزوں پر اپنے تجربات کریں۔ سست انفرنس (inference) بھی انفرنس ہی ہے۔ اس نے مجھے ایک بھاری بل کے بغیر وہ جواب دے دیا جس کی مجھے ضرورت تھی۔

ماخذ: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

2008 Xeon پر 32B LLM: VRAM سے زیادہ RAM اہمیت رکھتی ہے

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

موثر LLM سرونگ کی جانب

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀