𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 kwenye 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗔𝗠 ni Muhimu Zaidi Kuliko 𝗩𝗥𝗔𝗠

Nilijaribu kuendesha modeli ya GB 20 kwenye laptop yangu ya kazi. Laptop hiyo ina RTX 4070 na RAM ya GB 16. Ilifeli. Mfumo uliganda kabisa.

Badala yake, niliamua kujaribu seva ya zamani ya mwaka 2008. Seva hiyo ina CPU mbili za Intel Xeon E5440 na RAM ya GB 64. Haina GPU.

Lengo lilikuwa rahisi. Je, vifaa vya zamani vyenye kumbukumbu ya kutosha vinaweza kuendesha modeli kubwa ambayo laptop yangu haiwezi?

Hivi ndivyo vifaa hivyo vinavyolinganishwa:

Laptop:

CPU: Notebook ya kisasa
RAM: GB 16
GPU: GB 8 VRAM
Matokeo: Mfumo kuganda

Server:

CPU: 2x Xeon E5440
RAM: GB 64
GPU: Hakuna
Matokeo: Inafanya kazi

Seva hiyo ni nzito. Inazalisha takriban token 0.01 kwa sekunde. Nilianza jaribio usiku wa manane na kulikagua asubuhi.

Modeli ilijaribu kuandika kodi katika lugha ya Forth. Ilitoa matoleo mawili tofauti baada ya saa kadhaa. Matoleo yote mawili yalishindwa kufanya kazi.

Nimejifunza mambo mawili kutokana na hili:

Ukubwa wa RAM ni muhimu. GB 64 za RAM ya mfumo zinakuwezesha kuendesha modeli ambazo GB 24 za mchanganyiko wa VRAM na RAM haziwezi. Hata hivyo, token 0.01 kwa sekunde siyo ya kufaa kwa kazi.
Modeli kubwa siyo uchawi. Modeli kubwa haiwezi kutengeneza programu katika lugha ya kipekee kama Forth ikiwa haikufundishwa juu yake. Ili kupata kodi inayofanya kazi, unahitaji mchakato bora zaidi. Unahitaji kanuni (algorithms), transpilers za kiamenyeti (deterministic transpilers), na zana bora zaidi.

Usinunue vifaa vya gharama kubwa ili kujaribu wazo. Fanya majaribio yako kwa kile ulichonacho kwanza. Inference ya polepole bado ni inference. Ilinipa jibu nililohitaji bila gharama kubwa.

Chanzo: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

Kuelekea Huduma ya LLM Yenye Ufanisi

RAM ndiyo GPU mpya

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀