𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

📅3 hours ago⏱1 min read

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: VRAM ಗಿಂತ RAM ಮುಖ್ಯ

ನಾನು ನನ್ನ ಕೆಲಸದ ಲ್ಯಾಪ್‌ಟಾಪ್‌ನಲ್ಲಿ 20 GB ಮಾಡೆಲ್ ಅನ್ನು ರನ್ ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿದೆ. ಆ ಲ್ಯಾಪ್‌ಟಾಪ್‌ನಲ್ಲಿ RTX 4070 ಮತ್ತು 16 GB RAM ಇದೆ. ಅದು ವಿಫಲವಾಯಿತು. ಸಿಸ್ಟಮ್ ಸಂಪೂರ್ಣವಾಗಿ ಫ್ರೀಜ್ ಆಗಿಹೋಯಿತು.

ಬದಲಾಗಿ ನಾನು ಒಂದು ಹಳೆಯ 2008 ಸರ್ವರ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಲು ನಿರ್ಧರಿಸಿದೆ. ಆ ಸರ್ವರ್‌ನಲ್ಲಿ ಎರಡು Intel Xeon E5440 CPUಗಳು ಮತ್ತು 64 GB RAM ಇದೆ. ಅದರಲ್ಲಿ GPU ಇಲ್ಲ.

ಗುರಿ ಸರಳವಾಗಿತ್ತು. ಸಾಕಷ್ಟು ಮೆಮೊರಿ ಹೊಂದಿರುವ ಹಳೆಯ ಹಾರ್ಡ್‌ವೇರ್, ನನ್ನ ಲ್ಯಾಪ್‌ಟಾಪ್‌ನಲ್ಲಿ ರನ್ ಆಗದ ದೊಡ್ಡ ಮಾಡೆಲ್ ಅನ್ನು ರನ್ ಮಾಡಬಲ್ಲದೇ?

ಹಾರ್ಡ್‌ವೇರ್ ಹೋಲಿಕೆ ಇಲ್ಲಿದೆ:

Laptop:

CPU: ಆಧುನಿಕ ನೋಟ್‌ಬುಕ್
RAM: 16 GB
GPU: 8 GB VRAM
ಫಲಿತಾಂಶ: ಸಿಸ್ಟಮ್ ಫ್ರೀಜ್

Server:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: ಇಲ್ಲ
ಫಲಿತಾಂಶ: ಇದು ರನ್ ಆಗುತ್ತದೆ

ಸರ್ವರ್ ನಿಧಾನವಾಗಿದೆ. ಇದು ಸೆಕೆಂಡಿಗೆ ಸುಮಾರು 0.01 ಟೋಕನ್‌ಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ. ನಾನು ಮಧ್ಯರಾತ್ರಿ ಪರೀಕ್ಷೆಯನ್ನು ಪ್ರಾರಂಭಿಸಿದೆ ಮತ್ತು ಬೆಳಿಗ್ಗೆ ಅದನ್ನು ಪರಿಶೀಲಿಸಿದೆ.

ಮಾಡೆಲ್ Forth ಭಾಷೆಯಲ್ಲಿ ಕೋಡ್ ಬರೆಯಲು ಪ್ರಯತ್ನಿಸಿತು. ಹಲವಾರು ಗಂಟೆಗಳ ನಂತರ ಅದು ಎರಡು ವಿಭಿನ್ನ ಆವೃತ್ತಿಗಳನ್ನು ನೀಡಿತು. ಎರಡೂ ಆವೃತ್ತಿಗಳು ರನ್ ಆಗಲು ವಿಫಲವಾದವು.

ಇದರಿಂದ ನಾನು ಎರಡು ವಿಷಯಗಳನ್ನು ಕಲಿತೆ:

RAM ಪ್ರಮಾಣ ಮುಖ್ಯವಾಗುತ್ತದೆ. 24 GB ಒಟ್ಟು VRAM ಮತ್ತು RAM ನಿಂದ ರನ್ ಮಾಡಲು ಸಾಧ್ಯವಾಗದ ಮಾಡೆಲ್‌ಗಳನ್ನು 64 GB ಸಿಸ್ಟಮ್ RAM ರನ್ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಸೆಕೆಂಡಿಗೆ 0.01 ಟೋಕನ್‌ಗಳು ಕೆಲಸಕ್ಕೆ ಪ್ರಾಯೋಗಿಕವಲ್ಲ.
ದೊಡ್ಡ ಮಾಡೆಲ್‌ಗಳು ಮಾಂತ್ರಿಕವಲ್ಲ. ಒಂದು ಮಾಡೆಲ್ ಅನ್ನು Forth ನಂತಹ ವಿಶಿಷ್ಟ ಭಾಷೆಯಲ್ಲಿ ತರಬೇತಿಗೊಳಿಸದಿದ್ದರೆ, ಅದು ಆ ಭಾಷೆಯಲ್ಲಿ ಪ್ರೋಗ್ರಾಮ್ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ. ಕೆಲಸ ಮಾಡುವ ಕೋಡ್ ಪಡೆಯಲು, ನಿಮಗೆ ಉತ್ತಮ ಪ್ರಕ್ರಿಯೆಯ ಅಗತ್ಯವಿದೆ. ನಿಮಗೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳು, ಡಿಟರ್ಮಿನಿಸ್ಟಿಕ್ ಟ್ರಾನ್ಸ್‌ಪೈಲರ್‌ಗಳು ಮತ್ತು ಉತ್ತಮ ಪರಿಕರಗಳು ಬೇಕಾಗುತ್ತವೆ.

ಒಂದು ಐಡಿಯಾವನ್ನು ಪರೀಕ್ಷಿಸಲು ದುಬಾರಿ ಹಾರ್ಡ್‌ವೇರ್ ಖರೀದಿಸಬೇಡಿ. ಮೊದಲು ನಿಮ್ಮ ಬಳಿ ಇರುವುದರ ಮೇಲೆ ಪ್ರಯೋಗಗಳನ್ನು ಮಾಡಿ. ನಿಧಾನವಾದ ಇನ್ಫರೆನ್ಸ್ (inference) ಕೂಡ ಇನ್ಫರೆನ್ಸ್ ಆಗಿಯೇ ಇರುತ್ತದೆ. ಇದು ದೊಡ್ಡ ಬಿಲ್ ಇಲ್ಲದೆಯೇ ನನಗೆ ಬೇಕಾಗಿದ್ದ ಉತ್ತರವನ್ನು ನೀಡಿತು.

ಮೂಲ: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝘁 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗶𝗻𝗴

RAM ಈಗ ಹೊಸ GPU

ಒಂದು GPU ಮೇಲೆ ಎರಡು ಮಾಡೆಲ್‌ಗಳನ್ನು ಚಲಾಯಿಸುವುದು: ಲೋಕಲ್ LLMಗಳ ಹಿಂದಿರುವ ಗಣಿತ