RAM is de nieuwe GPU

📅3 hours ago⏱2 min read

𝗥𝗔𝗠 𝗶𝘀 𝗱𝗲 𝗻𝗲𝘂𝘄𝗲 𝗚𝗣𝗨

Jarenlang richtten AI-ontwikkelaars zich op één ding: rekenkracht. Je keek naar CUDA-cores en kloksnelheden.

Dat tijdperk is voorbij.

De nieuwe bottleneck is de geheugencapaciteit.

Een model met 70 miljard parameters heeft ongeveer 48 tot 50 GB aan geheugen nodig om goed te draaien. De Nvidia RTX 5090 heeft slechts 32 GB.

De rekensom is simpel. Als je modelgewichten niet in het VRAM passen, krijg je nul tokens per seconde. Snelheid doet er niet toe als het model niet geladen kan worden.

Vergelijk de hardware:

• RTX 5090: 32 GB VRAM voor $62,47 per GB. • Mac Studio M3 Ultra: 512 GB geheugen voor $18,55 per GB.

De Mac Studio biedt 16x meer capaciteit en kost 3,4x minder per gigabyte.

Het verschil zit in de architectuur. Nvidia gebruikt discreet VRAM. Data moet via een brug tussen de CPU en de GPU worden verplaatst. Dit vertraagt alles wanneer modellen groter worden.

Apple gebruikt unified memory. De CPU en de GPU delen dezelfde fysieke ruimte. Er hoeft geen data heen en weer te worden verplaatst. De data is er al.

Dit verandert je workflow:

Geen device mapping.
Geen complexe distribution flags.
Geen multi-GPU-hoofdpijn.

Als je een 70B-model wilt draaien, schiet de RTX 5090 tekort. De Mac Studio werkt wel.

Als je DeepSeek V3 wilt draaien, hapert de RTX 5090. De Mac Studio laadt het met ruime marge.

De keuze is nu duidelijk:

Als je model kleiner is dan 32 GB: Gebruik Nvidia. Het is sneller voor kleine modellen.
Als je model groter is dan 32 GB: Gebruik Mac Studio. Nvidia kan deze modellen niet draaien zonder enorme kosten of kwaliteitsverlies.

Het bouwen van een high-end Nvidia-rig voor grote modellen wordt vaak een duur weekendproject. Je eindigt met het kopen van meerdere GPU's en aangepaste koeling, alleen maar om het hoofd boven water te houden.

Een Mac Studio staat op je bureau. Hij verbruikt minder stroom en werkt direct.

Stop met vragen welke GPU het snelst is. Begin met vragen welk platform daadwerkelijk de modellen draait die je nodig hebt.

Hoe staat het met jouw setup? Gebruik je Nvidia of ben je overgestapt naar unified memory?

Bron: https://dev.to/tyson_cung/ram-is-the-new-gpu-why-mac-studio-wins-for-local-llm-inference-3e3b

Optionele leercommunity: https://t.me/GyaanSetuAi

RAM is de nieuwe GPU

Continue reading

𝗡𝗩𝗜𝗗𝗜𝗔 𝗡𝟭𝗫: 𝗧𝗵𝗲 𝗔𝗜 𝗣𝗖 𝗦𝗵𝗶𝗳𝘁

𝗪𝗵𝘆 𝗜 𝗖𝗵𝗼𝘀𝗲 𝗧𝗮𝘂𝗿𝗶 𝗢𝘃𝗲𝗿 𝗘𝗹𝗲𝗰𝘁𝗿𝗼𝗻 𝗳𝗼𝗿 𝗠𝘆 𝗟𝗼𝗰𝗮𝗹 𝗔𝗜 𝗗𝗲𝘃 𝗧𝗼𝗼𝗹

𝗪𝗵𝘆 𝗜 𝗖𝗵𝗼𝘀𝗲 𝗧𝗮𝘂𝗿𝗶 𝗢𝘃𝗲𝗿 𝗘𝗹𝗲𝗰𝘁𝗿𝗼𝗻

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗡𝘃𝗶𝗱𝗶𝗮 𝗗𝗚𝗫 𝗦𝗽𝗮𝗿𝗸: 𝗔 𝗧𝗼𝗼𝗹 𝗙𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀