Twee modellen draaien op één GPU: De wiskunde achter lokale LLM's

📅3 hours ago⏱2 min read

𝗧𝘄𝗲 𝗠𝗼𝗱𝗲𝗹𝗹𝗲𝗻 𝗼𝗽 𝗘𝗲𝗻𝗲 𝗚𝗣𝗨 𝗥𝘂𝗻𝗻𝗲𝗻: 𝗗𝗲 𝗪𝗶𝘀𝗸𝘂𝗻𝗱𝗲 𝗔𝗰𝗵𝘁𝗲𝗿 𝗟𝗼𝗰𝗮𝗹𝗲 𝗟𝗟𝗠'𝘀

Ik draai een agent stack op een workstation. De modellen draaien op een DGX Spark via een LAN. Ik gebruik vLLM in plaats van Ollama om het geheugen beter te beheren.

Het doel is om twee modellen tegelijkertijd te draaien:

Qwen3-Next-80B voor zware redeneringen.
Qwen3-4B voor snelle interacties.

Beide modellen maken verbinding met één URL via een LiteLLM-proxy. Deze opstelling mislukte meerdere keren voordat ik de juiste berekening vond.

Hier zijn de lessen uit deze strijd.

𝗗𝗲 𝗚𝗲𝗴𝗲𝗵𝗲ugen𝘃𝗮𝗹 De instelling gpu_memory_utilization is geen doelstelling voor het vrije geheugen. Het is een fractie van het totale GPU-geheugen.

Als je een kaart van 120 GB hebt en de benutting op 0,80 zet, probeert vLLM 96 GB van de totale capaciteit op te eisen. Het kijkt niet naar wat er momenteel vrij is. Als je twee processen probeert te draaien, moeten hun percentages samen minder dan 0,95 zijn. Je moet ruimte vrijhouden voor de overhead van het CUDA-framework.

𝗪𝗮𝘁 𝗲𝗿 𝗺𝗲𝗲 𝗱𝗲 𝗺𝗼𝗱𝗲𝗹𝗹𝗲𝗻 𝗴𝗲𝗯𝗶𝗲𝘂𝗿𝗱 𝗶𝘀 Ik probeerde de 'Thinking'-versie van het 80B-model te gebruiken. Dat mislukte. Het model redeneerde wel binnen <think>-tags, maar activeerde nooit daadwerkelijk een tool call. Het stopte gewoon.

Ik moest de 80B backbone vervangen door de Instruct-versie. Hierdoor kon de agent tools op de juiste manier gebruiken.

𝗗𝗲 𝗪𝗲𝗿𝗸𝗲𝗹𝗶𝗷𝗸𝗲 𝗕𝗲𝗿𝗲𝗸𝗲𝗻𝗶𝗻𝗴 Na het testen kwam ik erachter dat deze cijfers werken voor mijn opstelling:

• Qwen3-Next-80B (bij een doel van 0,80): Gebruikt ~87,8 GiB aan werkelijk geheugen. • Qwen3-4B (bij een doel van 0,10): Gebruikt ~13,8 GiB aan werkelijk geheugen. • Totaal verbruik: ~101,6 GiB. • Vrije marge: ~18 GiB.

Als ik de 80B naar 0,85 pushte, kon het 4B-model niet opstarten. De 80B zou te veel opeisen, waardoor er geen ruimte overbleef voor de minimale behoeften van de 4B.

𝗠𝗶𝗷𝗻 𝗣𝗹𝗮𝘆𝗯𝗼𝗼𝗸 𝘃𝗼𝗼𝗿 𝗖𝗼-𝗿𝗲𝘀𝗶𝗱𝗲𝗻𝘁𝗲 𝗠𝗼𝗱𝗲𝗹𝗹𝗲𝗻

Laad eerst het grootste model.
Laat het stabiliseren.
Voer nvidia-smi uit om het werkelijk gebruikte geheugen te zien.
Bepaal de grootte van het kleinere model op basis van het resterende vrije geheugen minus 5 GB voor overhead.
Start beide modellen twee keer opnieuw op om stabiliteit te garanderen.

Raad je geheugeninstellingen niet. Gebruik dit commando om de realiteit te zien: nvidia-smi --query-gpu=memory.used --format=csv

Als je doelallocatie en je werkelijke verbruik meer dan 10% verschillen, klopt je berekening niet. Los dit op voordat je je agent stack uitrolt.

Bron: https://dev.to/ric03uec/two-qwen3-models-on-one-dgx-spark-the-residency-math-for-local-llm-coding-5bpj

Optionele leercommunity: https://t.me/GyaanSetuAi

Twee modellen draaien op één GPU: De wiskunde achter lokale LLM's

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗡𝘃𝗶𝗱𝗶𝗮 𝗗𝗚𝗫 𝗦𝗽𝗮𝗿𝗸: 𝗔 𝗧𝗼𝗼𝗹 𝗙𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

RAM is de nieuwe GPU