𝗧𝘄𝗲 𝗠𝗼𝗱𝗲𝗹𝗹𝗲𝗻 𝗼𝗽 𝗘𝗲𝗻𝗲 𝗚𝗣𝗨 𝗥𝘂𝗻𝗻𝗲𝗻: 𝗗𝗲 𝗪𝗶𝘀𝗸𝘂𝗻𝗱𝗲 𝗔𝗰𝗵𝘁𝗲𝗿 𝗟𝗼𝗰𝗮𝗹𝗲 𝗟𝗟𝗠'𝘀
Ik draai een agent stack op een workstation. De modellen draaien op een DGX Spark via een LAN. Ik gebruik vLLM in plaats van Ollama om het geheugen beter te beheren.
Het doel is om twee modellen tegelijkertijd te draaien:
- Qwen3-Next-80B voor zware redeneringen.
- Qwen3-4B voor snelle interacties.
Beide modellen maken verbinding met één URL via een LiteLLM-proxy. Deze opstelling mislukte meerdere keren voordat ik de juiste berekening vond.
Hier zijn de lessen uit deze strijd.
𝗗𝗲 𝗚𝗲𝗴𝗲𝗵𝗲ugen𝘃𝗮𝗹
De instelling gpu_memory_utilization is geen doelstelling voor het vrije geheugen. Het is een fractie van het totale GPU-geheugen.
Als je een kaart van 120 GB hebt en de benutting op 0,80 zet, probeert vLLM 96 GB van de totale capaciteit op te eisen. Het kijkt niet naar wat er momenteel vrij is. Als je twee processen probeert te draaien, moeten hun percentages samen minder dan 0,95 zijn. Je moet ruimte vrijhouden voor de overhead van het CUDA-framework.
𝗪𝗮𝘁 𝗲𝗿 𝗺𝗲𝗲 𝗱𝗲 𝗺𝗼𝗱𝗲𝗹𝗹𝗲𝗻 𝗴𝗲𝗯𝗶𝗲𝘂𝗿𝗱 𝗶𝘀
Ik probeerde de 'Thinking'-versie van het 80B-model te gebruiken. Dat mislukte. Het model redeneerde wel binnen <think>-tags, maar activeerde nooit daadwerkelijk een tool call. Het stopte gewoon.
Ik moest de 80B backbone vervangen door de Instruct-versie. Hierdoor kon de agent tools op de juiste manier gebruiken.
𝗗𝗲 𝗪𝗲𝗿𝗸𝗲𝗹𝗶𝗷𝗸𝗲 𝗕𝗲𝗿𝗲𝗸𝗲𝗻𝗶𝗻𝗴 Na het testen kwam ik erachter dat deze cijfers werken voor mijn opstelling:
• Qwen3-Next-80B (bij een doel van 0,80): Gebruikt ~87,8 GiB aan werkelijk geheugen. • Qwen3-4B (bij een doel van 0,10): Gebruikt ~13,8 GiB aan werkelijk geheugen. • Totaal verbruik: ~101,6 GiB. • Vrije marge: ~18 GiB.
Als ik de 80B naar 0,85 pushte, kon het 4B-model niet opstarten. De 80B zou te veel opeisen, waardoor er geen ruimte overbleef voor de minimale behoeften van de 4B.
𝗠𝗶𝗷𝗻 𝗣𝗹𝗮𝘆𝗯𝗼𝗼𝗸 𝘃𝗼𝗼𝗿 𝗖𝗼-𝗿𝗲𝘀𝗶𝗱𝗲𝗻𝘁𝗲 𝗠𝗼𝗱𝗲𝗹𝗹𝗲𝗻
- Laad eerst het grootste model.
- Laat het stabiliseren.
- Voer
nvidia-smiuit om het werkelijk gebruikte geheugen te zien. - Bepaal de grootte van het kleinere model op basis van het resterende vrije geheugen minus 5 GB voor overhead.
- Start beide modellen twee keer opnieuw op om stabiliteit te garanderen.
Raad je geheugeninstellingen niet. Gebruik dit commando om de realiteit te zien:
nvidia-smi --query-gpu=memory.used --format=csv
Als je doelallocatie en je werkelijke verbruik meer dan 10% verschillen, klopt je berekening niet. Los dit op voordat je je agent stack uitrolt.
Optionele leercommunity: https://t.me/GyaanSetuAi