𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

📅3 hours ago⏱2 min read

Tek Bir GPU Üzerinde İki Model Çalıştırmak: Yerel LLM'lerin Arkasındaki Matematik

Bir iş istasyonunda (workstation) bir ajan yığını (agent stack) çalıştırıyorum. Modeller, bir LAN üzerinden DGX Spark üzerinde bulunuyor. Belleği daha iyi yönetmek için Ollama yerine vLLM kullanıyorum.

Hedef, iki modeli aynı anda çalıştırmak:

Ağır muhakeme (reasoning) için Qwen3-Next-80B.
Hızlı dönüşler için Qwen3-4B.

Her iki model de bir LiteLLM proxy'si aracılığıyla tek bir URL'ye erişiyor. Doğru matematiği bulmadan önce bu kurulum birkaç kez başarısız oldu.

İşte bu mücadeleden çıkardığım dersler.

Bellek Tuzağı gpu_memory_utilization ayarı, boş bellek için bir hedef değildir. Toplam GPU belleğinin bir oranıdır.

Eğer 120 GB'lık bir kartınız varsa ve kullanım oranını (utilization) 0.80 olarak ayarlarsanız, vLLM toplam kapasitenin 96 GB'ını rezerve etmeye çalışır. Mevcut boş belleğe bakmaz. İki işlem çalıştırmayı deniyorsanız, yüzdelerinin toplamı 0.95'ten az olmalıdır. CUDA framework overhead (ek yükü) için pay bırakmalısınız.

Modellerle İlgili Ne Oldu? 80B modelinin "Thinking" versiyonunu kullanmayı denedim. Başarısız oldu. Model <think> etiketleri içinde muhakeme yapıyordu ancak asla bir araç çağrısını (tool call) tetiklemiyordu. Sadece duruyordu.

80B ana modelini (backbone) "Instruct" versiyonuyla değiştirmek zorunda kaldım. Bu, ajanın araçları düzgün bir şekilde kullanmasını sağladı.

Gerçek Matematik Test ettikten sonra, kurulumum için şu rakamların işe yaradığını buldum:

• Qwen3-Next-80B (0.80 hedef ile): ~87.8 GiB gerçek bellek kullanıyor. • Qwen3-4B (0.10 hedef ile): ~13.8 GiB gerçek bellek kullanıyor. • Toplam kullanım: ~101.6 GiB. • Boş pay (headroom): ~18 GiB.

Eğer 80B'yi 0.85'e zorlasaydım, 4B modeli başlayamazdı. 80B çok fazla yer kaplayacak ve 4B'nin minimum ihtiyaçları için yer bırakmayacaktı.

Birlikte Çalışan Modeller İçin Uygulama Rehberim

Önce en büyük modeli yükleyin.
Yerleşmesine izin verin.
Kullanılan gerçek belleği görmek için nvidia-smi komutunu çalıştırın.
Küçük modeli, kalan boş bellekten 5 GB overhead (ek yük) çıkararak boyutlandırın.
Kararlılığı sağlamak için her iki modeli de iki kez yeniden başlatın.

Bellek ayarlarınızı tahmin etmeyin. Gerçek durumu görmek için şu komutu kullanın: nvidia-smi --query-gpu=memory.used --format=csv

Hedef tahsisatınız ile gerçek kullanımınız %10'dan fazla fark ediyorsa, matematiğiniz yanlıştır. Ajan yığınınızı yayına almadan (deploy) önce bunu düzeltin.

Source: https://dev.to/ric03uec/two-qwen3-models-on-one-dgx-spark-the-residency-math-for-local-llm-coding-5bpj

Optional learning community: https://t.me/GyaanSetuAi

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗡𝘃𝗶𝗱𝗶𝗮 𝗗𝗚𝗫 𝗦𝗽𝗮𝗿𝗸: 𝗔 𝗧𝗼𝗼𝗹 𝗙𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨