𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Leggi l'originale.

AI-assisted draft.

l’altro ieri2min di lettura

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝘀𝘂 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Vuoi eseguire un agente di coding locale su una GPU da 24GB. Hai bisogno di stabilità. Hai bisogno di un contesto lungo. Devi evitare crash.

Questa configurazione utilizza Qwen3.6-27B-GPTQ-Pro-4bit tramite vLLM. Mi concentro solo sul testo. I modelli multimodali consumano troppa memoria per questo obiettivo specifico.

La Strategia: • Usa un singolo agente di coding locale. • Disabilita tutti gli agenti secondari (child agents). • Impedisci ai task secondari di sottrarre memoria. • Dai priorità alla stabilità delle sessioni rispetto alla velocità pura.

La configurazione vLLM: Esegui vLLM con la quantizzazione gptq_marlin. Questa offre il miglior equilibrio per il contesto lungo e il prefix caching su una RTX 3090.

Flag principali da utilizzare:

--max-num-seqs 1: Questo è vitale. Il parallelismo sottrae la KV cache dal tuo task principale. Preferisco una richiesta riuscita piuttosto che due fallite.
--max-model-len 131072: Questo permette un contesto massiccio. Se riscontri errori di memoria, abbassa questo valore a 110k o 80k.
--enable-prefix-caching: Questo rende molto più veloci i prompt lunghi ripetuti.
--language-model-only: Mantieni tutto semplice per risparmiare VRAM.

Impostazioni Hermes: Indirizza Hermes al tuo endpoint vLLM. Usa queste impostazioni specifiche per ottenere i migliori risultati: • Abilita il thinking e preserva il thinking. • Imposta un timeout della richiesta lungo. Usa 1800 secondi. I contesti ampi richiedono tempo per il prefill. • Disabilita la delega e gli agenti secondari. • Rimuovi i limiti rigidi di max_tokens per evitare risposte troncate.

Perché funziona: Il prefix caching non è magia. È un'ottimizzazione. Se mantieni i tuoi input ripetitivi e costanti, il modello smette di pagare l'intero costo di prefill per ogni turno.

I miei risultati su 24GB di VRAM: • Prompt piccolo (41 token): 0.29s TTFT. • Prompt grande (41.985 token): 38.6s TTFT. • Prompt in cache (41.985 token): 1.59s TTFT.

Il modello non è il collo di bottiglia. Il collo di bottiglia è la tua disciplina di serving. Controlla la dimensione del contesto, la sequenza delle richieste e la concorrenza.

Smetti di testare se un modello risponde a un singolo prompt. Testa se l'agente sopravvive a un loop.

Fonte: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continua a leggere

Llama.cpp ora eguaglia la velocità di vLLM

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Eseguire due modelli su una singola GPU: la matematica dietro i LLM locali

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻