𝗛𝗼 𝘀𝗺𝗲𝘀𝘀𝗼 𝗱𝗶 𝗶𝗻𝘀𝗲𝗴𝘂𝗶𝗿𝗲 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗲 𝗼𝘁𝘁𝗲𝗻𝘂𝘁𝗼 𝘂𝗻 𝗮𝗴𝗲𝗻𝘁𝗲 𝗹𝗼𝗰𝗮𝗹𝗲 𝗱𝗮 𝟮𝟳𝗕 𝗰𝗵𝗲 𝗳𝘂𝗻𝘇𝗶𝗼𝗻𝗮 𝘀𝘂 𝟮𝟰𝗚𝗕 𝗱𝗶 𝗩𝗥𝗔𝗠

Non mi interessano i benchmark basati su un singolo prompt.

Mi interessa il loop.

Un agente di coding deve lavorare per ore. Deve gestire modifiche, chiamate al terminale, tentativi (retries) e un contesto in crescita. Se il modello fallisce dopo dieci prompt, è inutile.

Volevo vedere se riuscivo a far girare un modello da 27B su una singola GPU da 24GB. Ho testato Qwopus3.6-27B-v2 e ho creato una nuova versione: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Ecco la mia configurazione per un loop di agenti stabile su 24GB:

  • Modello: Qwopus3.6-27B GPTQ-Pro 4-bit
  • Motore: vLLM con GPTQ-Marlin
  • Contesto: 131k token
  • KV Cache: FP8 (fp8_e5m2)
  • Strategia: Prefix caching abilitato
  • Vincolo: max_num_seqs=1

Perché max_num_seqs=1?

Su una singola scheda da 24GB, il parallelismo non è gratuito. Se esegui più richieste, queste competono per la memoria. Voglio che una singola richiesta finisca correttamente. Preferisco un'unica risposta utile piuttosto che due risposte errate.

Ho anche saltato lo speculative decoding (MTP). Su una singola 3090, l'MTP aggiungeva pressione alla memoria e complessità senza aumentare la velocità end-to-end per contesti lunghi.

Le metriche reali che contano:

  • Prefix cache hit ratio: ~83%
  • TTFT medio: ~5,7s a 33k token
  • Throughput di prefill: ~1917 tok/s
  • Velocità di decode: ~43 tok/s

Quando il prefix cache va in hit, la latenza diminuisce. Quando cambi task, la cache diventa "cold" e la latenza aumenta. È normale. L'obiettivo è tornare a un alto riutilizzo della cache una volta che il task si stabilizza.

Se testi solo un singolo prompt, stai testando la cosa sbagliata. Per gli agenti di coding, devi testare la stabilità a lungo termine.

Esegui loop di agenti su una singola GPU? Quali trucchi usi per la KV cache o il prefix caching?

Fonte: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Community di apprendimento opzionale: https://t.me/GyaanSetuAi