𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Leggi l'originale.

AI-assisted draft.

l’altro ieri1min di lettura

𝗛𝗼 𝘀𝗺𝗲𝘀𝘀𝗼 𝗱𝗶 𝗶𝗻𝘀𝗲𝗴𝘂𝗶𝗿𝗲 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗲 𝗼𝘁𝘁𝗲𝗻𝘂𝘁𝗼 𝘂𝗻 𝗮𝗴𝗲𝗻𝘁𝗲 𝗹𝗼𝗰𝗮𝗹𝗲 𝗱𝗮 𝟮𝟳𝗕 𝗰𝗵𝗲 𝗳𝘂𝗻𝘇𝗶𝗼𝗻𝗮 𝘀𝘂 𝟮𝟰𝗚𝗕 𝗱𝗶 𝗩𝗥𝗔𝗠

Non mi interessano i benchmark basati su un singolo prompt.

Mi interessa il loop.

Un agente di coding deve lavorare per ore. Deve gestire modifiche, chiamate al terminale, tentativi (retries) e un contesto in crescita. Se il modello fallisce dopo dieci prompt, è inutile.

Volevo vedere se riuscivo a far girare un modello da 27B su una singola GPU da 24GB. Ho testato Qwopus3.6-27B-v2 e ho creato una nuova versione: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Ecco la mia configurazione per un loop di agenti stabile su 24GB:

Modello: Qwopus3.6-27B GPTQ-Pro 4-bit
Motore: vLLM con GPTQ-Marlin
Contesto: 131k token
KV Cache: FP8 (fp8_e5m2)
Strategia: Prefix caching abilitato
Vincolo: max_num_seqs=1

Perché max_num_seqs=1?

Su una singola scheda da 24GB, il parallelismo non è gratuito. Se esegui più richieste, queste competono per la memoria. Voglio che una singola richiesta finisca correttamente. Preferisco un'unica risposta utile piuttosto che due risposte errate.

Ho anche saltato lo speculative decoding (MTP). Su una singola 3090, l'MTP aggiungeva pressione alla memoria e complessità senza aumentare la velocità end-to-end per contesti lunghi.

Le metriche reali che contano:

Prefix cache hit ratio: ~83%
TTFT medio: ~5,7s a 33k token
Throughput di prefill: ~1917 tok/s
Velocità di decode: ~43 tok/s

Quando il prefix cache va in hit, la latenza diminuisce. Quando cambi task, la cache diventa "cold" e la latenza aumenta. È normale. L'obiettivo è tornare a un alto riutilizzo della cache una volta che il task si stabilizza.

Se testi solo un singolo prompt, stai testando la cosa sbagliata. Per gli agenti di coding, devi testare la stabilità a lungo termine.

Esegui loop di agenti su una singola GPU? Quali trucchi usi per la KV cache o il prefix caching?

Fonte: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continua a leggere

Llama.cpp ora eguaglia la velocità di vLLM

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Eseguire due modelli su una singola GPU: la matematica dietro i LLM locali

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Far girare un agente di coding locale su un Mac Mini