𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠 (PAREI DE PERSEGUIR MTP TPS E CONSEGUI UM AGENTE LOCAL DE 27B QUE FUNCIONA EM 24GB DE VRAM)
Eu não me importo com benchmarks de prompt único.
Eu me importo com o loop.
Um agente de codificação precisa trabalhar por horas. Ele precisa lidar com edições, chamadas de terminal, tentativas e contexto crescente. Se o modelo falhar após dez prompts, ele é inútil.
Eu queria ver se conseguiria rodar um modelo de 27B em uma única GPU de 24GB. Testei o Qwopus3.6-27B-v2 e criei uma nova versão: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.
Aqui está a minha configuração para um loop de agente estável em 24GB:
- Modelo: Qwopus3.6-27B GPTQ-Pro 4-bit
- Engine: vLLM com GPTQ-Marlin
- Contexto: 131k tokens
- KV Cache: FP8 (fp8_e5m2)
- Estratégia: Prefix caching habilitado
- Restrição: max_num_seqs=1
Por que max_num_seqs=1?
Em uma única placa de 24GB, o paralelismo não é gratuito. Se você executar múltiplas requisições, elas disputarão memória. Eu quero que uma requisição termine de forma limpa. Prefiro ter uma resposta útil do que duas quebradas.
Eu também ignorei o speculative decoding (MTP). Em uma única 3090, o MTP adicionou pressão de memória e complexidade sem aumentar a velocidade end-to-end para contextos longos.
As métricas reais que importam:
- Taxa de acerto do prefix cache: ~83%
- TTFT médio: ~5.7s com 33k tokens
- Throughput de prefill: ~1917 tok/s
- Velocidade de decode: ~43 tok/s
Quando o prefix cache acerta, sua latência cai. Quando você muda de tarefa, o cache fica "frio" e a latência aumenta. Isso é normal. O objetivo é retornar ao alto reuso de cache assim que a tarefa se estabilizar.
Se você testar apenas um prompt, estará testando a coisa errada. Para agentes de codificação, você deve testar a estabilidade de longo prazo.
Você está rodando loops de agentes em uma única GPU? Quais truques você usa para KV cache ou prefix caching?
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi