𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠 (PAREI DE PERSEGUIR MTP TPS E CONSEGUI UM AGENTE LOCAL DE 27B QUE FUNCIONA EM 24GB DE VRAM)

Eu não me importo com benchmarks de prompt único.

Eu me importo com o loop.

Um agente de codificação precisa trabalhar por horas. Ele precisa lidar com edições, chamadas de terminal, tentativas e contexto crescente. Se o modelo falhar após dez prompts, ele é inútil.

Eu queria ver se conseguiria rodar um modelo de 27B em uma única GPU de 24GB. Testei o Qwopus3.6-27B-v2 e criei uma nova versão: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Aqui está a minha configuração para um loop de agente estável em 24GB:

  • Modelo: Qwopus3.6-27B GPTQ-Pro 4-bit
  • Engine: vLLM com GPTQ-Marlin
  • Contexto: 131k tokens
  • KV Cache: FP8 (fp8_e5m2)
  • Estratégia: Prefix caching habilitado
  • Restrição: max_num_seqs=1

Por que max_num_seqs=1?

Em uma única placa de 24GB, o paralelismo não é gratuito. Se você executar múltiplas requisições, elas disputarão memória. Eu quero que uma requisição termine de forma limpa. Prefiro ter uma resposta útil do que duas quebradas.

Eu também ignorei o speculative decoding (MTP). Em uma única 3090, o MTP adicionou pressão de memória e complexidade sem aumentar a velocidade end-to-end para contextos longos.

As métricas reais que importam:

  • Taxa de acerto do prefix cache: ~83%
  • TTFT médio: ~5.7s com 33k tokens
  • Throughput de prefill: ~1917 tok/s
  • Velocidade de decode: ~43 tok/s

Quando o prefix cache acerta, sua latência cai. Quando você muda de tarefa, o cache fica "frio" e a latência aumenta. Isso é normal. O objetivo é retornar ao alto reuso de cache assim que a tarefa se estabilizar.

Se você testar apenas um prompt, estará testando a coisa errada. Para agentes de codificação, você deve testar a estabilidade de longo prazo.

Você está rodando loops de agentes em uma única GPU? Quais truques você usa para KV cache ou prefix caching?

Fonte: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi