𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Ler o original.

AI-assisted draft.

anteontem1min de leitura

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠 (PAREI DE PERSEGUIR MTP TPS E CONSEGUI UM AGENTE LOCAL DE 27B QUE FUNCIONA EM 24GB DE VRAM)

Eu não me importo com benchmarks de prompt único.

Eu me importo com o loop.

Um agente de codificação precisa trabalhar por horas. Ele precisa lidar com edições, chamadas de terminal, tentativas e contexto crescente. Se o modelo falhar após dez prompts, ele é inútil.

Eu queria ver se conseguiria rodar um modelo de 27B em uma única GPU de 24GB. Testei o Qwopus3.6-27B-v2 e criei uma nova versão: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Aqui está a minha configuração para um loop de agente estável em 24GB:

Modelo: Qwopus3.6-27B GPTQ-Pro 4-bit
Engine: vLLM com GPTQ-Marlin
Contexto: 131k tokens
KV Cache: FP8 (fp8_e5m2)
Estratégia: Prefix caching habilitado
Restrição: max_num_seqs=1

Por que max_num_seqs=1?

Em uma única placa de 24GB, o paralelismo não é gratuito. Se você executar múltiplas requisições, elas disputarão memória. Eu quero que uma requisição termine de forma limpa. Prefiro ter uma resposta útil do que duas quebradas.

Eu também ignorei o speculative decoding (MTP). Em uma única 3090, o MTP adicionou pressão de memória e complexidade sem aumentar a velocidade end-to-end para contextos longos.

As métricas reais que importam:

Taxa de acerto do prefix cache: ~83%
TTFT médio: ~5.7s com 33k tokens
Throughput de prefill: ~1917 tok/s
Velocidade de decode: ~43 tok/s

Quando o prefix cache acerta, sua latência cai. Quando você muda de tarefa, o cache fica "frio" e a latência aumenta. Isso é normal. O objetivo é retornar ao alto reuso de cache assim que a tarefa se estabilizar.

Se você testar apenas um prompt, estará testando a coisa errada. Para agentes de codificação, você deve testar a estabilidade de longo prazo.

Você está rodando loops de agentes em uma única GPU? Quais truques você usa para KV cache ou prefix caching?

Fonte: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continuar lendo

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Executando Dois Modelos em uma Única GPU: A Matemática por Trás de LLMs Locais

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Executando um Agente de Codificação Local em um Mac Mini