𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Ler o original.

AI-assisted draft.

anteontem2min de leitura

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗲𝗺 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Você quer rodar um agente de codificação local em uma GPU de 24GB. Você precisa de estabilidade. Você precisa de contexto longo. Você precisa evitar travamentos.

Esta configuração utiliza Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Eu foco apenas em texto. Modelos multimodais consomem memória demais para este objetivo específico.

A Estratégia: • Use um único agente de codificação local. • Desative todos os agentes filhos. • Impeça que tarefas secundárias roubem memória. • Priorize sessões estáveis em vez de velocidade bruta.

A Configuração do vLLM: Execute o vLLM com a quantização gptq_marlin. Isso proporciona o melhor equilíbrio para contexto longo e prefix caching em uma RTX 3090.

Principais flags para usar:

--max-num-seqs 1: Isso é vital. O paralelismo rouba o KV cache da sua tarefa principal. Eu prefiro uma requisição bem-sucedida do que duas falhas.
--max-model-len 131072: Isso permite um contexto massivo. Se você encontrar erros de memória, reduza para 110k ou 80k.
--enable-prefix-caching: Isso torna prompts longos repetidos muito mais rápidos.
--language-model-only: Mantenha a simplicidade para economizar VRAM.

Configurações do Hermes: Aponte o Hermes para o seu endpoint do vLLM. Use estas configurações específicas para obter os melhores resultados: • Ative o raciocínio e preserve o raciocínio. • Defina um timeout de requisição longo. Use 1800 segundos. Contextos grandes levam tempo para o prefill. • Desative a delegação e os agentes filhos. • Remova limites rígidos de max_tokens para evitar respostas truncadas.

Por que isso funciona: O prefix caching não é mágica. É uma otimização. Se você mantiver seus inputs previsíveis e repetíveis, o modelo deixará de pagar o custo total de prefill a cada turno.

Meus resultados em 24GB de VRAM: • Prompt pequeno (41 tokens): 0,29s TTFT. • Prompt grande (41.985 tokens): 38,6s TTFT. • Prompt em cache (41.985 tokens): 1,59s TTFT.

O modelo não é o gargalo. O gargalo é a sua disciplina de serviço. Controle o tamanho do seu contexto, sua sequência de requisições e sua concorrência.

Pare de testar se um modelo responde a um único prompt. Teste se o agente sobrevive a um loop.

Fonte: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continuar lendo

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Executando Dois Modelos em uma Única GPU: A Matemática por Trás de LLMs Locais

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻