𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗲𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Quieres ejecutar un agente de programación local en una GPU de 24 GB. Necesitas estabilidad. Necesitas un contexto largo. Necesitas evitar bloqueos.

Esta configuración utiliza Qwen3.6-27B-GPTQ-Pro-4bit a través de vLLM. Me enfoco solo en texto. Los modelos multimodales consumen demasiada memoria para este objetivo específico.

La Estrategia: • Usa un único agente de programación local. • Desactiva todos los agentes secundarios. • Evita que las tareas secundarias consuman memoria. • Prioriza sesiones estables sobre la velocidad pura.

La Configuración de vLLM: Ejecuta vLLM con la cuantización gptq_marlin. Esto proporciona el mejor equilibrio para contextos largos y el almacenamiento en caché de prefijos (prefix caching) en una RTX 3090.

Flags clave a utilizar:

  • --max-num-seqs 1: Esto es vital. El paralelismo le roba el KV cache a tu tarea principal. Prefiero una solicitud exitosa que dos fallidas.
  • --max-model-len 131072: Esto permite un contexto masivo. Si experimentas errores de memoria, reduce este valor a 110k u 80k.
  • --enable-prefix-caching: Esto hace que los prompts largos repetidos sean mucho más rápidos.
  • --language-model-only: Mantén la simplicidad para ahorrar VRAM.

Ajustes de Hermes: Apunta Hermes a tu endpoint de vLLM. Usa estos ajustes específicos para obtener los mejores resultados: • Activa el pensamiento (thinking) y preserva el pensamiento. • Establece un tiempo de espera (timeout) de solicitud largo. Usa 1800 segundos. Los contextos grandes tardan tiempo en el prellenado (prefill). • Desactiva la delegación y los agentes secundarios. • Elimina los límites estrictos de max_tokens para evitar respuestas truncadas.

Por qué esto funciona: El almacenamiento en caché de prefijos (prefix caching) no es magia. Es una optimización. Si mantienes tus entradas constantes y repetibles, el modelo dejará de pagar el coste completo de prellenado en cada turno.

Mis resultados en 24GB VRAM: • Prompt pequeño (41 tokens): 0.29s TTFT. • Prompt grande (41,985 tokens): 38.6s TTFT. • Prompt en caché (41,985 tokens): 1.59s TTFT.

El modelo no es el cuello de botella. El cuello de botella es tu disciplina de servicio. Controla el tamaño de tu contexto, la secuencia de tus solicitudes y tu concurrencia.

Deja de probar si un modelo responde a un prompt. Prueba si el agente sobrevive a un bucle.

Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optional learning community: https://t.me/GyaanSetuAi