𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Leer el original.

AI-assisted draft.

anteayer2min de lectura

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗲𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Quieres ejecutar un agente de programación local en una GPU de 24 GB. Necesitas estabilidad. Necesitas un contexto largo. Necesitas evitar bloqueos.

Esta configuración utiliza Qwen3.6-27B-GPTQ-Pro-4bit a través de vLLM. Me enfoco solo en texto. Los modelos multimodales consumen demasiada memoria para este objetivo específico.

La Estrategia: • Usa un único agente de programación local. • Desactiva todos los agentes secundarios. • Evita que las tareas secundarias consuman memoria. • Prioriza sesiones estables sobre la velocidad pura.

La Configuración de vLLM: Ejecuta vLLM con la cuantización gptq_marlin. Esto proporciona el mejor equilibrio para contextos largos y el almacenamiento en caché de prefijos (prefix caching) en una RTX 3090.

Flags clave a utilizar:

--max-num-seqs 1: Esto es vital. El paralelismo le roba el KV cache a tu tarea principal. Prefiero una solicitud exitosa que dos fallidas.
--max-model-len 131072: Esto permite un contexto masivo. Si experimentas errores de memoria, reduce este valor a 110k u 80k.
--enable-prefix-caching: Esto hace que los prompts largos repetidos sean mucho más rápidos.
--language-model-only: Mantén la simplicidad para ahorrar VRAM.

Ajustes de Hermes: Apunta Hermes a tu endpoint de vLLM. Usa estos ajustes específicos para obtener los mejores resultados: • Activa el pensamiento (thinking) y preserva el pensamiento. • Establece un tiempo de espera (timeout) de solicitud largo. Usa 1800 segundos. Los contextos grandes tardan tiempo en el prellenado (prefill). • Desactiva la delegación y los agentes secundarios. • Elimina los límites estrictos de max_tokens para evitar respuestas truncadas.

Por qué esto funciona: El almacenamiento en caché de prefijos (prefix caching) no es magia. Es una optimización. Si mantienes tus entradas constantes y repetibles, el modelo dejará de pagar el coste completo de prellenado en cada turno.

Mis resultados en 24GB VRAM: • Prompt pequeño (41 tokens): 0.29s TTFT. • Prompt grande (41,985 tokens): 38.6s TTFT. • Prompt en caché (41,985 tokens): 1.59s TTFT.

El modelo no es el cuello de botella. El cuello de botella es tu disciplina de servicio. Controla el tamaño de tu contexto, la secuencia de tus solicitudes y tu concurrencia.

Deja de probar si un modelo responde a un prompt. Prueba si el agente sobrevive a un bucle.

Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optional learning community: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Seguir leyendo

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Ejecutar dos modelos en una sola GPU: La matemática detrás de los LLM locales

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻