𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Read the original.

AI-assisted draft.

позавчора1min read

Я перестав гнатися за MTP TPS і отримав локального 27B агента, який працює на 24GB VRAM

Мене не цікавлять бенчмарки на один промпт.

Мене цікавить цикл (loop).

Агент для програмування має працювати годинами. Йому потрібно обробляти правки, виклики термінала, повторні спроби та зростаючий контекст. Якщо модель «падає» після десяти промптів, вона марна.

Я хотів перевірити, чи зможу я запустити модель 27B на одній відеокарті 24GB. Я протестував Qwopus3.6-27B-v2 і створив нову версію: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Ось мій сетап для стабільного циклу агента на 24GB:

Модель: Qwopus3.6-27B GPTQ-Pro 4-bit
Двигун: vLLM з GPTQ-Marlin
Контекст: 131k токенів
KV Cache: FP8 (fp8_e5m2)
Стратегія: Prefix caching увімкнено
Обмеження: max_num_seqs=1

Чому max_num_seqs=1?

На одній картці 24GB паралелізм не є безкоштовним. Якщо ви запускаєте кілька запитів, вони змагаються за пам'ять. Я хочу, щоб один запит завершувався чисто. Я краще отримаю одну корисну відповідь, ніж дві зламані.

Я також відмовився від спекулятивного декодування (MTP). На одній 3090 MTP створював додаткове навантаження на пам'ять і складність, не збільшуючи загальну швидкість (end-to-end speed) для довгих контекстів.

Справжні метрики, які мають значення:

Prefix cache hit ratio: ~83%
Середній TTFT: ~5.7s при 33k токенах
Пропускна здатність prefill: ~1917 tok/s
Швидкість декодування: ~43 tok/s

Коли відбувається попадання в prefix cache, затримка (latency) падає. Коли ви змінюєте завдання, кеш «холоне», і затримка зростає. Це нормально. Мета полягає в тому, щоб повернутися до високого рівня повторного використання кешу, щойно завдання стабілізується.

Якщо ви тестуєте лише один промпт, ви тестуєте не те. Для агентів програмування потрібно тестувати довгострокову стабільність.

Ви запускаєте цикли агентів на одній GPU? Які трюки ви використовуєте для KV cache або prefix caching?

Джерело: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Запуск двох моделей на одному GPU: математичне підґрунтя локальних LLM

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗔 𝗟𝗼𝗰𝗮𝗹 𝗖𝗼𝗱𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁 𝗼𝗻 𝗮 𝗠𝗮𝗰 𝗠𝗶𝗻𝗶