𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Read the original.

AI-assisted draft.

שלשום1min read

הפסקתי לרדוף אחרי MTP TPS וקיבלתי Agent מקומי של 27B שעובד על 24GB VRAM

לא אכפת לי מבנצ'מרקים של פרומפט בודד.

אכפת לי מהלולאה.

סוכן קוד (coding agent) צריך לעבוד במשך שעות. הוא צריך לטפל בעריכות, קריאות לטרמינל, ניסיונות חוזרים (retries) וקונטקסט שגדל. אם המודל נכשל אחרי עשרה פרומפטים, הוא חסר תועלת.

רציתי לראות אם אני יכול להריץ מודל 27B על GPU בודד של 24GB. בדקתי את Qwopus3.6-27B-v2 ויצרתי גרסה חדשה: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

הנה ה-setup שלי ללולאת סוכן יציבה ב-24GB:

Model: Qwopus3.6-27B GPTQ-Pro 4-bit
Engine: vLLM with GPTQ-Marlin
Context: 131k tokens
KV Cache: FP8 (fp8_e5m2)
Strategy: Prefix caching enabled
Constraint: max_num_seqs=1

למה max_num_seqs=1?

בכרטיס בודד של 24GB, מקביליות (parallelism) אינה בחינם. אם מריצים מספר בקשות, הן נלחמות על הזיכרון. אני רוצה שבקשה אחת תסתיים בצורה נקייה. אני מעדיף תשובה אחת מועילה על פני שתיים שבורות.

ויתרתי גם על speculative decoding (MTP). בכרטיס 3090 בודד, MTP הוסיף עומס על הזיכרון ומורכבות מבלי להגדיל את המהירות מקצה לקצה (end-to-end) עבור קונטקסט ארוך.

המדדים האמיתיים שחשובים:

Prefix cache hit ratio: ~83%
Average TTFT: ~5.7s at 33k tokens
Prefill throughput: ~1917 tok/s
Decode speed: ~43 tok/s

כשמבוצעת פגיעה ב-prefix cache, השיהוי (latency) שלך יורד. כשמחליפים משימות, ה-cache הופך ל"קר" (cold) והשיהוי עולה. זה נורמלי. המטרה היא לחזור לשימוש גבוה ב-cache ברגע שהמשימה מתייצבת.

אם אתם בודקים רק פרומפט אחד, אתם בודקים את הדבר הלא נכון. עבור סוכני קוד, חייבים לבדוק יציבות לטווח ארוך.

האם אתם מריצים לולאות סוכן על GPU בודד? אילו טריקים אתם משתמשים בהם עבור KV cache או prefix caching?

Source: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Optional learning community: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

הרצת סוכן קידוד מקומי על Mac Mini