Qwen 3.6 27B: המדריך של המהנדס ל-AI מקומי
מודל 27B הרגע הביס מודל 397B.
זהו לא ניצחון קטן. זהו שינוי עצום עבור AI מקומי.
מודל Qwen 3.5 397B הישן דורש 807 GB של אחסון. צריך שרת עם מספר כרטיסי GPU כדי להריץ אותו.
מודל Qwen 3.6 27B החדש שוקל רק 55.6 GB. בפורמט 8-bit, הוא משתמש ב-28 GB בלבד. אפשר להריץ אותו על MacBook M5 Max בודד.
למרות הבדלי הגודל, מודל ה-27B מנצח במדדי ביצוע (benchmarks) מרכזיים:
• SWE-bench Verified: 77.2% (מביס את מודל ה-397B שעומד על 76.2%) • AIME 2026: 94.1% • GPQA Diamond: 87.8% (מביס את Claude 4.5 Opus)
למה זה עובד?
הארכיטקטורה משתמשת בעיצוב attention היברידי. היא משתמשת ביחס של 3:1 בין שכבות attention ליניאריות לשכבות quadratic.
- 48 שכבות משתמשות ב-Gated DeltaNet (Linear attention). זה מהיר וחוסך זיכרון.
- 16 שכבות משתמשות ב-Gated Attention (Quadratic attention). זה מספק דיוק.
התבנית הזו מאפשרת למודל לטפל בהקשרים (contexts) ארוכים ללא עלויות החישוב העצומות של transformers סטנדרטיים.
ניצחון נוסף הוא Multi-Token Prediction (MTP). תכונה זו מאפשרת למודל לחזות 3 עד 4 טוקנים בבת אחת.
על חומרת Apple M5 Max, MTP מעלה את המהירות מ-18 טוקנים בשנייה ל-32 טוקנים בשנייה. זהו שיפור של 77% ב-throughput.
איך להריץ אותו מקומית:
השתמשו ב-llama.cpp כדי להריץ את המודל על החומרה שלכם.
התקינו את הכלי:
brew install llama.cppהריצו את השרת עם MTP פעיל למהירות מקסימלית:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080הפנו את הכלים הקיימים שלכם (כמו Cursor או סקריפטים של Python) לכתובת http://localhost:8080/v1.
הכלכלה של עולם ה-AI השתנתה.
שימוש ב-APIs כמו Claude או GPT-5 עולה כסף בכל פעם שאתם שולחים prompt. AI מקומי עולה אפס לכל טוקן. הוא מספק 100% פרטיות. הוא אינו תלוי בספק צד שלישי שעלול לשנות את הכללים או המחירים שלו.
AI מקומי הוא כבר לא פשרה. הוא כלי מקצועי.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
