MiniMax M3: דרך חדשה לטיפול ב-Context ארוך
MiniMax M3 הוא מודל מולטי-מודאלי (multimodal) חדש משנחאי. הוא כולל חלון הקשר (context window) של מיליון טוקנים. רוב המודלים הופכים לאיטיים ויקרים מדי באורך כזה. MiniMax M3 משתמש בשיטה חדשה בשם MiniMax Sparse Attention (MSA) כדי לפתור זאת.
איך MSA עובד:
• ענף אינדקס (Index branch): מעבר מהיר מוצא את החלקים הרלוונטיים ביותר בנתונים. • ענף דליל (Sparse branch): המודל מסתכל רק על החלקים הספציפיים הללו. • יעילות זיכרון: הוא מקבץ שאילתות יחד כדי למנוע צווארי בקבוק בזיכרון ה-GPU.
זה הופך את המודל למהיר פי 9 בעיבוד נתונים ומהיר פי 15 ביצירת טקסט בהשוואה לגרסאות קודמות.
ציוני ביצועים:
• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%
הציון ב-SWE-Bench Pro גבוה יותר מזה של GPT-5.5 ו-Gemini 3.1 Pro. עם זאת, Claude Opus 4.8 עדיין מוביל עם 69.2%. כדאי לציין ש-MiniMax הריצו את הבדיקות הללו על החומרה שלהם עצמם.
פרטים טכניים:
M3 מאומן על טקסט, תמונות ווידאו יחד. הוא יכול להפעיל מחשבים שולחניים. בבדיקות, הוא ביצע אופטימיזציה ל-CUDA kernel על חומרת NVIDIA.
ניתן להשתמש ב-M3 בשלוש דרכים:
- MiniMax Platform API: עובד עם קוד OpenAI קיים.
- OpenRouter: טוב אם אינכם רוצים חשבון MiniMax ישיר.
- Self-hosting: דרוש תמיכה ב-vLLM או SGLang עבור ארכיטקטורת ה-MSA.
תמחור:
העלות היא $0.60 למיליון טוקנים של קלט (input) ו-$2.40 למיליון טוקנים של פלט (output). הנחת השקה מורידה את המחירים הללו ל-$0.30 ו-$1.20. זה הרבה יותר זול מ-Claude Opus.
שלושה דברים שכדאי לזכור:
- הקשר (Context) אינו זיכרון. עדיין תזדקקו לזיכרון חיצוני למשימות סוכנים (agents) לטווח ארוך.
- ודאו את מדדי הביצועים (benchmarks). המתינו לבדיקות של צד שלישי לפני שתעברו את כל המערכת שלכם.
- פרטיות נתונים. MiniMax ממוקמת בשנחאי. קחו זאת בחשבון אם אתם מטפלים בנתונים רגישים.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi