𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

Translated for your language. Read the original.

AI-assisted draft.

לפני 3 ימים2min read

MiniMax M3: דרך חדשה לטיפול ב-Context ארוך

MiniMax M3 הוא מודל מולטי-מודאלי (multimodal) חדש משנחאי. הוא כולל חלון הקשר (context window) של מיליון טוקנים. רוב המודלים הופכים לאיטיים ויקרים מדי באורך כזה. MiniMax M3 משתמש בשיטה חדשה בשם MiniMax Sparse Attention (MSA) כדי לפתור זאת.

איך MSA עובד:

• ענף אינדקס (Index branch): מעבר מהיר מוצא את החלקים הרלוונטיים ביותר בנתונים. • ענף דליל (Sparse branch): המודל מסתכל רק על החלקים הספציפיים הללו. • יעילות זיכרון: הוא מקבץ שאילתות יחד כדי למנוע צווארי בקבוק בזיכרון ה-GPU.

זה הופך את המודל למהיר פי 9 בעיבוד נתונים ומהיר פי 15 ביצירת טקסט בהשוואה לגרסאות קודמות.

ציוני ביצועים:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

הציון ב-SWE-Bench Pro גבוה יותר מזה של GPT-5.5 ו-Gemini 3.1 Pro. עם זאת, Claude Opus 4.8 עדיין מוביל עם 69.2%. כדאי לציין ש-MiniMax הריצו את הבדיקות הללו על החומרה שלהם עצמם.

פרטים טכניים:

M3 מאומן על טקסט, תמונות ווידאו יחד. הוא יכול להפעיל מחשבים שולחניים. בבדיקות, הוא ביצע אופטימיזציה ל-CUDA kernel על חומרת NVIDIA.

ניתן להשתמש ב-M3 בשלוש דרכים:

MiniMax Platform API: עובד עם קוד OpenAI קיים.
OpenRouter: טוב אם אינכם רוצים חשבון MiniMax ישיר.
Self-hosting: דרוש תמיכה ב-vLLM או SGLang עבור ארכיטקטורת ה-MSA.

תמחור:

העלות היא $0.60 למיליון טוקנים של קלט (input) ו-$2.40 למיליון טוקנים של פלט (output). הנחת השקה מורידה את המחירים הללו ל-$0.30 ו-$1.20. זה הרבה יותר זול מ-Claude Opus.

שלושה דברים שכדאי לזכור:

הקשר (Context) אינו זיכרון. עדיין תזדקקו לזיכרון חיצוני למשימות סוכנים (agents) לטווח ארוך.
ודאו את מדדי הביצועים (benchmarks). המתינו לבדיקות של צד שלישי לפני שתעברו את כל המערכת שלכם.
פרטיות נתונים. MiniMax ממוקמת בשנחאי. קחו זאת בחשבון אם אתם מטפלים בנתונים רגישים.

מקור: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

Continue reading

𝗖𝗛𝗜𝗡𝗔'𝗦 𝗖𝗢𝗗𝗜𝗡𝗚 𝗔𝗜 𝗜𝗦 𝗖𝗟𝗢𝗦𝗜𝗡𝗚 𝗧𝗛𝗘 𝗚𝗔𝗣 𝗙𝗔𝗦𝗧

𝗠𝗶𝗰𝗿𝗼𝘀𝗼𝗳𝘁 𝗥𝗲𝗹𝗲𝗮𝘀𝗲𝘀 𝗠𝗔𝗜 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝟭

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

ארכיטקטורת Gemma 2: יותר ביצועים ממודל קטן יותר