𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗨𝗻 𝗻𝘂𝗼𝘃𝗼 𝗺𝗼𝗱𝗼 𝗱𝗶 𝗴𝗲𝘀𝘁𝗶𝗿𝗲 𝗰𝗼𝗻𝘁𝗲𝘅𝘁𝗶 𝗽𝗿𝗼𝗹𝗶𝘀𝘀𝗶
MiniMax M3 è un nuovo modello multimodale di Shanghai. Dispone di una finestra di contesto da 1 milione di token. La maggior parte dei modelli diventa troppo lenta ed economica a questa lunghezza. MiniMax M3 utilizza un nuovo metodo chiamato MiniMax Sparse Attention (MSA) per risolvere questo problema.
Come funziona MSA:
• Index branch: Una scansione rapida individua le parti più rilevanti dei dati. • Sparse branch: Il modello analizza solo quelle parti specifiche. • Efficienza della memoria: Raggruppa le query per evitare colli di bottiglia nella memoria della GPU.
Questo rende il modello 9 volte più veloce nell'elaborazione dei dati e 15 volte più veloce nella generazione di testo rispetto alle versioni precedenti.
Punteggi di performance:
• SWE-Bench Pro: 59,0% • Terminal-Bench 2.1: 66,0% • BrowseComp: 83,5% • KernelBench Hard: 28,8% • MCP Atlas: 74,2%
Il punteggio SWE-Bench Pro è superiore a quello