𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

MiniMax M3は、上海発の新しいマルチモーダルモデルです。100万トークンのコンテキストウィンドウを備えています。ほとんどのモデルはこの長さになると、処理速度が低下し、コストも高くなります。MiniMax M3は、これを解決するためにMiniMax Sparse Attention (MSA)と呼ばれる新しい手法を採用しています。

MSAの仕組み:

• Index branch(インデックス・ブランチ): 高速なパスによって、データの中から最も関連性の高い部分を見つけ出します。 • Sparse branch(スパース・ブランチ): モデルはその特定の箇所のみを参照します。 • メモリ効率: クエリをグループ化することで、GPUメモリのボトルネックを防ぎます。

これにより、以前のバージョンと比較して、データ処理が9倍、テキスト生成が15倍高速化されました。

パフォーマンススコア:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

SWE-Bench ProのスコアはGPT-5.5やGemini 3.1 Proを上回っています。しかし、Claude Opus 4.8が69.2%で依然としてトップに立っています。なお、MiniMaxはこれらのテストを自社ハードウェアで実施している点に注意が必要です。

技術的な詳細:

M3はテキスト、画像、ビデオを統合して学習されています。デスクトップコンピュータを操作することも可能です。テストでは、NVIDIAハードウェア上でCUDAカーネルの最適化を行いました。

M3を利用する方法は3つあります:

  • MiniMax Platform API: 既存のOpenAIコードと互換性があります。
  • OpenRouter: MiniMaxの直接のアカウントを作成したくない場合に適しています。
  • セルフホスティング: MSAアーキテクチャを利用するには、vLLMまたはSGLangのサポートが必要です。

価格:

コストは入力トークン100万件あたり0.60ドル、出力トークン100万件あたり2.40ドルです。ローンチ割引により、これらの価格は0.30ドルと1.20ドルまで下がります。これはClaude Opusよりも大幅に安価です。

注意すべき3つの点:

  • コンテキストはメモリではありません。長期的なエージェントタスクには、依然として外部メモリが必要です。
  • ベンチマークの検証。システム全体を移行する前に、第三者によるテスト結果を待ってください。
  • データプライバシー。MiniMaxは上海に拠点を置いています。機密データを扱う場合は、この点を考慮してください。

出典: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

オプションの学習コミュニティ: https://t.me/GyaanSetuAi