MiniMax M3: Uzun Bağlamı Yönetmek İçin Yeni Bir Yol

MiniMax M3, Şanghay merkezli yeni bir multimodal modeldir. 1 milyon tokenlık bir bağlam penceresine (context window) sahiptir. Çoğu model bu uzunlukta çok yavaşlar ve maliyetli hale gelir. MiniMax M3, bu sorunu çözmek için MiniMax Sparse Attention (MSA) adı verilen yeni bir yöntem kullanır.

MSA nasıl çalışır:

• İndeks dalı: Hızlı bir geçiş, verilerin en alakalı kısımlarını bulur. • Seyrek (Sparse) dal: Model yalnızca bu belirli kısımlara bakar. • Bellek verimliliği: GPU bellek darboğazlarını önlemek için sorguları gruplandırır.

Bu, modeli önceki sürümlere kıyasla veri işlemede 9 kat, metin oluşturmada ise 15 kat daha hızlı hale getirir.

Performans puanları:

• SWE-Bench Pro: %59,0 • Terminal-Bench 2.1: %66,0 • BrowseComp: %83,5 • KernelBench Hard: %28,8 • MCP Atlas: %74,2

SWE-Bench Pro puanı, GPT-5.5 ve Gemini 3.1 Pro'dan daha yüksektir. Ancak Claude Opus 4.8, %69,2 ile hala lider konumdadır. MiniMax'in bu testleri kendi donanımlarında gerçekleştirdiğini not etmelisiniz.

Teknik detaylar:

M3; metin, görüntü ve video üzerinde birlikte eğitilmiştir. Masaüstü bilgisayarları çalıştırabilir. Testlerde, NVIDIA donanımı üzerinde bir CUDA kernel'ını optimize etmiştir.

M3'ü üç şekilde kullanabilirsiniz:

  • MiniMax Platform API: Mevcut OpenAI kodlarıyla çalışır.
  • OpenRouter: Doğrudan bir MiniMax hesabı istemiyorsanız idealdir.
  • Self-hosting: MSA mimarisi için vLLM veya SGLang desteğine ihtiyacınız vardır.

Fiyatlandırma:

Maliyet, milyon başına 0,60 $ giriş token'ı ve milyon başına 2,40 $ çıkış token'ıdır. Bir lansman indirimi bu fiyatları 0,30 $ ve 1,20 $'a düşürmektedir. Bu, Claude Opus'tan çok daha ucuzdur.

Unutulmaması gereken üç şey:

  • Bağlam (Context) bellek değildir. Uzun vadeli ajan görevleri için hala harici bir belleğe ihtiyacınız vardır.
  • Kıyaslamaları (benchmarks) doğrulayın. Tüm sisteminizi değiştirmeden önce üçüncü taraf testlerini bekleyin.
  • Veri gizliliği. MiniMax, Şanghay merkezlidir. Hassas verilerle çalışıyorsanız bunu göz önünde bulundurun.

Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi