MiniMax M3: Uzun Bağlamı Yönetmek İçin Yeni Bir Yol

Translated for your language. Read the original.

AI-assisted draft.

3 gün önce2min read

MiniMax M3: Uzun Bağlamı Yönetmek İçin Yeni Bir Yol

MiniMax M3, Şanghay merkezli yeni bir multimodal modeldir. 1 milyon tokenlık bir bağlam penceresine (context window) sahiptir. Çoğu model bu uzunlukta çok yavaşlar ve maliyetli hale gelir. MiniMax M3, bu sorunu çözmek için MiniMax Sparse Attention (MSA) adı verilen yeni bir yöntem kullanır.

MSA nasıl çalışır:

• İndeks dalı: Hızlı bir geçiş, verilerin en alakalı kısımlarını bulur. • Seyrek (Sparse) dal: Model yalnızca bu belirli kısımlara bakar. • Bellek verimliliği: GPU bellek darboğazlarını önlemek için sorguları gruplandırır.

Bu, modeli önceki sürümlere kıyasla veri işlemede 9 kat, metin oluşturmada ise 15 kat daha hızlı hale getirir.

Performans puanları:

• SWE-Bench Pro: %59,0 • Terminal-Bench 2.1: %66,0 • BrowseComp: %83,5 • KernelBench Hard: %28,8 • MCP Atlas: %74,2

SWE-Bench Pro puanı, GPT-5.5 ve Gemini 3.1 Pro'dan daha yüksektir. Ancak Claude Opus 4.8, %69,2 ile hala lider konumdadır. MiniMax'in bu testleri kendi donanımlarında gerçekleştirdiğini not etmelisiniz.

Teknik detaylar:

M3; metin, görüntü ve video üzerinde birlikte eğitilmiştir. Masaüstü bilgisayarları çalıştırabilir. Testlerde, NVIDIA donanımı üzerinde bir CUDA kernel'ını optimize etmiştir.

M3'ü üç şekilde kullanabilirsiniz:

MiniMax Platform API: Mevcut OpenAI kodlarıyla çalışır.
OpenRouter: Doğrudan bir MiniMax hesabı istemiyorsanız idealdir.
Self-hosting: MSA mimarisi için vLLM veya SGLang desteğine ihtiyacınız vardır.

Fiyatlandırma:

Maliyet, milyon başına 0,60 $ giriş token'ı ve milyon başına 2,40 $ çıkış token'ıdır. Bir lansman indirimi bu fiyatları 0,30 $ ve 1,20 $'a düşürmektedir. Bu, Claude Opus'tan çok daha ucuzdur.

Unutulmaması gereken üç şey:

Bağlam (Context) bellek değildir. Uzun vadeli ajan görevleri için hala harici bir belleğe ihtiyacınız vardır.
Kıyaslamaları (benchmarks) doğrulayın. Tüm sisteminizi değiştirmeden önce üçüncü taraf testlerini bekleyin.
Veri gizliliği. MiniMax, Şanghay merkezlidir. Hassas verilerle çalışıyorsanız bunu göz önünde bulundurun.

Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

MiniMax M3: Uzun Bağlamı Yönetmek İçin Yeni Bir Yol

Continue reading

𝗖𝗛𝗜𝗡𝗔'𝗦 𝗖𝗢𝗗𝗜𝗡𝗚 𝗔𝗜 𝗜𝗦 𝗖𝗟𝗢𝗦𝗜𝗡𝗚 𝗧𝗛𝗘 𝗚𝗔𝗣 𝗙𝗔𝗦𝗧

𝗠𝗶𝗰𝗿𝗼𝘀𝗼𝗳𝘁 𝗥𝗲𝗹𝗲𝗮𝘀𝗲𝘀 𝗠𝗔𝗜 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝟭

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

FlashMemory, DeepSeek V4 KV Önbelleğini %13,5'e Düşürüyor

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹