MiniMax M3: Một cách tiếp cận mới để xử lý ngữ cảnh dài

Translated for your language. Read the original.

AI-assisted draft.

3 ngày trước2min read

MiniMax M3: Một Cách Mới Để Xử Lý Ngữ Cảnh Dài

MiniMax M3 là một mô hình đa phương thức (multimodal) mới từ Thượng Hải. Nó sở hữu cửa sổ ngữ cảnh (context window) lên tới 1 triệu token. Hầu hết các mô hình đều trở nên quá chậm và đắt đỏ ở độ dài này. MiniMax M3 sử dụng một phương pháp mới gọi là MiniMax Sparse Attention (MSA) để giải quyết vấn đề này.

Cách MSA hoạt động:

• Nhánh chỉ mục (Index branch): Một lượt quét nhanh giúp tìm ra các phần dữ liệu liên quan nhất. • Nhánh thưa (Sparse branch): Mô hình chỉ tập trung vào những phần cụ thể đó. • Hiệu quả bộ nhớ: Nó nhóm các truy vấn lại với nhau để ngăn chặn tình trạng nghẽn cổ chai bộ nhớ GPU.

Điều này giúp mô hình xử lý dữ liệu nhanh hơn 9 lần và tạo văn bản nhanh hơn 15 lần so với các phiên bản trước đó.

Điểm hiệu suất:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

Điểm SWE-Bench Pro cao hơn GPT-5.5 và Gemini 3.1 Pro. Tuy nhiên, Claude Opus 4.8 vẫn dẫn đầu với 69.2%. Cần lưu ý rằng MiniMax đã thực hiện các bài kiểm tra này trên phần cứng riêng của họ.

Chi tiết kỹ thuật:

M3 được huấn luyện đồng thời trên văn bản, hình ảnh và video. Nó có thể vận hành máy tính để bàn. Trong các bài kiểm tra, nó đã tối ưu hóa một CUDA kernel trên phần cứng NVIDIA.

Bạn có thể sử dụng M3 theo ba cách:

MiniMax Platform API: Hoạt động với mã nguồn OpenAI hiện có.
OpenRouter: Lựa chọn tốt nếu bạn không muốn lập tài khoản trực tiếp với MiniMax.
Tự lưu trữ (Self-hosting): Bạn cần hỗ trợ từ vLLM hoặc SGLang cho kiến trúc MSA.

Giá cả:

Chi phí là 0.60 USD cho mỗi triệu token đầu vào và 2.40 USD cho mỗi triệu token đầu ra. Chương trình giảm giá ra mắt giúp đưa mức giá này xuống còn 0.30 USD và 1.20 USD. Mức giá này rẻ hơn nhiều so với Claude Opus.

Ba điều cần ghi nhớ:

Ngữ cảnh không phải là bộ nhớ. Bạn vẫn cần bộ nhớ bên ngoài cho các tác vụ agent dài hạn.
Xác minh các điểm chuẩn (benchmarks). Hãy chờ đợi các bài kiểm tra từ bên thứ ba trước khi chuyển đổi toàn bộ hệ thống của bạn.
Quyền riêng tư dữ liệu. MiniMax có trụ sở tại Thượng Hải. Hãy cân nhắc điều này nếu bạn xử lý các dữ liệu nhạy cảm.

Nguồn: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

MiniMax M3: Một cách tiếp cận mới để xử lý ngữ cảnh dài

Continue reading

𝗖𝗛𝗜𝗡𝗔'𝗦 𝗖𝗢𝗗𝗜𝗡𝗚 𝗔𝗜 𝗜𝗦 𝗖𝗟𝗢𝗦𝗜𝗡𝗚 𝗧𝗛𝗘 𝗚𝗔𝗣 𝗙𝗔𝗦𝗧

𝗠𝗶𝗰𝗿𝗼𝘀𝗼𝗳𝘁 𝗥𝗲𝗹𝗲𝗮𝘀𝗲𝘀 𝗠𝗔𝗜 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝟭

Thuế Ngữ cảnh MCP

FlashMemory giảm KV Cache của DeepSeek V4 xuống còn 13,5%

Kiến trúc Gemma 2: Hiệu năng vượt trội từ mô hình tinh gọn