MiniMax M3: Una nueva forma de gestionar contexto largo

MiniMax M3 es un nuevo modelo multimodal de Shanghái. Cuenta con una ventana de contexto de 1 millón de tokens. La mayoría de los modelos se vuelven demasiado lentos y costosos con esta longitud. MiniMax M3 utiliza un nuevo método llamado MiniMax Sparse Attention (MSA) para resolver esto.

Cómo funciona MSA:

• Rama de indexación: Una pasada rápida encuentra las partes más relevantes de los datos. • Rama dispersa: El modelo solo analiza esas partes específicas. • Eficiencia de memoria: Agrupa las consultas para evitar cuellos de botella en la memoria de la GPU.

Esto hace que el modelo sea 9 veces más rápido al procesar datos y 15 veces más rápido al generar texto en comparación con las versiones anteriores.

Puntuaciones de rendimiento:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

La puntuación de SWE-Bench Pro es superior a la de GPT-5.5 y Gemini 3.1 Pro. Sin embargo, Claude Opus 4.8 sigue liderando con un 69.2%. Cabe señalar que MiniMax realizó estas pruebas en su propio hardware.

Detalles técnicos:

M3 se entrena con texto, imágenes y video de forma conjunta. Puede operar computadoras de escritorio. En las pruebas, optimizó un kernel de CUDA en hardware de NVIDIA.

Puedes usar M3 de tres maneras:

  • MiniMax Platform API: Funciona con el código existente de OpenAI.
  • OpenRouter: Útil si no deseas una cuenta directa de MiniMax.
  • Self-hosting: Necesitas soporte para vLLM o SGLang para la arquitectura MSA.

Precios:

El coste es de $0.60 por millón de tokens de entrada y $2.40 por millón de tokens de salida. Un descuento de lanzamiento reduce estos precios a $0.30 y $1.20. Esto es mucho más barato que Claude Opus.

Tres cosas para recordar:

  • El contexto no es memoria. Aún necesitas memoria externa para tareas de agentes a largo plazo.
  • Verifica los benchmarks. Espera a las pruebas de terceros antes de cambiar todo tu sistema.
  • Privacidad de datos. MiniMax tiene su sede en Shanghái. Ten esto en cuenta si manejas datos sensibles.

Fuente: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi