MiniMax M3: 긴 컨텍스트를 처리하는 새로운 방법

MiniMax M3는 상하이에서 개발된 새로운 멀티모달 모델입니다. 100만 토큰의 컨텍스트 창을 특징으로 합니다. 대부분의 모델은 이 정도 길이에 이르면 속도가 너무 느려지고 비용이 많이 발생합니다. MiniMax M3는 이를 해결하기 위해 MiniMax Sparse Attention (MSA)라는 새로운 방식을 사용합니다.

MSA 작동 방식:

• 인덱스 브랜치(Index branch): 빠른 패스를 통해 데이터에서 가장 관련성이 높은 부분을 찾아냅니다. • 스파스 브랜치(Sparse branch): 모델은 해당 특정 부분만 살펴봅니다. • 메모리 효율성: 쿼리를 그룹화하여 GPU 메모리 병목 현상을 방지합니다.

이를 통해 이전 버전과 비교했을 때 데이터 처리 속도는 9배, 텍스트 생성 속도는 15배 빨라졌습니다.

성능 점수:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

SWE-Bench Pro 점수는 GPT-5.5 및 Gemini 3.1 Pro보다 높습니다. 하지만 Claude Opus 4.8이 69.2%로 여전히 앞서고 있습니다. MiniMax가 자체 하드웨어에서 이 테스트를 수행했다는 점에 유의해야 합니다.

기술적 세부 사항:

M3는 텍스트, 이미지, 비디오를 함께 학습했습니다. 데스크톱 컴퓨터를 조작할 수 있습니다. 테스트에서 NVIDIA 하드웨어의 CUDA 커널을 최적화하기도 했습니다.

M3는 세 가지 방식으로 사용할 수 있습니다:

  • MiniMax Platform API: 기존 OpenAI 코드로 작동합니다.
  • OpenRouter: MiniMax 계정을 직접 만들고 싶지 않은 경우에 좋습니다.
  • 셀프 호스팅(Self-hosting): MSA 아키텍처를 위해 vLLM 또는 SGLang 지원이 필요합니다.

가격:

비용은 입력 토큰 100만 개당 $0.60, 출력 토큰 100만 개당 $2.40입니다. 출시 할인 혜택을 적용하면 이 가격은 각각 $0.30와 $1.20로 낮아집니다. 이는 Claude Opus보다 훨씬 저렴합니다.

기억해야 할 세 가지:

  • 컨텍스트는 메모리가 아닙니다. 장기적인 에이전트 작업을 위해서는 여전히 외부 메모리가 필요합니다.
  • 벤치마크를 검증하세요. 전체 시스템을 전환하기 전에 제3자 테스트 결과를 기다려야 합니다.
  • 데이터 프라이버시. MiniMax는 상하이에 기반을 두고 있습니다. 민감한 데이터를 다룬다면 이 점을 고려하십시오.

출처: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi