MiniMax M3: 긴 컨텍스트를 처리하는 새로운 방법

Translated for your language. Read the original.

AI-assisted draft.

3일 전2min read

MiniMax M3: 긴 컨텍스트를 처리하는 새로운 방법

MiniMax M3는 상하이에서 개발된 새로운 멀티모달 모델입니다. 100만 토큰의 컨텍스트 창을 특징으로 합니다. 대부분의 모델은 이 정도 길이에 이르면 속도가 너무 느려지고 비용이 많이 발생합니다. MiniMax M3는 이를 해결하기 위해 MiniMax Sparse Attention (MSA)라는 새로운 방식을 사용합니다.

MSA 작동 방식:

• 인덱스 브랜치(Index branch): 빠른 패스를 통해 데이터에서 가장 관련성이 높은 부분을 찾아냅니다. • 스파스 브랜치(Sparse branch): 모델은 해당 특정 부분만 살펴봅니다. • 메모리 효율성: 쿼리를 그룹화하여 GPU 메모리 병목 현상을 방지합니다.

이를 통해 이전 버전과 비교했을 때 데이터 처리 속도는 9배, 텍스트 생성 속도는 15배 빨라졌습니다.

성능 점수:

• SWE-Bench Pro: 59.0% • Terminal-Bench 2.1: 66.0% • BrowseComp: 83.5% • KernelBench Hard: 28.8% • MCP Atlas: 74.2%

SWE-Bench Pro 점수는 GPT-5.5 및 Gemini 3.1 Pro보다 높습니다. 하지만 Claude Opus 4.8이 69.2%로 여전히 앞서고 있습니다. MiniMax가 자체 하드웨어에서 이 테스트를 수행했다는 점에 유의해야 합니다.

기술적 세부 사항:

M3는 텍스트, 이미지, 비디오를 함께 학습했습니다. 데스크톱 컴퓨터를 조작할 수 있습니다. 테스트에서 NVIDIA 하드웨어의 CUDA 커널을 최적화하기도 했습니다.

M3는 세 가지 방식으로 사용할 수 있습니다:

MiniMax Platform API: 기존 OpenAI 코드로 작동합니다.
OpenRouter: MiniMax 계정을 직접 만들고 싶지 않은 경우에 좋습니다.
셀프 호스팅(Self-hosting): MSA 아키텍처를 위해 vLLM 또는 SGLang 지원이 필요합니다.

가격:

비용은 입력 토큰 100만 개당 $0.60, 출력 토큰 100만 개당 $2.40입니다. 출시 할인 혜택을 적용하면 이 가격은 각각 $0.30와 $1.20로 낮아집니다. 이는 Claude Opus보다 훨씬 저렴합니다.

기억해야 할 세 가지:

컨텍스트는 메모리가 아닙니다. 장기적인 에이전트 작업을 위해서는 여전히 외부 메모리가 필요합니다.
벤치마크를 검증하세요. 전체 시스템을 전환하기 전에 제3자 테스트 결과를 기다려야 합니다.
데이터 프라이버시. MiniMax는 상하이에 기반을 두고 있습니다. 민감한 데이터를 다룬다면 이 점을 고려하십시오.

출처: https://dev.to/prabhakar_chaudhary_7afe4/minimax-m3-what-a-1m-token-open-weight-model-with-sparse-attention-actually-means-for-developers-i1i

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi

MiniMax M3: 긴 컨텍스트를 처리하는 새로운 방법

Continue reading

𝗖𝗛𝗜𝗡𝗔'𝗦 𝗖𝗢𝗗𝗜𝗡𝗚 𝗔𝗜 𝗜𝗦 𝗖𝗟𝗢𝗦𝗜𝗡𝗚 𝗧𝗛𝗘 𝗚𝗔𝗣 𝗙𝗔𝗦𝗧

𝗠𝗶𝗰𝗿𝗼𝘀𝗼𝗳𝘁 𝗥𝗲𝗹𝗲𝗮𝘀𝗲𝘀 𝗠𝗔𝗜 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴 𝟭

MCP 컨텍스트 세금

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹