MiniMax发布M3大模型：凭稀疏注意力攻克百万上下文与编程极限

2026年6月1日，总部位于上海的 AI 实验室 MiniMax 正式发布了 M3 模型。这是全球首个同时提供三大前沿能力的开源权重模型：在 SWE-Bench Pro 测试中取得 59.0% 的成绩（微弱超越 GPT-5.5 的 58.6%）、支持 100万 token 的超长上下文窗口，并原生支持文本、图像与视频的多模态输入。这一创举的幕后推手是其自主研发的 MiniMax 稀疏注意力机制（MSA），该技术在计算上让百万上下文的推理变得切实可行。

传统的 Softmax 注意力机制的计算复杂度随着上下文长度呈二次方（O(n²)）增长，这意味着上下文翻倍，计算量将暴增四倍。在处理 100 万 token 时，单次前向传播在现有硬件上几乎无法实现。为了打破这一瓶颈，行业此前探索了 KV 缓存压缩、线性注意力变体等方案，但都伴随着精度折损。而 MSA 另辟蹊径：它不关注所有 token，而是只识别对每次查询最关键的少数 token 并对其进行计算。随着瑞士的 Apertus 70B 等其他开源模型同样面临尺度扩展定律的制约，这一突破具有深远的行业意义。

MSA 的工作原理分为两阶段块选择（Two-Stage Block Selection）。首先，索引分支（Index Branch）将 KV 缓存划分为 128-token 的分块，并为每个 GQA（分组查询注意力）组筛选出最相关的 16 个分块。这种特定于组的稀疏性是 MSA 区别于传统均匀稀疏方法的关键。随后，主分支（Main Branch）仅对这约 2,048 个 KV token 进行精确的注意力计算。无论上下文多长，这个计算预算都是固定的，从而实现了亚二次方（sub-quadratic）的计算扩展，使计算量在 1M 上下文时降低了 28.4倍。

为了将算法的稀疏性转化为实际的 GPU 加速，#MiniMax 团队还深度定制了底层硬件算子。他们构建了一个自定义内核，实现了无指数项的 top-k 选择、外层 KV 稀疏注意力（将需要相同块的查询进行批处理）以及连续内存访问，确保每个数据块仅被读取一次。这使 MSA 成为与 DeepSeek 的 MLA（多头潜变量注意力）截然不同的架构分叉。DeepSeek 倾向于通过低秩投影压缩 KV 数据，而 MiniMax 则是从物理上过滤掉非核心的 Token 节点。

在商业化层面，M3 的 API 定价极其激进，促销期仅为每百万输入 token 0.30 美元，仅为 GPT-5.5 和 Claude 4.8 Opus（约 5.00 美元）的 5% 到 10%。不过，开发者仍需注意：目前其基准测试多为官方自测，且开源许可证限制了商业化自托管，同时该模型在抽象推理上仍有局限。

AgentUpdate 深度解析

MiniMax M3 的发布以及其核心的 MSA 架构，为 AI Agent 生态的技术演进提供了一条极具启发性的新路径。在复杂的 Agent 工作流中，超长上下文（如多模态项目代码库或数小时的视频交互历史）是决定 Agent 规划和反思能力的物理基石。以往，高昂的二次方计算成本使得多轮高频的 Agent 迭代难以为继。M3 通过 MSA 机制，在硬件层面和算法层面双管齐下，用极低的推理成本（低至竞品 5%）支撑起百万级上下文，这在本质上是在为“高频长思考型 Agent”铺平道路。横向对比 DeepSeek 的 MLA 压缩方案，MSA 提供了更直接的物理级别上下文过滤，使得 Agent 在检索海量记忆和多模态异构输入时精度受损更小。这种高性价比、长上下文、原生的多模态能力，将极大加速自动驾驶、多模态软件工程、长视频分析等复杂 Agent 场景的工程落地，标志着 Agent 的运行成本瓶颈正在被底层硬核创新彻底打破。

MiniMax发布M3大模型：凭稀疏注意力攻克百万上下文与编程极限

推荐阅读

亚马逊云科技发力：看小鹏、Kimi如何将AI Agent落地生产

开源大模型GLM-5.2发布：性能媲美闭源，引爆Agent生态

OpenAI 联合推“拯救地球”计划：用 AI 自动修补开源漏洞

相关工具与资源推荐

相关技能市场

Awesome OpenClaw Skills