SOURCE // NEWS

MiniMax发布M3大模型:凭稀疏注意力攻克百万上下文与编程极限

MiniMax发布M3大模型:凭稀疏注意力攻克百万上下文与编程极限

2026年6月1日,总部位于上海的 AI 实验室 MiniMax 正式发布了 M3 模型。这是全球首个同时提供三大前沿能力的开源权重模型:在 SWE-Bench Pro 测试中取得 59.0% 的成绩(微弱超越 GPT-5.5 的 58.6%)、支持 100万 token 的超长上下文窗口,并原生支持文本、图像与视频的多模态输入。这一创举的幕后推手是其自主研发的 MiniMax 稀疏注意力机制(MSA),该技术在计算上让百万上下文的推理变得切实可行。

传统的 Softmax 注意力机制的计算复杂度随着上下文长度呈二次方(O(n²))增长,这意味着上下文翻倍,计算量将暴增四倍。在处理 100 万 token 时,单次前向传播在现有硬件上几乎无法实现。为了打破这一瓶颈,行业此前探索了 KV 缓存压缩、线性注意力变体等方案,但都伴随着精度折损。而 MSA 另辟蹊径:它不关注所有 token,而是只识别对每次查询最关键的少数 token 并对其进行计算。随着瑞士的 Apertus 70B 等其他开源模型同样面临尺度扩展定律的制约,这一突破具有深远的行业意义。

MSA 的工作原理分为两阶段块选择(Two-Stage Block Selection)。首先,索引分支(Index Branch)将 KV 缓存 划分为 128-token 的分块,并为每个 GQA(分组查询注意力)组筛选出最相关的 16 个分块。这种特定于组的稀疏性是 MSA 区别于传统均匀稀疏方法的关键。随后,主分支(Main Branch)仅对这约 2,048 个 KV token 进行精确的注意力计算。无论上下文多长,这个计算预算都是固定的,从而实现了亚二次方(sub-quadratic)的计算扩展,使计算量在 1M 上下文时降低了 28.4倍

为了将算法的稀疏性转化为实际的 GPU 加速,#MiniMax 团队还深度定制了底层硬件算子。他们构建了一个自定义内核,实现了无指数项的 top-k 选择、外层 KV 稀疏注意力(将需要相同块的查询进行批处理)以及连续内存访问,确保每个数据块仅被读取一次。这使 MSA 成为与 DeepSeek 的 MLA(多头潜变量注意力) 截然不同的架构分叉。DeepSeek 倾向于通过低秩投影压缩 KV 数据,而 MiniMax 则是从物理上过滤掉非核心的 Token 节点。

在商业化层面,M3 的 API 定价极其激进,促销期仅为每百万输入 token 0.30 美元,仅为 GPT-5.5Claude 4.8 Opus(约 5.00 美元)的 5% 到 10%。不过,开发者仍需注意:目前其基准测试多为官方自测,且开源许可证限制了商业化自托管,同时该模型在抽象推理上仍有局限。

AgentUpdate 深度解析

MiniMax M3 的发布以及其核心的 MSA 架构,为 AI Agent 生态的技术演进提供了一条极具启发性的新路径。在复杂的 Agent 工作流中,超长上下文(如多模态项目代码库或数小时的视频交互历史)是决定 Agent 规划和反思能力的物理基石。以往,高昂的二次方计算成本使得多轮高频的 Agent 迭代难以为继。M3 通过 MSA 机制,在硬件层面和算法层面双管齐下,用极低的推理成本(低至竞品 5%)支撑起百万级上下文,这在本质上是在为“高频长思考型 Agent”铺平道路。横向对比 DeepSeek 的 MLA 压缩方案,MSA 提供了更直接的物理级别上下文过滤,使得 Agent 在检索海量记忆和多模态异构输入时精度受损更小。这种高性价比、长上下文、原生的多模态能力,将极大加速自动驾驶、多模态软件工程、长视频分析等复杂 Agent 场景的工程落地,标志着 Agent 的运行成本瓶颈正在被底层硬核创新彻底打破。