最近大规模招兵买马的 DeepSeek 始终没有忘记开源这条主线。今天,#DeepSeek 与北京大学团队联合发布论文,提出了一套全新的大模型推理加速框架 DSpark(基于置信度调度的半自回归推测解码)。
论文披露,#DSpark 已经进入 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务系统,并替代了此前的 MTP-1 方案。在线上真实用户流量中,在系统总吞吐水平相同的情况下,DSpark 将 Flash 模型的单用户生成速度提升了 60% 至 85%,Pro 模型的单用户速度也提升了 57% 至 78%。
天下苦 AI “蹦字”久矣。主流语言模型在生成文本时基本采用 autoregressive(自回归)方式,每生成一个新 token 都需要前向计算。对于多轮 AI Agent 工作流或代码助手这类高交互场景,生成速度慢会直接摧毁用户体验。而传统的推测解码(speculative decoding)引入 draft model(草稿模型)和 target model(目标模型)来并行验证,虽然方向正确,但已有方案仍有明显限制。
第一类自回归草稿模型生成慢,而第二类并行草稿模型又容易出现 suffix decay(后缀衰减)。例如,模型面对上下文时可能产生 “of course” 或 “no problem” 两种续写,并行模型由于缺乏依赖关系,极易混淆成 “of problem” 这样前后不一致的组合。此外,在高并发服务中,不加选择地验证所有 token 容易浪费 batch capacity(批处理容量)。
DSpark 的核心突破在于两点:一是采用 semi-autoregressive architecture(半自回归架构),保留并行主干的同时引入轻量级的 Markov head 来建模相邻 token 的转移关系,保证前后连贯。二是引入 confidence-scheduled verification(基于置信度调度的验证),通过硬件感知前缀调度器,结合系统负载与置信度分数动态决定验证长度,实现资源的最优分配。
DSpark 的推出不仅是推理加速技术的又一次突破,更是对 AI Agent 生态演进的关键赋能。在复杂的 Agent 工作流中,智能体通常需要进行多轮、长时间的自反思(Self-Reflection)与规划,传统自回归模型高昂的延迟直接制约了 Agent 的实时响应能力和多步骤决策的可行性。相比于传统推测解码,DSpark 通过半自回归架构与硬件感知调度的结合,在保证高并发吞吐的同时,极大降低了单次交互的延迟。这种“既快又准”的推理特性,将使高频调用、长上下文处理和高交互式的 Agent 应用(如协同代码助手、实时语音助理及自主式工作流)从理论走向大规模实用,显著降低了运行多 Agent 协同系统的计算资源门槛。