DeepSeek发布DSpark加速框架，大模型生成速度暴涨85%

最近大规模招兵买马的 DeepSeek 始终没有忘记开源这条主线。今天，#DeepSeek 与北京大学团队联合发布论文，提出了一套全新的大模型推理加速框架 DSpark（基于置信度调度的半自回归推测解码）。

论文披露，#DSpark 已经进入 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务系统，并替代了此前的 MTP-1 方案。在线上真实用户流量中，在系统总吞吐水平相同的情况下，DSpark 将 Flash 模型的单用户生成速度提升了 60% 至 85%，Pro 模型的单用户速度也提升了 57% 至 78%。

天下苦 AI “蹦字”久矣。主流语言模型在生成文本时基本采用 autoregressive（自回归）方式，每生成一个新 token 都需要前向计算。对于多轮 AI Agent 工作流或代码助手这类高交互场景，生成速度慢会直接摧毁用户体验。而传统的推测解码（speculative decoding）引入 draft model（草稿模型）和 target model（目标模型）来并行验证，虽然方向正确，但已有方案仍有明显限制。

第一类自回归草稿模型生成慢，而第二类并行草稿模型又容易出现 suffix decay（后缀衰减）。例如，模型面对上下文时可能产生 “of course” 或 “no problem” 两种续写，并行模型由于缺乏依赖关系，极易混淆成 “of problem” 这样前后不一致的组合。此外，在高并发服务中，不加选择地验证所有 token 容易浪费 batch capacity（批处理容量）。

DSpark 的核心突破在于两点：一是采用 semi-autoregressive architecture（半自回归架构），保留并行主干的同时引入轻量级的 Markov head 来建模相邻 token 的转移关系，保证前后连贯。二是引入 confidence-scheduled verification（基于置信度调度的验证），通过硬件感知前缀调度器，结合系统负载与置信度分数动态决定验证长度，实现资源的最优分配。

AgentUpdate 深度解析

DSpark 的推出不仅是推理加速技术的又一次突破，更是对 AI Agent 生态演进的关键赋能。在复杂的 Agent 工作流中，智能体通常需要进行多轮、长时间的自反思（Self-Reflection）与规划，传统自回归模型高昂的延迟直接制约了 Agent 的实时响应能力和多步骤决策的可行性。相比于传统推测解码，DSpark 通过半自回归架构与硬件感知调度的结合，在保证高并发吞吐的同时，极大降低了单次交互的延迟。这种“既快又准”的推理特性，将使高频调用、长上下文处理和高交互式的 Agent 应用（如协同代码助手、实时语音助理及自主式工作流）从理论走向大规模实用，显著降低了运行多 Agent 协同系统的计算资源门槛。

DeepSeek发布DSpark加速框架，大模型生成速度暴涨85%

推荐阅读

AI 遗忘症有解！OKF 格式为 Claude Code 打造持久记忆

算力告急！谷歌限制Meta使用Gemini，大厂AI算力争夺战白热化

百度开源Unlimited OCR：连续解析整本书，刷新SOTA超越DeepSeek