DeepSeek推出DSpark：投机采样重回焦点，大模型推理无损加速

在过去两三年中，投机采样（Speculative Decoding）一直是一项“几乎已准备好用于生产”的技术。其核心原理非常直截了当：由一个较小的草稿模型（Draft Model）提出 Token，再由一个较大的目标模型在单次前向传播中进行验证。理论上，这种方式能带来 2 到 4 倍的吞吐量提升；但在实际应用中，草稿模型既要足够廉价快速，又要精准模仿目标模型的分布，这在工程实现上是一项极大的挑战。

近日，来自 DeepSeek 的一篇新论文悄然登上了 Hacker News 的榜首。这项名为 DSpark 的技术重新定义了投机采样，使其有望从一种需要额外维护的“外挂式”方案，真正上演演变为大模型“即插即用”的内置原生功能。

传统方案需要从头训练并运行一个独立的辅助草稿模型，而 DSpark 的核心思想是直接将“投机头部”（Speculative Head）嫁接到目标模型上。其直觉逻辑在于：既然目标模型本身已经拥有预测下一个 Token 的丰富中间表示（Intermediate Representations），我们为什么不直接复用它，反而要去额外维护一个平行的网络？这种架构极大地减少了多模型维护所带来的层重复与显存占用。在 #DeepSeek 的实验中，该技术已成功在 Step 和 Qwen 3.6 等支持多Token预测（MTP）的模型上完成了验证。

Hacker News 的社区讨论指出，#DSpark 与多Token预测（MTP）并非替代关系，而是完美的互补组合。在 NVIDIA DGX Spark 等硬件上，通过辅助头部一次性预测多个未来 Token 的 MTP 技术已经实现了 50% 到 100% 的速度提升。DSpark 则在此之上更进一步：即使引入 MTP，验证步骤依然是在主模型中进行单次前向传播，那些被验证通过的投机 Token 相当于“免费”获取。更重要的是，投机采样的输出分布与目标模型完全一致，这种“无损”特性对于代码助手、结构化输出等容错率极低的场景至关重要。

此外，硬件的发展也为 DSpark 铺平了道路。投机采样的草稿模型开销主要受限于内存带宽。而在 NVIDIA H100 以及全新的 DGX Spark 等现代硬件上，计算与传输瓶颈被极大缓解，使得这一算法的工程落地的性价比达到了临界点。

AgentUpdate 深度解析

DSpark 的推出标志着大模型推理加速技术从“外部打补丁”向“架构原生融合”的重大跨越。对于 AI Agent 生态而言，高延迟一直是阻碍多步推理和复杂自主决策落地的核心瓶颈。Agent 在进行工具调用、API 组装和反思链条（Reflection Loops）时，极易因单个 Token 的微小偏差导致下游逻辑全面崩溃。DSpark 提供的“无损”加速不仅确保了 Agent 决策的绝对精确度，更通过将推理延迟降低数倍，使得复杂的实时多 Agent 协同（Multi-Agent Collaboration）和高频交互式推理成为可能。未来，这种原生集成投机头部的架构设计极有可能成为新一代 Agent 导向型大模型（Agent-native LLMs）的标准配置，进一步加速边缘端与云端 Agent 的无缝落地。

DeepSeek推出DSpark：投机采样重回焦点，大模型推理无损加速

推荐阅读

百度开源Unlimited OCR：连续解析整本书，刷新SOTA超越DeepSeek

DeepSeek发布DSpark加速框架，大模型生成速度暴涨85%

Kimi K2.7实测：构建缓存级OS遭遇“安全暗室”幻觉

相关工具与资源推荐

相关技能市场

Antigravity Awesome Skills

Awesome Agent Skills

Anthropic Agent Skills