在过去两三年中,投机采样(Speculative Decoding)一直是一项“几乎已准备好用于生产”的技术。其核心原理非常直截了当:由一个较小的草稿模型(Draft Model)提出 Token,再由一个较大的目标模型在单次前向传播中进行验证。理论上,这种方式能带来 2 到 4 倍的吞吐量提升;但在实际应用中,草稿模型既要足够廉价快速,又要精准模仿目标模型的分布,这在工程实现上是一项极大的挑战。
近日,来自 DeepSeek 的一篇新论文悄然登上了 Hacker News 的榜首。这项名为 DSpark 的技术重新定义了投机采样,使其有望从一种需要额外维护的“外挂式”方案,真正上演演变为大模型“即插即用”的内置原生功能。
传统方案需要从头训练并运行一个独立的辅助草稿模型,而 DSpark 的核心思想是直接将“投机头部”(Speculative Head)嫁接到目标模型上。其直觉逻辑在于:既然目标模型本身已经拥有预测下一个 Token 的丰富中间表示(Intermediate Representations),我们为什么不直接复用它,反而要去额外维护一个平行的网络?这种架构极大地减少了多模型维护所带来的层重复与显存占用。在 #DeepSeek 的实验中,该技术已成功在 Step 和 Qwen 3.6 等支持多Token预测(MTP)的模型上完成了验证。
Hacker News 的社区讨论指出,#DSpark 与多Token预测(MTP)并非替代关系,而是完美的互补组合。在 NVIDIA DGX Spark 等硬件上,通过辅助头部一次性预测多个未来 Token 的 MTP 技术已经实现了 50% 到 100% 的速度提升。DSpark 则在此之上更进一步:即使引入 MTP,验证步骤依然是在主模型中进行单次前向传播,那些被验证通过的投机 Token 相当于“免费”获取。更重要的是,投机采样的输出分布与目标模型完全一致,这种“无损”特性对于代码助手、结构化输出等容错率极低的场景至关重要。
此外,硬件的发展也为 DSpark 铺平了道路。投机采样的草稿模型开销主要受限于内存带宽。而在 NVIDIA H100 以及全新的 DGX Spark 等现代硬件上,计算与传输瓶颈被极大缓解,使得这一算法的工程落地的性价比达到了临界点。
DSpark 的推出标志着大模型推理加速技术从“外部打补丁”向“架构原生融合”的重大跨越。对于 AI Agent 生态而言,高延迟一直是阻碍多步推理和复杂自主决策落地的核心瓶颈。Agent 在进行工具调用、API 组装和反思链条(Reflection Loops)时,极易因单个 Token 的微小偏差导致下游逻辑全面崩溃。DSpark 提供的“无损”加速不仅确保了 Agent 决策的绝对精确度,更通过将推理延迟降低数倍,使得复杂的实时多 Agent 协同(Multi-Agent Collaboration)和高频交互式推理成为可能。未来,这种原生集成投机头部的架构设计极有可能成为新一代 Agent 导向型大模型(Agent-native LLMs)的标准配置,进一步加速边缘端与云端 Agent 的无缝落地。