产品发布 · 小互解读

多做一步反而更快:DSpark 让 DeepSeek V4 单用户生成速度提升 85%

在已有 MTP-1 投机解码基础上再快 60–85%,靠草稿与验证流水线重叠执行(数据为 DeepSeek 自评)
速览
  • DeepSeek 发布 DSpark,一套专为 DeepSeek-V4 设计的投机解码加速框架
  • 相比已在生产中使用的 MTP-1 基线,单用户生成速度提升 60–85%(DeepSeek 自评数据)
  • 核心机制:轻量草稿模块超前猜测多个词,主模型批量验证,猜对即全部采纳
  • 关键改进:把草稿生成与主模型验证两步流水线化、并行执行,消掉串行等待
  • 纯推理侧系统优化,模型权重不变,可直接接入现有 DeepSeek-V4 部署
立场提示:这是 DeepSeek 发布的自家加速框架,60–85% 的提速为官方自评数据,针对 DeepSeek-V4 生产环境,未见第三方独立复测。下文讲的是它怎么运作、快从哪来。
1是什么

DeepSeek 发布了什么,快了多少

DeepSeek 近日发布了 DSpark,一套针对 DeepSeek-V4 的投机解码加速框架,在已有 MTP-1 基线上将单用户生成速度再提升 60–85%。

DSpark 是纯推理侧的加速框架,不动模型权重,只改大模型「吐字」的方式,就让单个用户拿到回复的速度快了六到八成。

真正的看点是「在哪个基线上快」。它不是跟「没有任何加速」比,而是跟 DeepSeek-V4 生产环境里已经在跑的 MTP-1 投机解码比。也就是在一套已经加过速的方案上,再榨出 60–85%。这是工程系统层面的二次提速,DeepSeek 称已用于 V4 的生产服务。

2瓶颈

大模型为什么一个字一个字往外蹦

大模型生成文字,是一个词接一个词往外吐的。每吐一个词,都要把整个模型从头到尾算一遍(一次前向传播),拿到这个词,才能算下一个。

词和词之间是严格的先后关系:后一个依赖前一个,没法跳着算。算力再强也救不了你一个人的这句话,堆显卡能让模型同时服务更多人,但对单个用户,它还是只能一步一步来。一句话一百个词,就是一百次从头到尾的计算,排着队等。

词 1前向 ①
词 2前向 ②
词 3前向 ③
词 4前向 ④
词 5前向 ⑤

但这里藏着一个能占便宜的缝。让模型「验证」好几个已经写好的词,和让它「生成」一个新词,花的算力几乎一样多。生成卡在一步一步的依赖上,验证却可以一口气并行核对一整批。

生成 1 个新词

必须等前一个词出来,一次完整前向只换回一个词。贵,且只能串行。

验证 K 个已写好的词

把这一批一次性喂进去并行核对,算力 ≈ 一次前向。一口气检查一整串。

投机解码,就是从这条缝里钻进去的。

3核心机制

先猜一批,再一次性确认

投机解码的思路反常识:与其让大模型老老实实一个一个写,不如先找个跑得飞快的「草稿员」,一口气猜出后面好几个词,再让大模型一次性验证这一批猜得对不对。

草稿头 MTP,很轻 猜得飞快 ① 一口气猜 K 个 猜1 猜2 猜3 猜4 猜5 主模型 一次验完 ② 一次前向全验 验证这一整批的算力 ≈ 生成 1 个词
草稿头先猜出 K 个候选词(猜 1 到猜 5),主模型一次前向把这一批全部验证。验证一批的成本,和它自己生成一个词差不多。
核心直觉

验证 K 个词的成本 生成 1 个词。所以只要草稿员猜得够准,主模型每做一次验证,就能一口气确认好几个词,相当于把好几步并成了一步。多了「猜」这道工序,总时间反而更短。

草稿员是谁,怎么算它猜得准

这个「草稿员」不是另找的小模型,而是 DeepSeek 模型训练时就挂上的一个附加模块,叫 MTP(多词预测)头。它很轻,能同时预测接下来好几个词的概率,跑起来比主模型快得多,天生就适合干「快速打草稿」这活儿。

草稿员猜的词,被主模型认可的比例叫接受率草稿头猜的词被主模型验证后认可的占比。它取决于草稿头和主模型的分布有多接近,接受率越高,每轮净赚的有效词越多。。接受率越高,每轮验证净赚的词越多,速度提升越大。它取决于草稿员和主模型「想到一块去」的程度。

打个比方

改卷比出题快。一次批量出 K 道题,老师一起判,比一道题出完判完再出下一道,效率高很多。投机解码就是让快手草稿员批量「出题」,让大模型一次性「改卷」。

4DSpark 改了什么

MTP-1 已经在用了,DSpark 又快在哪

MTP-1 是 DeepSeek-V4 生产环境里已经在跑的方案,它每轮只猜一步:猜一个,等主模型验完,再猜下一个。DSpark 在它基础上动了两刀。

改进一
多猜几步

草稿头一次往前多探几个词,单轮验证能确认的词更多。

改进二
猜和验同时跑

把「猜」和「验」从排队改成流水线,上一批在验证时,下一批已经在猜。

提速主来源

60–85% 的提升,主要来自第二刀。MTP-1 里「猜完等验、验完再猜」之间有一段空等的窗口,两条流轮流闲着。DSpark 把这段窗口填上了:草稿流和验证流在时间轴上重叠跑,谁也不等谁。

MTP-1:猜完等验,两条流轮流空转 草稿 验证 空等 MTP-1 完成 → DSpark:猜验重叠,两条流都不停 草稿 验证 回滚 DSpark 完成 → ↓ 这段省下来了 时间 → 草稿 验证 采纳 回滚点
上半 MTP-1:草稿和验证轮流上场,一条流干活时另一条在空等(虚线框)。下半 DSpark:草稿流连续往前探、验证流连续核对,两条流时间轴上重叠,没有空窗。同样工作量,DSpark 提前一截就完成。
打个比方

汽车生产线。前一辆装轮子时,下一辆底盘已经在喷漆了,不会等前一辆全做完才动后一辆。DSpark 让 GPU 也这么干:上一批在验证的时候,下一批已经开始猜,机器不空转。

5完整循环

一轮推理,从猜到定下来

把上面拼起来,DSpark 一个完整循环是这样转的。

草稿头猜 K 个词很快
主模型一次验证一次前向
按接受率比对对到哪算哪
命中留下 / 错处回滚截断重来
↻ 回到第一步,进入下一轮(草稿与验证流水线重叠)

验证时从头往后比对:连续猜对的词全部采纳;一旦遇到第一个猜错的,就从这里截断。在出错的位置,主模型顺手给出它自己认为正确的那个词(这一个也白赚到手),错词后面草稿员继续猜的部分全部作废,下一轮从这个位置重新开始。

词1✓ 猜对
词2✓ 猜对
词3✓ 猜对
词4✓ 猜对
词5主模型纠正
词6作废
词7作废

这一轮:4 个猜对的词 + 1 个主模型现场纠正的词,净赚 5 个词,只花了一次验证的成本。草稿员猜得越准,绿色越多、作废越少,整体就越快。

6数字

提速到底有多少

回到那个数字。在 MTP-1 这个已经加过速的基线上,DSpark 把单用户生成速度又抬高了 60 到 85%。

MTP-1 基线DeepSeek-V4 生产环境里已经在用的单步投机解码方案,作为对比基准(100%)。
100%
DSpark(区间低端)相对 MTP-1 提速约 60%,对应速度约为基线的 1.6 倍。
160%
DSpark(区间高端)相对 MTP-1 提速约 85%,对应速度约为基线的 1.85 倍。
185%
60–85%
DSpark 相对 MTP-1 基线的单用户生成速度提升区间
MTP-1
对比基线:V4 生产中已用的单步投机解码方案
V4
DSpark 的目标模型 DeepSeek-V4

这组数字为 DeepSeek 自评,针对 DeepSeek-V4 生产环境。要注意的是对比的两端都已经是「加过速」的状态,区间本身就是在 MTP-1 之上再叠的增量。

7落地价值

这东西对谁有用

这是一个推理侧的系统优化,落地价值分在两头:用户和服务方。

对用户。你看到的是流式输出,回复一个字一个字蹦出来。生成速度变快,逐字显示的等待感跟着变轻,这是直接能感觉到的体验差别。

对服务方。DSpark 不改模型权重,现有的 DeepSeek-V4 部署可以直接接,迁移成本低。同一批显卡,要么扛住更高的并发,要么用更少的硬件达到原来的服务水准。

DeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60–85% Over MTP-1. 原文标题 · MarkTechPost / DeepSeek
来源:MarkTechPost / DeepSeek。本文为厂商发布内容的解读,60–85% 提速为 DeepSeek 自评数据,针对 DeepSeek-V4 生产环境。文中时序图为机制示意,非真实跑分比例。