多做一步反而更快:DSpark 让 DeepSeek V4 单用户生成速度提升 85%
- DeepSeek 发布 DSpark,一套专为 DeepSeek-V4 设计的投机解码加速框架
- 相比已在生产中使用的 MTP-1 基线,单用户生成速度提升 60–85%(DeepSeek 自评数据)
- 核心机制:轻量草稿模块超前猜测多个词,主模型批量验证,猜对即全部采纳
- 关键改进:把草稿生成与主模型验证两步流水线化、并行执行,消掉串行等待
- 纯推理侧系统优化,模型权重不变,可直接接入现有 DeepSeek-V4 部署
DeepSeek 发布了什么,快了多少
DeepSeek 近日发布了 DSpark,一套针对 DeepSeek-V4 的投机解码加速框架,在已有 MTP-1 基线上将单用户生成速度再提升 60–85%。
真正的看点是「在哪个基线上快」。它不是跟「没有任何加速」比,而是跟 DeepSeek-V4 生产环境里已经在跑的 MTP-1 投机解码比。也就是在一套已经加过速的方案上,再榨出 60–85%。这是工程系统层面的二次提速,DeepSeek 称已用于 V4 的生产服务。
大模型为什么一个字一个字往外蹦
大模型生成文字,是一个词接一个词往外吐的。每吐一个词,都要把整个模型从头到尾算一遍(一次前向传播),拿到这个词,才能算下一个。
词和词之间是严格的先后关系:后一个依赖前一个,没法跳着算。算力再强也救不了你一个人的这句话,堆显卡能让模型同时服务更多人,但对单个用户,它还是只能一步一步来。一句话一百个词,就是一百次从头到尾的计算,排着队等。
但这里藏着一个能占便宜的缝。让模型「验证」好几个已经写好的词,和让它「生成」一个新词,花的算力几乎一样多。生成卡在一步一步的依赖上,验证却可以一口气并行核对一整批。
必须等前一个词出来,一次完整前向只换回一个词。贵,且只能串行。
把这一批一次性喂进去并行核对,算力 ≈ 一次前向。一口气检查一整串。
投机解码,就是从这条缝里钻进去的。
先猜一批,再一次性确认
投机解码的思路反常识:与其让大模型老老实实一个一个写,不如先找个跑得飞快的「草稿员」,一口气猜出后面好几个词,再让大模型一次性验证这一批猜得对不对。
验证 K 个词的成本 ≈ 生成 1 个词。所以只要草稿员猜得够准,主模型每做一次验证,就能一口气确认好几个词,相当于把好几步并成了一步。多了「猜」这道工序,总时间反而更短。
草稿员是谁,怎么算它猜得准
这个「草稿员」不是另找的小模型,而是 DeepSeek 模型训练时就挂上的一个附加模块,叫 MTP(多词预测)头。它很轻,能同时预测接下来好几个词的概率,跑起来比主模型快得多,天生就适合干「快速打草稿」这活儿。
草稿员猜的词,被主模型认可的比例叫接受率草稿头猜的词被主模型验证后认可的占比。它取决于草稿头和主模型的分布有多接近,接受率越高,每轮净赚的有效词越多。。接受率越高,每轮验证净赚的词越多,速度提升越大。它取决于草稿员和主模型「想到一块去」的程度。
改卷比出题快。一次批量出 K 道题,老师一起判,比一道题出完判完再出下一道,效率高很多。投机解码就是让快手草稿员批量「出题」,让大模型一次性「改卷」。
MTP-1 已经在用了,DSpark 又快在哪
MTP-1 是 DeepSeek-V4 生产环境里已经在跑的方案,它每轮只猜一步:猜一个,等主模型验完,再猜下一个。DSpark 在它基础上动了两刀。
草稿头一次往前多探几个词,单轮验证能确认的词更多。
把「猜」和「验」从排队改成流水线,上一批在验证时,下一批已经在猜。
60–85% 的提升,主要来自第二刀。MTP-1 里「猜完等验、验完再猜」之间有一段空等的窗口,两条流轮流闲着。DSpark 把这段窗口填上了:草稿流和验证流在时间轴上重叠跑,谁也不等谁。
汽车生产线。前一辆装轮子时,下一辆底盘已经在喷漆了,不会等前一辆全做完才动后一辆。DSpark 让 GPU 也这么干:上一批在验证的时候,下一批已经开始猜,机器不空转。
一轮推理,从猜到定下来
把上面拼起来,DSpark 一个完整循环是这样转的。
验证时从头往后比对:连续猜对的词全部采纳;一旦遇到第一个猜错的,就从这里截断。在出错的位置,主模型顺手给出它自己认为正确的那个词(这一个也白赚到手),错词后面草稿员继续猜的部分全部作废,下一轮从这个位置重新开始。
这一轮:4 个猜对的词 + 1 个主模型现场纠正的词,净赚 5 个词,只花了一次验证的成本。草稿员猜得越准,绿色越多、作废越少,整体就越快。
提速到底有多少
回到那个数字。在 MTP-1 这个已经加过速的基线上,DSpark 把单用户生成速度又抬高了 60 到 85%。
这组数字为 DeepSeek 自评,针对 DeepSeek-V4 生产环境。要注意的是对比的两端都已经是「加过速」的状态,区间本身就是在 MTP-1 之上再叠的增量。
这东西对谁有用
这是一个推理侧的系统优化,落地价值分在两头:用户和服务方。
对用户。你看到的是流式输出,回复一个字一个字蹦出来。生成速度变快,逐字显示的等待感跟着变轻,这是直接能感觉到的体验差别。
对服务方。DSpark 不改模型权重,现有的 DeepSeek-V4 部署可以直接接,迁移成本低。同一批显卡,要么扛住更高的并发,要么用更少的硬件达到原来的服务水准。
DeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60–85% Over MTP-1. 原文标题 · MarkTechPost / DeepSeek