研究解读 · 小互解读

Wan Streamer:边听边看边说话的实时 AI

模型侧响应约 200ms、总延迟约 550ms;v0.1 仅 192p,演示为预录非实时体验。
速览
  • Wan Streamer v0.1 是一个原生流式、端到端的交互式基础模型,在同一个 Transformer 里同时把语言、音频、视频当作输入和输出来建模,靠 block-causal attention(块状因果注意力)协调,边来边算地流式生成。
  • 模型自己算一段回应大约 200ms,加上 350ms 的双向网络延迟,总交互延迟约 550ms;25fps 下,最短的流式处理单元只有 160ms。
  • 官方称它是唯一能用单个端到端 Transformer 输出同步音视频、且总延迟压在 1 秒内的模型;现有系统要么只出语音(GPT-4o Realtime、豆包、Gemini Live),要么靠 ASR+LLM+TTS+动画 一串模块拼接。
  • 当前 v0.1 分辨率只有 192p,定位是端到端设计的概念验证;放出来的角色演示都是未经剪辑的预录模型输出,不是在线实时体验。
  • 对比图里的延迟数字混了不同测量口径:上方一组是端到端交互闭环,下方一组只算渲染阶段(不含外部 LLM/ASR/TTS),官方提示要按注释打折看。
这是 Wan Streamer 官方发布页(厂商通稿)。文中的延迟、能力对比、「唯一」等定位措辞都出自官方,部分对比数字混合了不同测量边界。本文把官方原话归到「确认」,把定位措辞、混合口径、未验证的预测归到文末「辨真伪」逐条标注。
1这是什么

一个模型跑通实时音视频对话

能实时对话的 AI 现在不少,但能一边看你的脸、一边听你说话、一边开口回应,自己还自带一张会动的脸的,几乎没有。Wan Streamer v0.1 把这件事压进了一个模型里。

它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出,做到亚秒级的全双工音视频对话:模型自己算出一段回应大约只要 200 毫秒,加上网络往返后总延迟约 550 毫秒。

为什么值得看:现在能实时对话的系统分两类,一类响应快但只出声音、没有可见的脸(GPT-4o Realtime、豆包、Gemini Live),另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。

~200 ms
模型侧响应延迟(官方报告)
~550 ms
总交互延迟=200ms 模型侧+350ms 网络
160 ms
25fps 下最短的流式处理单元
192p
v0.1 分辨率,端到端设计的概念验证
总延迟 550ms 拆开看
模型侧 200ms
双向网络 350ms
模型本身只占 200ms,剩下 350ms 是网络往返。也就是说,纯模型的反应速度比读出来的总延迟更快。
2先看效果

四段角色演示 + 实时录屏

下面四段演示都出自同一个模型,只是换了人物、声音和场景。先看效果,再讲原理。

看之前先说清楚:这些都是未经剪辑的预录模型输出,不是在线实时体验;当前 v0.1 分辨率只有 192p,用来验证端到端设计是否跑得通。官方称后续扩到更高分辨率较容易,但那是计划,不是 v0.1 已实现的。
中文 · 暖色室内视频通话。聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。来源:Wan Streamer 官方 demo
中文 · 明亮白色室内。聊 CP、娱乐圈八卦、周星驰《功夫》,最后模仿经典笑容。轻松愉快女声。来源:Wan Streamer 官方 demo
英文 · 车内近景。女生说自己很累,感谢对方耐心陪伴。疲惫真诚女声。来源:Wan Streamer 官方 demo
英文 · 浅色室内近景。聊无意识刷手机、自动化习惯、关掉通知。自然女声。来源:Wan Streamer 官方 demo

下面这段不一样:是一次真实联网对话的屏幕录制,能看到完整的实时回应链路。

真实联网对话录屏:左边是本地用户画面,右边是 AI Agent 实时回应,下方同步滚动文本流。视频已为网页压缩。来源:Wan Streamer 官方
3旧办法卡在哪

旧办法为什么慢:一道道接力,每步都在等

旧办法慢,是因为它们是一串独立模型拼起来的流水线:语音先转成文字(ASR),文字喂给语言模型想答案(LLM),答案再合成语音(TTS),最后驱动一张脸动起来(动画渲染)。每过一道工序都要等上一道交货,等待时间一段段累加,识别和口型对不齐的误差也一路累积。

旧办法 · 级联流水线
音视频输入
等待
ASR 识别
等待
LLM 想答案
等待
TTS 合成语音
等待
动画/渲染
输出
每个箭头都是一次等待+一次误差累积;模块之间靠文字当中转桥;多数系统只出语音,或者把一张脸勉强拼出来,且不报告端到端时延。
Wan Streamer · 端到端单模型
音视频输入
一个 Transformer
感知 · 推理 · 规划 · 生成 一起做
同步音视频输出
没有接缝,等待时间坍缩;轮次管理、被打断、长程一致性,作为一个连贯行为一起学出来。
打个比方

端到端像一个人自己听完直接开口;级联像传话游戏,每过一手都慢一拍,还可能把话传错。中间那层把语音/视频先转成文字、再用文字去驱动下游,文字就是各模块之间隐藏的中转桥传统级联里文本是独立训练的几个模块之间的中间表示。Wan Streamer 不要这个中间桥,模态之间直接耦合。,桥越多越慢、越容易错。

原文给这件事下了一个判断:实时音视频交互不是「多模态理解」加「多模态生成」的简单相加,它本质上是全双工的,所以可流式性是一种建模约束,而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统,光靠工程调优也补不出真正的低延迟全双工。这正是下一节要拆的核心。

4核心创新

它的办法:一个模型从听到说全包了

Wan Streamer 的内核只有一句话:把视觉、音频、文本的输入 token 和输出 token,交错排成同一条序列,交给一个 Transformer 处理;用 block-causal attention 协调,让它边来边算地往外吐。

Hero · 共同根源

单个端到端 Transformer 取消了外部的 VAD、ASR、语言模型、TTS、动画、视频生成等模块,把感知、推理、回应规划、语音与视觉生成、响应时机、轮次管理全放进同一个持久状态里联合优化。低延迟、全双工、同步音视频这三件事,根都在这里。

块间注意力 · 只指向过去的块 块内双向 块 1 · 160ms 块 2 · 160ms 块 3 · 160ms 块 4 · 160ms 输入与输出 token 交错在同一条序列里 →
视觉 token音频 token文本 token

模型把交互看成一条连续的因果流:你的观测和它的回应,一起更新当前上下文。每个流式单元里,它编码当前能拿到的用户观测,再根据双方完整的因果历史预测下一段回应。语言回应是一串离散 token,用 next-token 预测训练;音频和视频回应活在连续的 latent 空间里,用条件 flow matching 联合生成,以同一份干净上下文为条件,让语音、动作、外观、场景演化作为一个耦合整体一起去噪,而不是各生成各的再拼。

Wan Streamer framework
Wan Streamer 总体框架:语言、音频、视频在同一个 Transformer 里同时作为输入与输出建模,由 block-causal attention 协调,边来边算地流式生成。来源:Wan Streamer 官方

为了撑住这条流,整栈从设计之初就是因果的:用于流式 latent 编码的严格因果音视频 VAE、因果音视频编码器、因果音视频解码器,以及由 block-causal attention 协调的时序因果 Transformer。去噪后,估计出的干净 latent 直接追加进历史,作为后续单元的上下文;因果解码器再把它们渲染成最终的音视频。被这套设计抹掉的外部模块是:

外部 VADASR 识别外部语言模型TTS 合成动画模块视频生成模块
5怎么做到边听边说

怎么做到边听边说、随时能打断

人和世界的交互天生是流式、全双工的:我们不是先听完、再单独想、最后才答,而是一边看一边听一边说、随时停顿和打断,感知和表达在音视频的时间尺度上重叠发生。实时交互模型也得长成这样。

Hero · 重写出的全双工

因果编码器+因果解码器+低延迟多模态 token 调度,让 25fps 下的流式单元短到 160ms:输入的语音视频立刻影响输出,生成的音频和视觉状态在解码之前就耦合好,而不是事后修补;每个吐出来的单元都写回交互历史。于是它能边听边说,你说话时它仍在听、被打断还能调整。

半双工(回合制)· 说完才能听
单通道
全双工 · 听和说重叠
感知
持续感知用户
回应
同步生成语音+视频+动作
重叠区就是关键:用户说话时智能体仍在听,所以能被打断、能即时调整;每个生成单元都写回交互历史,成为下一步的上下文。
全双工 · 打个比方

全双工像正常打电话:你能一边听对方说一边插话。对讲机那种「说完松手才能听」是半双工。

这套机制能成立,靠的是 block-causal attention。它把一小块(比如 160ms 的音视频片段)当成一个处理单位:块内部的 token 可以互相看(双向),但一个块只能看见过去的块、看不到未来的块。这样既保住了块内上下文,又能边来边算,不用等整段说完。

块 1
160ms
↔ 块内双向
块 2
160ms
↔ 块内双向
块 3
160ms
↔ 块内双向
块 4
160ms
↔ 块内双向

块内 token 互相看,块之间只往左看过去:块 3 一到就能开算,因为它只依赖块 1、块 2,不用等未来的块 4。这就是流式生成。

block-causal · 打个比方

像说话时以「词组」为单位思考:一个词组内部一起斟酌,但你不能预知还没出口的下一个词组。这里还有两个配套的因果件,因果编码器/解码器只看过去、不看未来。普通编码器要拿到完整一段才能编码,因果版可以边接收边编码,像同声传译边听边译,不必等演讲讲完。让感知和生成都能边来边走。

点开看部署细节:thinker–performer 怎么把延迟压到 200ms

Wan Streamer 训练时是单个端到端模型;实时部署时,同一个模型拆成跨两张 GPU 的 thinker–performer 流水线,尽量让计算重叠。系统 prefill 完成后,thinker 把初始 KV-cache 广播给 performer,两边共享同一份全历史状态,统一模型的行为被完整保留。

thinker 负责因果音视频编码器、一次用于语言预测与状态更新的短计算、KV-cache 构建,以及把上一单元的 latent 解码成音视频并立即输出。performer 只负责 latent 生成,基于共享的全历史 KV 上下文,为下一段音视频单元跑 flow-matching 求解器。因为 performer 从不跑解码器、thinker 从不跑高成本的求解器,解码和生成互不阻塞。

只要 performer 耗时加通信耗时能塞进一个 160ms 单元,就维持实时吞吐。而「编码 → 状态更新 → latent 生成 → 解码」这条信号到信号的路径,就是约 200ms 的模型侧延迟,靠 CUDA graph 捕获、编译、优化算子压在预算内。

Thinker-performer overlap
thinker–performer 流式推理重叠:第 k 个单元,thinker 编码当前观测、更新 KV-cache 并把上一单元 latent 解码后立即输出;performer 只跑 flow-matching 求解器生成下一段 latent,下一单元返回。感知、解码、通信、去噪在相邻单元间重叠。来源:Wan Streamer 官方
6数据对比

和别的系统比,快在哪、能做什么

下面两组延迟数字测的不是一回事,得分开看。上方一组是完整的端到端交互闭环(感知用户并产生回应),其中只有 Wan Streamer 同时输出视频;下方一组是数字人/音视频渲染器,只计到渲染阶段,不含它们依赖的外部语言模型、ASR、TTS,所以用户实际感受到的延迟比图里更高。

端到端交互闭环 · 感知→回应(含网络,越短越好)
Wan Streamer语音+视频
0.55s模型侧 0.2s
GPT-4o Realtime仅语音
~0.8s模型侧 0.23s
豆包语音仅语音
~1.0s模型侧 0.7s
Gemini Live仅语音
1.2–3.6s
仅渲染阶段 · 不含外部 LLM/ASR/TTS(真实延迟更高)
LPM 1.0仅渲染
~0.35s
OmniForcing仅渲染
~0.7s
Hallo-Live仅渲染
0.94s
StreamAvatar仅渲染
~1.2s
两组刻度各自独立,不能横跨两组直接比大小。下方一组的数字不包含外部「大脑」,把那部分加回来后真实延迟会明显更高。数值取各系统公开报告中最接近的口径,混合了不同测量边界,具体定义见论文。

能力维度的覆盖如下,Wan Streamer 是唯一一行全部打勾的:

系统感知视频输出视频全双工端到端一秒内响应
Wan Streamer
豆包语音~
GPT-4o Realtime~
StreamAvatar~~
LPM 1.0~~

✓=是 ~=部分支持/未公开 ✗=否。全双工指系统生成时仍在持续感知,也就是边理解边回应。标「~」的格子,要么是部分支持,要么是该指标没有公开。

7辨真伪

哪些是实测,哪些要打折

这是厂商发布页,硬事实和定位措辞混在一起。把官方原话归一边,把混合口径、单方措辞、未验证的预测归另一边,按事实说话。

官方确认(实测/架构描述)
  • 在同一个 Transformer 里同时把语言、音频、视频作为输入与输出建模,靠 block-causal attention 协调增量式流式生成。
  • 模型侧响应延迟约 200ms,计入 350ms 双向网络后总交互延迟约 550ms。
  • 整栈围绕可流式性重写:因果编码器、因果解码器、block-causal attention、低延迟多模态 token 调度,25fps 下流式单元最短 160ms。
  • 系统内部不含外部 VAD、ASR、语言模型、TTS、动画或视频生成模块。
  • 展示的角色演示是未经剪辑的模型输出,v0.1 分辨率仅 192p。
需打折(定位措辞/混合口径/预测)
  • 「唯一能用单个端到端 Transformer 输出同步音视频、并把总延迟控制在 1 秒内」是厂商定位措辞,且官方自承对比数据混了不同测量边界。
  • 对比表里其他系统的数字取自各家公开报告中最接近的口径,并非统一基准下的实测。
  • 下方渲染组的延迟不含其依赖的外部语言模型/ASR/TTS,官方提示真实可感延迟会更高。
  • 「后续可较容易扩展到更高分辨率」是对未来工作的预测,v0.1 未验证。
  • 角色演示是预录的面对面片段,并非在线实时体验。
  • 能力表里部分系统多项指标标「~」,代表部分支持或未公开。
可流式性是建模约束,而不只是部署优化:建立在离线编码器、双向解码器或回合制对话之上的系统,仅靠工程优化也很难拿回真正低延迟的全双工能力。 Wan Streamer · 全双工挑战
来源:Wan Streamer v0.1 官方发布页(wan-streamer.com),论文 arXiv:2606.25041,2026 年 6 月。本文为厂商内容解读,延迟与能力对比数字均按官方注释口径标注,混合测量边界与未验证预测已在「辨真伪」逐条标出。文中演示视频与框架图直引自官方站点。