研究解説 · 小互解説

Wan Streamer:聞きながら見ながら話す、リアルタイム AI

モデル側の応答は約 200ms、総遅延は約 550ms。v0.1 は 192p のみで、デモは事前収録でありリアルタイム体験ではない。
早わかり
  • Wan Streamer v0.1 はネイティブにストリーミング対応した、エンドツーエンドの対話基盤モデル。同じ Transformer の中で言語・音声・映像をまとめて入力と出力としてモデル化し、block-causal attention(ブロック因果アテンション)で調整しながら、届いた端から計算してストリーミング生成する。
  • モデルが応答を 1 区切り計算するのに約 200ms、これに 350ms の双方向ネットワーク遅延を足して、総対話遅延は約 550ms。25fps では、最短のストリーミング処理単位はわずか 160ms。
  • 公式は、単一のエンドツーエンド Transformer で同期した音声・映像を出力し、かつ総遅延を 1 秒以内に抑えられる唯一のモデルだとうたう。既存システムは音声しか出さないか(GPT-4o Realtime、豆包、Gemini Live)、ASR+LLM+TTS+アニメーション という一連のモジュールを継ぎ合わせている。
  • 現在の v0.1 は解像度が 192p のみで、位置づけはエンドツーエンド設計の概念実証。公開されたキャラクターのデモはすべて未編集の事前収録モデル出力であって、オンラインのリアルタイム体験ではない。
  • 比較図の遅延の数字は異なる測定基準が混ざっている。上の組はエンドツーエンドの対話ループ、下の組はレンダリング段階だけ(外部の LLM/ASR/TTS を含まない)。公式も注釈に沿って割り引いて見るよう促している。
これは Wan Streamer 公式の発表ページ(メーカー発のリリース文)。本文中の遅延、性能比較、「唯一」といった位置づけの表現はすべて公式によるもの。一部の比較数字は異なる測定境界が混在しており、該当箇所は本文中で補足している。
1これは何か

1 つのモデルでリアルタイム音声・映像対話を実現

通義万相(Wan)チームが最近 Wan Streamer v0.1 を公開した。リアルタイム音声・映像対話モデルだ。リアルタイムで対話できる AI は今や少なくないが、あなたの顔を見ながら、話を聞きながら、口を開いて応答し、しかも自分で動く顔を持っている——そんなものはほとんどない。Wan Streamer はこれを 1 つのモデルに収めた。

同じ Transformer の中で言語・音声・映像の入力と出力を同時に処理し、サブ秒の全二重な音声・映像対話を実現する。モデルが応答を 1 区切り計算するのに約 200 ミリ秒、ネットワークの往復を足した総遅延は約 550 ミリ秒だ。

なぜ見る価値があるか:今のリアルタイム対話システムは 2 種類に分かれる。1 つは応答は速いが音声しか出さず、見える顔がない(GPT-4o Realtime、豆包、Gemini Live)。もう 1 つは顔はあるが、外部の ASR、言語モデル、TTS、アニメーションという一連のモジュールを継ぎ合わせている。公式は Wan Streamer を単一のエンドツーエンド Transformer で同期した音声・映像を同時に吐き出し、かつ総遅延を 1 秒以内に抑えた唯一のモデルだとうたう。

~200 ms
モデル側の応答遅延(公式報告)
~550 ms
総対話遅延=モデル側 200ms+ネットワーク 350ms
160 ms
25fps での最短ストリーミング処理単位
192p
v0.1 の解像度。エンドツーエンド設計の概念実証
総遅延 550ms を分解する
モデル側 200ms
双方向ネットワーク 350ms
モデル自体は 200ms しか占めず、残りの 350ms はネットワークの往復。つまり、モデル単体の反応速度は、表示される総遅延よりも速い。
2まず効果を見る

4 本のキャラクターデモ + リアルタイム録画

以下の 4 本のデモはすべて同じモデルから出ており、人物・声・シーンを変えただけ。まず効果を見て、それから仕組みを語る。

見る前にはっきりさせておく:これらはすべて未編集の事前収録モデル出力であって、オンラインのリアルタイム体験ではない。現在の v0.1 は解像度が 192p のみで、エンドツーエンド設計が成立するかの検証用だ。公式は今後より高い解像度へ拡張するのは比較的容易だとうたうが、それは計画であって、v0.1 で実現済みのことではない。
中国語 · 暖色の室内でのビデオ通話。ひげ剃り、在宅勤務、特撮の出来がいい新作アクション映画を観たいという話。クリアで自然な男性の声。出典:Wan Streamer 公式 demo
中国語 · 明るい白い室内。CP、芸能界のゴシップ、周星驰『功夫』の話で、最後に名シーンの笑顔を真似る。軽やかで楽しい女性の声。出典:Wan Streamer 公式 demo
英語 · 車内のクローズアップ。女性が自分はとても疲れていると話し、相手の根気強い付き添いに感謝する。疲れて誠実な女性の声。出典:Wan Streamer 公式 demo
英語 · 淡い色の室内クローズアップ。無意識のスマホいじり、自動化された習慣、通知のオフの話。自然な女性の声。出典:Wan Streamer 公式 demo

次の 1 本は違う:これは一度の実際のネット接続対話のスクリーン録画で、リアルタイム応答の全経路が見える。

実際のネット接続対話の録画:左がローカルのユーザー映像、右が AI Agent のリアルタイム応答、下に同期したテキストストリームが流れる。動画はウェブ用に圧縮済み。出典:Wan Streamer 公式
3従来手法はどこで詰まるか

従来手法はなぜ遅いか:1 工程ずつのリレーで、各ステップが待ち続ける

従来手法が遅いのは、独立したモデルを一列に継ぎ合わせたパイプラインだからだ。音声をまず文字に起こし(ASR)、その文字を言語モデルに渡して答えを考えさせ(LLM)、答えを音声に合成し直し(TTS)、最後に顔を動かす(アニメーションレンダリング)。1 工程進むたびに前の工程の納品を待たねばならず、待ち時間が段ごとに積み上がり、認識と口の動きのずれといった誤差も道中ずっと蓄積していく。

従来手法 · カスケード型パイプライン
音声・映像入力
待機
ASR 認識
待機
LLM が答えを生成
待機
TTS で音声合成
待機
アニメ/描画
出力
矢印の 1 つひとつが待機 1 回+誤差累積 1 回。モジュール間は文字を中継の橋にしている。多くのシステムは音声しか出さないか、顔を無理やり継ぎ合わせるだけで、しかもエンドツーエンドの遅延を報告しない。
Wan Streamer · エンドツーエンド単一モデル
音声・映像入力
1 つの Transformer
知覚 · 推論 · 計画 · 生成 をまとめて行う
同期した音声・映像出力
継ぎ目がなく、待ち時間が圧縮される。ターン管理、割り込み、長距離の一貫性を、1 つのまとまった振る舞いとして一緒に学習する。
たとえると

エンドツーエンドは、1 人が聞き終えてそのまま口を開くようなもの。カスケードは伝言ゲームで、1 人を経るごとに一拍遅れ、しかも話を伝え間違えることもある。間の層は音声/映像をまず文字に起こし、その文字で下流を駆動する。文字こそが各モジュール間に隠れた中継の橋だ従来のカスケードでは、テキストは個別に訓練された複数モジュール間の中間表現だ。Wan Streamer はこの中継の橋を要らず、モダリティ同士を直接結合する。。橋が多いほど遅く、間違えやすい。

原文はこれについて 1 つの判断を下している。リアルタイム音声・映像対話は「マルチモーダル理解」+「マルチモーダル生成」の単純な足し算ではなく、本質的に全二重だ。だからストリーミング可能性は一種のモデル化上の制約であって、リリース後のエンジニアリング最適化にとどまらない。オフラインのエンコーダ、双方向のデコーダ、ターン制の対話の上に築いたシステムは、エンジニアリングのチューニングだけでは本物の低遅延な全二重を補えない。これこそ次の節で解きほぐす核心だ。

4核心となる革新

その手法:1 つのモデルが聞くから話すまで全部担う

Wan Streamer の核は一言だ。視覚・音声・テキストの入力 token と出力 token を、交互に並べて同じ 1 本のシーケンスにし、1 つの Transformer に処理させる。block-causal attention で調整し、届いた端から計算して外へ吐き出させる。

Hero · 共通の根

単一のエンドツーエンド Transformer が、外部の VAD、ASR、言語モデル、TTS、アニメーション、映像生成などのモジュールをなくし、知覚、推論、応答の計画、音声と映像の生成、応答のタイミング、ターン管理をすべて同じ持続的な状態の中に入れて一緒に最適化する。低遅延・全二重・同期した音声映像という 3 つは、すべてここに根がある。

ブロック間アテンション · 過去のブロックのみ指す ブロック内は双方向 ブロック 1 · 160ms ブロック 2 · 160ms ブロック 3 · 160ms ブロック 4 · 160ms 入力と出力の token が同じシーケンスに交互配置 →
視覚 token音声 tokenテキスト token

モデルは対話を連続した因果の流れとして捉える。あなたの観測とモデルの応答が、一緒に現在のコンテキストを更新する。各ストリーミング単位で、今得られるユーザーの観測をエンコードし、双方の完全な因果履歴に基づいて次の応答区切りを予測する。言語の応答は離散 token の列で、next-token 予測で訓練する。音声と映像の応答は連続した latent 空間に存在し、条件付き flow matching で一緒に生成する。同じ 1 つのクリーンなコンテキストを条件に、音声・動き・見た目・シーンの変化を 1 つの結合した全体としてまとめてノイズ除去するのであって、別々に生成してから継ぎ合わせるのではない。

Wan Streamer フレームワーク
Wan Streamer の全体フレームワーク:言語・音声・映像が同じ Transformer の中で入力と出力として同時にモデル化され、block-causal attention で調整しながら、届いた端から計算してストリーミング生成する。出典:Wan Streamer 公式

この流れを支えるため、スタック全体が設計当初から因果的だ。ストリーミング latent エンコード用の厳密に因果な音声映像 VAE、因果な音声映像エンコーダ、因果な音声映像デコーダ、そして block-causal attention で調整される時系列因果な Transformer。ノイズ除去後、推定されたクリーンな latent はそのまま履歴に追記され、後続単位のコンテキストになる。因果デコーダがそれらを最終的な音声映像へレンダリングする。この設計が消し去った外部モジュールは:

外部 VADASR 認識外部言語モデルTTS 合成アニメモジュール映像生成モジュール
5聞きながら話すをどう実現するか

聞きながら話す、いつでも割り込める、をどう実現するか

人と世界の関わりは生まれつきストリーミングで全二重だ。私たちは聞き終えてから別に考え、最後にようやく答えるのではなく、見ながら聞きながら話し、いつでも止まったり割り込んだりする。知覚と表現が音声映像の時間スケールで重なって起きる。リアルタイム対話モデルもこういう形に育たねばならない。

Hero · 作り直された全二重

因果エンコーダ+因果デコーダ+低遅延なマルチモーダル token スケジューリングにより、25fps でのストリーミング単位を 160ms まで短くする。入力された音声映像が即座に出力へ影響し、生成される音声と視覚の状態はデコード前に結合済みで、あとから直すのではない。吐き出した単位はすべて対話履歴に書き戻す。だから聞きながら話せて、あなたが話している間もモデルは聞き続け、割り込まれても調整できる。

半二重(ターン制)· 話し終えてから聞ける
単一チャネル
聞く
話す
聞く
全二重 · 聞くと話すが重なる
知覚
ユーザーを継続的に知覚
応答
音声+映像+動きを同期生成
重なる領域こそが鍵だ。ユーザーが話している間もエージェントは聞き続けているので、割り込まれても即座に調整できる。生成した単位はすべて対話履歴に書き戻され、次のステップのコンテキストになる。
全二重 · たとえると

全二重は普通の電話のようなもの。相手の話を聞きながら口を挟める。トランシーバーのような「話し終えてボタンを離さないと聞けない」のは半二重だ。

この仕組みが成立するのは block-causal attention のおかげだ。小さなブロック(たとえば 160ms の音声映像断片)を 1 つの処理単位とみなす。ブロック内部の token は互いに見える(双方向)が、1 つのブロックは過去のブロックしか見えず、未来のブロックは見えない。こうしてブロック内のコンテキストを保ちつつ、届いた端から計算でき、全部話し終えるのを待たなくて済む。

ブロック 1
160ms
↔ ブロック内は双方向
ブロック 2
160ms
↔ ブロック内は双方向
ブロック 3
160ms
↔ ブロック内は双方向
ブロック 4
160ms
↔ ブロック内は双方向

ブロック内の token は互いに見え、ブロック間は左の過去だけを見る。ブロック 3 は届けばすぐ計算を始められる。ブロック 1、ブロック 2 だけに依存し、未来のブロック 4 を待たないからだ。これがストリーミング生成だ。

block-causal · たとえると

話すときに「フレーズ」単位で考えるようなもの。1 つのフレーズ内部はまとめて吟味するが、まだ口に出していない次のフレーズは予知できない。ここにはさらに 2 つの対になる因果部品があり、因果エンコーダ/デコーダ過去だけを見て、未来は見ない。普通のエンコーダは 1 区切りを丸ごと受け取らないとエンコードできないが、因果版は受け取りながらエンコードできる。同時通訳が聞きながら訳すように、講演が終わるのを待たなくていい。が、知覚も生成も届いた端から進められるようにする。

デプロイの詳細を開く:thinker–performer がどう遅延を 200ms に抑えるか

Wan Streamer は訓練時には単一のエンドツーエンドモデルだ。リアルタイムのデプロイ時には、同じモデルを 2 枚の GPU にまたがる thinker–performer パイプラインに分け、できるだけ計算を重ねる。システムの prefill 完了後、thinker が初期の KV-cache を performer にブロードキャストし、両者が同じ全履歴状態を共有する。統一されたモデルの振る舞いが完全に保たれる。

thinker は、因果な音声映像エンコーダ、言語予測と状態更新のための一度の短い計算、KV-cache の構築、そして前の単位の latent を音声映像にデコードして即座に出力する役を担う。performer は latent 生成だけを担い、共有された全履歴の KV コンテキストに基づいて、次の音声映像単位のために flow-matching ソルバを走らせる。performer は決してデコーダを走らせず、thinker は決して高コストなソルバを走らせないので、デコードと生成は互いをブロックしない。

performer の所要時間と通信時間が 1 つの 160ms 単位に収まる限り、リアルタイムのスループットを保てる。そして「エンコード → 状態更新 → latent 生成 → デコード」という信号から信号までの経路が、約 200ms のモデル側遅延だ。CUDA graph のキャプチャ、コンパイル、オペレータ最適化で予算内に抑え込む。

Thinker-performer のオーバーラップ
thinker–performer のストリーミング推論オーバーラップ:第 k 単位で、thinker は現在の観測をエンコードし、KV-cache を更新し、前の単位の latent をデコードして即座に出力する。performer は flow-matching ソルバだけを走らせて次の latent を生成し、次の単位で返す。知覚・デコード・通信・ノイズ除去が隣り合う単位間で重なる。出典:Wan Streamer 公式
6データ比較

他のシステムと比べて、どこが速く、何ができるか

下の 2 組の遅延の数字は測っているものが別なので、分けて見る必要がある。上の組は完全なエンドツーエンドの対話ループ(ユーザーを知覚して応答を生む)で、そのうち映像も同時に出すのは Wan Streamer だけ。下の組はデジタルヒューマン/音声映像レンダラーで、レンダリング段階までしか数えておらず、それらが依存する外部の言語モデル、ASR、TTS を含まない。だからユーザーが実際に感じる遅延は図より高い。

エンドツーエンド対話ループ · 知覚→応答(ネットワーク込み、短いほど良い)
Wan Streamer音声+映像
0.55sモデル側 0.2s
GPT-4o Realtime音声のみ
~0.8sモデル側 0.23s
豆包 音声音声のみ
~1.0sモデル側 0.7s
Gemini Live音声のみ
1.2–3.6s
レンダリング段階のみ · 外部 LLM/ASR/TTS を含まない(実際の遅延はもっと高い)
LPM 1.0レンダリングのみ
~0.35s
OmniForcingレンダリングのみ
~0.7s
Hallo-Liveレンダリングのみ
0.94s
StreamAvatarレンダリングのみ
~1.2s
2 組の目盛りはそれぞれ独立しており、組をまたいで直接大小を比べることはできない。下の組の数字は外部の「頭脳」を含まず、その分を足し戻すと実際の遅延は明らかに高くなる。数値は各システムの公開報告で最も近い基準を採ったもので、異なる測定境界が混在している。具体的な定義は論文を参照。

能力の観点でのカバー範囲は以下のとおりで、Wan Streamer はすべてにチェックが付く唯一の行だ:

システム映像を知覚映像を出力全二重エンドツーエンド1 秒以内に応答
Wan Streamer
豆包 音声~
GPT-4o Realtime~
StreamAvatar~~
LPM 1.0~~

✓=はい ~=部分対応/非公開 ✗=いいえ。全二重とは、システムが生成中も知覚を続けていること、つまり理解しながら応答することを指す。「~」のマスは、部分対応か、その指標が非公開かのどちらかだ。

ストリーミング可能性はモデル化上の制約であって、デプロイ最適化にとどまらない。オフラインのエンコーダ、双方向のデコーダ、またはターン制の対話の上に築いたシステムは、エンジニアリング最適化だけでは本物の低遅延な全二重能力を取り戻すのは難しい。 Wan Streamer · 全二重の課題
出典:Wan Streamer v0.1 公式発表ページ(wan-streamer.com)、論文 arXiv:2606.25041、2026 年 6 月。本稿はメーカーコンテンツの解説であり、遅延と能力比較の数字はいずれも公式注釈の基準で表記している。混在する測定境界や未検証の予測は本文中で補足した。文中のデモ動画とフレームワーク図は公式サイトから直接引用している。