製品リリース · 小互解読

美団が LongCat-2.0 を発表、1.6 兆パラメータのモデルを全工程で国産チップ訓練、NVIDIA GPU 不使用

訓練には 5 万個超の国産 AI チップと 35 兆 token を使用。ベンチマークの多くは美団の自己評価フレームワークによる測定値で、重みはまだ本当の意味で公開ダウンロードされていない。
30 秒でざっと把握
  • 美団傘下の LongCat チームが 2026 年 6 月 30 日に LongCat-2.0 を発表・オープンソース化。総パラメータ 1.6 兆、token ごとの活性化が約 480 億の MoE 大規模モデル。
  • 訓練と大規模デプロイの全工程を、5 万個超の国産 AI ASIC チップで構成したクラスタ上で実行。35 兆 token 超をカバーし、NVIDIA GPU は一切使っていない。
  • アーキテクチャは LongCat-Flash をベースに、LongCat スパースアテンション(LSA)と 1350 億パラメータの N-gram Embedding を新たに追加。長文コンテキストの高速化と推論時のメモリ消費削減に用いる。
  • 公式の自己測定ベンチマークによると、SWE-bench Pro や SWE-bench Multilingual などのコード/Agent タスクでは Gemini 3.1 Pro と GPT-5.5 を上回るが、Claude Opus 4.7 と 4.8 には及ばない。IFEval や GPQA-diamond などの基礎能力ではトップモデルに後れを取る。
  • 報道時点でモデルの重みはまだ実際には HuggingFace に上がっておらず、大半のベンチマークは美団が自前の評価フレームワークで測定した値(in-house)で、第三者による独立再現はこれから。
これはベンダー発の情報。技術的な詳細は美団 LongCat 公式ブログによるもので、ベンチマークの大半は美団が自前の評価フレームワークで測定した値(in-house)。* 印が付いたものだけが外部の公開値だ。美団は具体的な国産チップメーカーを名指ししておらず、モデルの重みは報道時点で実際にはダウンロードできず、第三者による独立再現はこれから。以下、データ箇所には基準を直接明記し、いちいち繰り返し断らない。
1何が起きたのか

美団が今回やってのけたこと

美団傘下の LongCat チームが 2026 年 6 月 30 日、LongCat-2.0 を発表・オープンソース化した。総パラメータ 1.6 兆、token ごとの活性化が約 480 億という超大規模の MoE(混合エキスパート)言語モデルだ。

最も特筆すべきはパラメータ数ではなく、どこで動かしたかだ。訓練から大規模デプロイまで全工程を、5 万個超の国産 AI ASIC チップで構成した「スーパーノード」クラスタ上に構築し、35 兆 token 超をカバー、NVIDIA GPU は一枚も使っていない。
🎯なぜ注目に値するか:2022 年以降、米国は中国に対して AI チップの輸出規制を敷いてきた。これは、完全に国産ハードウェアで訓練したと公に宣言する初の、競争力ある兆パラメータ級モデルだ。システム最適化後、訓練スループットは素朴な実装比で 35% 超向上。事前学習の全過程でロールバックも回復不能な loss スパイクも発生せず、「代替ハードウェア上で最前線規模の訓練ができる」直接的な証拠となっている。
1.6 兆
総パラメータ数
5 万+
国産 AI チップ
35 兆+
訓練 token
全工程を国産計算クラスタで訓練 · NVIDIA GPU × 0

公式の原文はこうだ。「LongCat-2.0 は、私たちが国産計算クラスタ上で大規模モデルを訓練する能力を今や備えていることを証明した」。LongCat チームは 2023 年にようやく設立され、最初のモデルも昨年末に発表されたばかりだ。

2能力デモ

今、どんな仕事ができるのか

パラメータやベンチマークはひとまず置こう。公式が示した「コードベース移行」のデモの方が、その実力を直感的に感じられる。あるプラグインを丸ごと新しい SDK へ移し、しかも動くようにする、というものだ。

1コンテキストをまとめて一度に読む:コードベース全体と移行ドキュメントを同時に読み込み、断片だけを見るのではない。
2既存アーキテクチャを整理:プラグインが今どう構成され、各部分がどう互いを呼び出しているかを把握する。
3新 SDK へ書き直す:プラグイン全体を新しいインターフェースに沿って書き直し、既存機能をすべて保つ。
4ついでにバグ取り:移行の過程で、元コードに潜む問題を見つけて直す。
5初回ビルドでコンパイルが通る:人が何度も手直しする必要のあるコードを吐き出すのではなく、一発で仕上げる。

公式はこのほか、コード開発、Agent と研究、コンテンツ生成など複数のデモシーンも示した。この種の仕事がモデルに求めるのは、超長文の入力を収められることと、長い連鎖の中で前後の一貫性を保てることだ。これはちょうど、アーキテクチャ上で重点的に磨いた二つの方向に対応する。次のいくつかの節で分けて説明する。

3ベンチマーク比較

ベンチマークは結局どの程度なのか

公式は LongCat-2.0 と、いくつかのトップ級クローズドソースモデルを統一の評価フレームワークで比較した。その強みと弱みがそれぞれどこにあるかを見極める方が、個々の数字を見るより役に立つ。

LongCat-2.0 とトップモデルのベンチマーク比較図
LongCat-2.0 と Gemini 3.1 Pro / GPT-5.5 / Claude Opus シリーズのベンチマーク比較。出典:LongCat 公式ブログ / The Decoder
ベンチマークLongCat-2.0Gemini 3.1 ProGPT-5.5Opus 4.6Opus 4.7Opus 4.8
コード Agent
Terminal-Bench 2.170.870.7*73.8*-71.7*78.9*
SWE-bench Pro59.554.2*58.6*57.3*64.3*69.2*
SWE-bench Multilingual77.376.9*-77.8*80.5*84.8*
汎用 Agent
FORTE †73.270.377.873.277.677.2
BrowseComp79.985.9*84.4*84.0*79.3*84.3*
RWSearch78.876.385.381.379.377.3
基礎能力
IFEval90.096.195.092.288.786.0
Writing Bench83.883.784.7-85.385.2
IMO-AnswerBench81.890.079.575.3*81.875.3
GPQA-diamond88.994.3*93.6*91.3*94.2*92.4
基準:* が付いたものは外部の公開報告値、その他は美団が統一 harness 内で自己測定した値(in-house)。スコアは 0–100 に正規化。† FORTE は汎用 Agent ベンチマーク。
コード / Agent 分野:LongCat-2.0 が誰に勝ち、誰に負けるか(SWE-bench Pro)
Opus 4.869.2
Opus 4.764.3
LongCat-2.059.5
GPT-5.558.6
Gemini 3.1 Pro54.2

読み方はシンプルだ。強みはコードと Agent。SWE-bench Pro(59.5)と SWE-bench Multilingual(77.3)では Gemini 3.1 Pro と GPT-5.5 を上回るが、Claude Opus 4.7 と 4.8 には及ばない。基礎能力には明確な差があり、IFEval(90.0)、IMO-AnswerBench(81.8)、GPQA-diamond(88.9)あたりは Gemini と GPT-5.5 に引き離されている。全面的に逆転したわけではなく、自ら専門に磨いた「コード + Agent」という分野で西側トップに追いつき、部分的に上回った、というのが実態だ。純粋な知識や数学的推論ではまだ後れを取る。さらに主要な agent フレームワークである Claude Code、OpenClaw、Hermes に深く適合させている。

4問題の背景

長文処理はなぜ詰まるのか

Agent アプリでは、コードベース全体や文書一式といった超長文の入力を一気に読み込む必要がますます高まっている。だが長文を処理するとき、モデルには避けて通れないコストの問題がある。

標準的なやり方は、各単語をほかのすべての単語と総当たりで突き合わせる(注意機構)というもので、文が長くなると突き合わせの回数は二乗のオーダーで爆発的に増える。スパースアテンションの発想はこうだ。全部を比べるのではなく、まず「インデクサ」で最も関連の高いごく一部の単語を選び出し、そこを重点的に計算する。

たとえるなら · スパースアテンションのインデックス

分厚い本で答えを探すのと同じだ。まず目次を見て関連する章を選び出し、1 ページ目から最後まで一字一句読んだりはしない。インデクサとは、その「目次」にあたる。

DeepSeek のスパースアテンション(DSA)は、細粒度の疎性でこれを解こうとする。だが美団の実測では、DSA 内の「Lightning Indexer(ライトニング・インデクサ)」自体がまだボトルネックだった。出力が不連続で(ハードウェアに優しくない)、しかもスコアリングのコストが依然として二乗のオーダーなのだ。言い換えれば、目次を選ぶのが十分に速くなく、目次をめくること自体に手間がかかる。こここそ、次の節の中核的な革新が手を入れる箇所だ。

5中核の革新 · その一

LongCat はどうやって長文コンテキスト処理を高速化したか

LongCat スパースアテンション(LSA)は、あの詰まりがちなインデクサに、三つの直交する効率化改良を施した。直交とは、三つが互いに干渉せず、それぞれ単独でオン/オフできるという意味だ。

Hero · LSA

核心の発想は、インデクサを別物に取り替えることではなく、三つの異なる角度からそれぞれ「目次めくり」のコストを下げることだ。メモリアクセスを整える、一度のインデックスで複数層をまかなう、スコアリングを粗から細へ段階化する。三つの改良が積み重なってインデックスのコストが薄まり、長文コンテキストがようやく速く動く。

SI · Streaming-aware Indexing

「ハードウェアに整列した連続アクセス」と「動的なランダム選択」を組み合わせ、断片的なメモリアクセスを予測可能な順次読み出しへ再編する。これにより HBM メモリのコアレスドアクセスを実現し、実効帯域を引き上げる。同じ token 群でも、読み出し方があちこち飛び飛びから、一本の線で読み通す形へ変わる。

改良前 · 断片的なランダムアクセス
改良後 · 順次読み出し
CLI · Cross-Layer Indexing

経験則を一つ利用する。隣り合う層どうしでは注意の顕著性が安定している(隣接層が選びたい単語はだいたい同じ)というものだ。そこで一度のインデックス計算で、推論時に連続した複数の層をまかない、層ごとに計算し直さないことでインデックスコストを薄める。これは訓練時の層間蒸留によって実現している。

HI · Hierarchical Indexing

粗から細への二段階スコアリング。まずブロック単位の近似スコアで粗く候補を拾い、おおよそ関連する候補領域を囲い込む。次に、ずっと小さくなったその候補の中で細粒度の token 選択を行う。インデクサが実際に処理すべき候補空間が、そのたびに縮む。LongCat-2.0 では HI は訓練不要でそのまま使い、選定した超長文タスクにのみ有効化する。

この仕組みは 3 ステップの MTP(マルチ token 予測)モジュールにも拡張され、投機的デコード(一度に複数の単語を先読みし、当たれば時間を節約する手法)の高速化に使われる。以下は公式が示した LSA の設計概観図だ。

LongCat スパースアテンション(LSA)の設計概観
LongCat スパースアテンション(LSA)の設計概観:ストリーム対応インデックス / 層間インデックス / 階層インデックスの三つの直交改良。出典:LongCat 公式ブログ
6中核の革新 · その二

10% 未満のパラメータ増で、約 100 倍の語彙空間を手に入れる

二つ目の革新は N-gram Embedding と呼ばれる。その発想を一言でまとめると、増やしたパラメータをより多くのエキスパートに積み増すより、「よく出る単語の組み合わせ」を専門に覚えるほうへ回そう、というものだ。

たとえるなら · N-gram Embedding

普通のやり方は、モデルに一文字ずつ覚えさせるものだ。N-gram Embedding は、よく出る連続した組み合わせを丸ごと一枚のカードとして覚える。モデルはよく出る組み合わせを一目で認識でき、毎回その場で組み立てずに済む。英語を覚えるとき、26 文字だけでなく、よく使う単語も丸ごとカードにして、見た瞬間に認識するのと同じだ。

LongCat-2.0 は LongCat-Flash-Lite からこの設計を受け継ぎ、n-gram のサイズを 5 に設定、1350 億個の N-gram Embedding パラメータを詰め込んだ。N-gram token の組み合わせによって embedding 空間を約 100 倍に広げ、より豊かな局所コンテキストを捉える。鍵となるのは、これらのパラメータをどこに置くべきかを決める二つのスケーリング原則だ。

経路 A · エキスパートを積み増し続ける

モデルの疎性は N-gram を除いてもすでに約 97% に達し、スイートスポットを過ぎている。同じ規模のパラメータをさらに MoE エキスパートに積んでも、得られる効果はごくわずかだ。

効果 ≈ 頭打ち
経路 B · N-gram Embedding に回す

同じ規模のパラメータを、よく出る単語の組み合わせを覚えるほうへ回すと、効果は普通のエキスパートをはるかに上回る。しかも推論時にはメモリ I/O をエキスパートから逃がせる。

語彙 ×100

とはいえ、多ければ多いほど良いわけではない。実験によると、N-gram Embedding が総パラメータ予算の 50% を超えると、エキスパートを積む場合に対する優位が弱まる。そこで LongCat-2.0 はこれを厳密に 10% 未満に抑え、十分な安全余裕を確保した。直接的な利点はこうだ。推論時にパラメータをエキスパートから N-gram Embedding へ回すことで、大 batch デコードのメモリ I/O を下げ、生成を高速化できる。

N-gram Embedding のアーキテクチャ概観
N-gram Embedding のアーキテクチャ概観:MoE と直交する疎性の次元でパラメータを拡張する。出典:LongCat 公式ブログ
7エンジニアリング/システム

国産チップでこれを安定して動かすことこそ、本当の正念場だ

アルゴリズムの革新に加え、下層のエンジニアリングで大量の適合作業を行って初めて、この一式がメモリの少ない国産チップ上で動き、しかも問題を起こさずに済んだ。公式も率直に認めている。成熟した NVIDIA GPU のエコシステムに比べ、周辺のソフトウェアコミュニティはまだそこまで成熟していない、と。

最大の制約はメモリだ。彼らのアクセラレータは 1 枚あたりのメモリが H800(80GB)より明らかに小さく、大規模ではメモリが第一のボトルネックになる。対応は二つの道に分かれる。並列化の仕方を細かくすることと、通信ドメインを大きくすることだ。

6D 並列:N-gram Embedding 専用に並列を一本増やす

TPテンソル並列
CPコンテキスト並列
EPエキスパート並列
DPデータ並列
PPパイプライン並列
EMBP新規:N-gram Embedding 専用の並列で高速化NEW

スーパーノード(Superpod):高帯域の通信ドメインを数百台規模まで拡げる

RoCE ネットワーク スーパーノード A · 内部高帯域 スーパーノード B · 最大 48 台
スーパーノード内部はフル接続で高帯域、スーパーノード間は RoCE ネットワークを通し、高帯域の通信ドメインを数百台規模まで拡げ、「帯域を食う」TP/CP/EP 並列に供給する。

同規模・同環境の下、スーパーノードだけでさらに約 30% の事前学習スループット増を生む。加えてメモリ最適化(ZeRO-1、選択的リコンピュテーション、OOM を感知した offloading、padding token を「ゼロエキスパート」へルーティング)と大規模デプロイ向けの Muon オプティマイザにより、システム全体の最適化は素朴な実装比で 35% 超の訓練スループット向上を得ている。

信頼性:毎回同じ結果を計算でき、ハードウェアの誤りも捕まえる

かみ砕くと · 決定論的オペレータ / bit-flip 検出

決定論的オペレータとは、同じ入力なら毎回まったく同じ結果を計算し、ハードウェアのスケジューリング順序の違いでわずかな差が出ないようにするもので、問題の再現がしやすくなる。bit-flip 検出とは、ハードウェアがあるビットを不意に反転させる(0 が 1 になる)ような計算エラーを自動で見つけ、すかさず捕まえるものだ。

展開:本番級の信頼性のために、どんな地道な作業をしたか
  • 決定論を強制:通信と計算の経路をいずれも決定論的にし、自社開発の決定論的オペレータ一式で Embedding、FA、LSA、MoE 層をカバーし、再現性を保証する。
  • 数値的信頼性:すべての reduction 系オペレータを「二分木による分割累加」に切り替え、浮動小数点誤差の累積を減らす。実際の LLM 負荷の下で高精度の基準線を使ってアクセラレータの算術精度を検証する。一部の計算集約的なオペレータには bit-flip 検出を組み込み、ハードウェアのビット反転を捕まえる。
  • 障害復旧:エンドツーエンドの監視が障害の識別、トラフィックの切り替え、自動復旧を駆動し、人手の介入を必要としない。故障したリンクを一本切り離しても訓練に感知できる影響はなく、修復したリンクはストレステストを通ってから初めて再投入される。

公式が強調するのは、事前学習の全過程でロールバックも回復不能な loss スパイクもなかったという点だ。彼らはこれを「代替ハードウェアプラットフォーム上で最前線規模の訓練ができる」直接的な証拠とみなしている。

8デプロイと事後学習

訓練から実用まで、さらにもう一関門

1.6 兆パラメータ、しかも 1M コンテキストで提供するとなると、訓練し終えただけでは足りない。実際に使える製品としてデプロイでき、なおかつ複数の能力を同時に備えさせる必要がある。

ネイティブ 1M 長文コンテキスト訓練

長距離タスクを強化するため、訓練に LSA を導入し、数千億 token に及ぶ 1M コンテキストのデータで訓練する。拡張方式には all-gather ベースの CP 並列を用い、CP は 512 以上まで拡張可能で、ネイティブ 1M 長の訓練を実現する。データは get-batch の段階でシャッフルし直し、均衡型の CP 戦略でシャーディングして、負荷分散を保つ。

推論サービス:問題を読む段と答えを吐く段を、分けて最適化

かみ砕くと · PD 分離デプロイ(Prefill-Decode 分離)

「あなたの問題を読み解く」(prefill)と「一文字ずつ答えを吐き出す」(decode)という二つの段階を、別々のマシンに分けてそれぞれ最適化する。この二つは食うハードウェア資源の種類が違うからだ。

Prefill ノード · TTFT(最初の文字までの遅延)を最適化
マルチノードのチャンク化パイプライン並列(CPP)で EP ドメインを縮め、注意機構のシーケンス並列(SP)を組み合わせて、「問題を読む」段でより速く最初の文字を出す。
Decode ノード · TPOT(1 文字あたりの遅延)を最適化
KVP で KV-cache を複数デバイスにまたいでシャーディングし、大きな EP 度(EP128)を合わせて 1 枚あたりの重みメモリとエキスパート I/O を下げ、「答えを吐く」段を持続的に安定させる。

事後学習:三組の「教師」から学び、一つのモデルに融合する

Agent エキスパート

複雑な実シーンで自律的にタスクを実行する。正確なツール呼び出し、複数ターンの API のやり取りで確実にパラメータを解析、無限ループや重複呼び出しを抑える自己修正。

推論エキスパート

論理推論の深さを広げ、問題の難易度に応じて計算量を自動調整し、数学、STEM の問題解決、マルチホップ推論でより強い。

対話エキスパート

人間へのアラインメントに専念する。細粒度の指示追従、事実の幻覚を抑制し、有用性を犠牲にせずに境界のある安全機構を築く。

三組のエキスパートの最強の能力を、MOPD アーキテクチャで最終モデルに融合する
→ MOPD 融合 → 強い agent 実行 / 深い推論 / 高品質な対話を同時に備える
MOPD マルチエキスパート事後学習アーキテクチャの概観
MOPD マルチエキスパート事後学習アーキテクチャの概観。出典:LongCat 公式ブログ
展開:推論側でほかにどんな細部を詰めたか
  • モデル層:注意機構は absorb の計算モードを用いる。indexer と MLA prolog を並行ストリーム上でパイプライン化し、インデックスのコストを隠す。KV-cache 並列(KVP)で KV-cache を複数デバイスにまたいでシャーディングする。ScMoE は dense 分岐と MoE 分岐を完全に並列実行させる。
  • アクセラレータ層:Super Kernel は kernel 内の起動コストをさらに削る。Weight Prefetch は大きめの L2 キャッシュを使って重みを先読みし、I/O 遅延を前のオペレータの計算の中に隠す。
  • 負荷分散:エキスパート並列の負荷分散(EPLB)は、統計の収集と配置の計算を、前向きのクリティカルパスの外で非同期に行う。
9持ち帰るポイント

この数字を覚えておこう

本文全体の規模の数字を一箇所にまとめた。これらは LongCat-2.0 の「どこが特別なのか」を理解するための錨だ。

1.6 兆
総パラメータ数
480 億
token ごとの活性化パラメータ
5 万+
国産 AI ASIC チップ
35 兆+
訓練データ token
35%+
訓練スループット向上(素朴な実装比)
30%
スーパーノードによる追加スループット増
1350 億
N-gram Embedding パラメータ
100 倍
実効語彙空間の拡大
1M token
ネイティブ長文コンテキスト長

最後にひとつ、はっきり覚えておきたい。公式は LongCat-2.0 を「公開しオープンソース化した」と述べ、ブログには GitHub(github.com/meituan-longcat/LongCat-2.0)、HuggingFace、オンライン試用(longcat.chat)、API ドキュメントへのリンクが掲げられている。だが報道時点で重みはまだ実際にはダウンロードできず、第三者がベンチマークを独立に再現できるかはこれからだ。上記の大半のスコアは美団が自前の評価フレームワークで測った自己測定値であり、横並びで比較する際には余地を残しておきたい。

LongCat-2.0 は、私たちが国産計算クラスタ上で大規模モデルを訓練する能力を今や備えていることを証明した。 LongCat 公式技術ブログ
出典:LongCat 公式技術ブログ(longcat.chat/blog/longcat-2.0/)と The Decoder の報道。技術的な詳細は公式ブログに従い、地政学的・業界的な意味づけと外部からの検証の視点は The Decoder による。ベンチマークは * を付した外部の公開値を除き、いずれも美団が統一の評価フレームワーク内で自己測定した値(in-house)。本稿は公開情報の解読であり、評価結論を示すものではない。