美団が LongCat-2.0 を発表、1.6 兆パラメータのモデルを全工程で国産チップ訓練、NVIDIA GPU 不使用
- 美団傘下の LongCat チームが 2026 年 6 月 30 日に LongCat-2.0 を発表・オープンソース化。総パラメータ 1.6 兆、token ごとの活性化が約 480 億の MoE 大規模モデル。
- 訓練と大規模デプロイの全工程を、5 万個超の国産 AI ASIC チップで構成したクラスタ上で実行。35 兆 token 超をカバーし、NVIDIA GPU は一切使っていない。
- アーキテクチャは LongCat-Flash をベースに、LongCat スパースアテンション(LSA)と 1350 億パラメータの N-gram Embedding を新たに追加。長文コンテキストの高速化と推論時のメモリ消費削減に用いる。
- 公式の自己測定ベンチマークによると、SWE-bench Pro や SWE-bench Multilingual などのコード/Agent タスクでは Gemini 3.1 Pro と GPT-5.5 を上回るが、Claude Opus 4.7 と 4.8 には及ばない。IFEval や GPQA-diamond などの基礎能力ではトップモデルに後れを取る。
- 報道時点でモデルの重みはまだ実際には HuggingFace に上がっておらず、大半のベンチマークは美団が自前の評価フレームワークで測定した値(in-house)で、第三者による独立再現はこれから。
美団が今回やってのけたこと
美団傘下の LongCat チームが 2026 年 6 月 30 日、LongCat-2.0 を発表・オープンソース化した。総パラメータ 1.6 兆、token ごとの活性化が約 480 億という超大規模の MoE(混合エキスパート)言語モデルだ。
公式の原文はこうだ。「LongCat-2.0 は、私たちが国産計算クラスタ上で大規模モデルを訓練する能力を今や備えていることを証明した」。LongCat チームは 2023 年にようやく設立され、最初のモデルも昨年末に発表されたばかりだ。
今、どんな仕事ができるのか
パラメータやベンチマークはひとまず置こう。公式が示した「コードベース移行」のデモの方が、その実力を直感的に感じられる。あるプラグインを丸ごと新しい SDK へ移し、しかも動くようにする、というものだ。
公式はこのほか、コード開発、Agent と研究、コンテンツ生成など複数のデモシーンも示した。この種の仕事がモデルに求めるのは、超長文の入力を収められることと、長い連鎖の中で前後の一貫性を保てることだ。これはちょうど、アーキテクチャ上で重点的に磨いた二つの方向に対応する。次のいくつかの節で分けて説明する。
ベンチマークは結局どの程度なのか
公式は LongCat-2.0 と、いくつかのトップ級クローズドソースモデルを統一の評価フレームワークで比較した。その強みと弱みがそれぞれどこにあるかを見極める方が、個々の数字を見るより役に立つ。
| ベンチマーク | LongCat-2.0 | Gemini 3.1 Pro | GPT-5.5 | Opus 4.6 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|
| コード Agent | ||||||
| Terminal-Bench 2.1 | 70.8 | 70.7* | 73.8* | - | 71.7* | 78.9* |
| SWE-bench Pro | 59.5 | 54.2* | 58.6* | 57.3* | 64.3* | 69.2* |
| SWE-bench Multilingual | 77.3 | 76.9* | - | 77.8* | 80.5* | 84.8* |
| 汎用 Agent | ||||||
| FORTE † | 73.2 | 70.3 | 77.8 | 73.2 | 77.6 | 77.2 |
| BrowseComp | 79.9 | 85.9* | 84.4* | 84.0* | 79.3* | 84.3* |
| RWSearch | 78.8 | 76.3 | 85.3 | 81.3 | 79.3 | 77.3 |
| 基礎能力 | ||||||
| IFEval | 90.0 | 96.1 | 95.0 | 92.2 | 88.7 | 86.0 |
| Writing Bench | 83.8 | 83.7 | 84.7 | - | 85.3 | 85.2 |
| IMO-AnswerBench | 81.8 | 90.0 | 79.5 | 75.3* | 81.8 | 75.3 |
| GPQA-diamond | 88.9 | 94.3* | 93.6* | 91.3* | 94.2* | 92.4 |
読み方はシンプルだ。強みはコードと Agent。SWE-bench Pro(59.5)と SWE-bench Multilingual(77.3)では Gemini 3.1 Pro と GPT-5.5 を上回るが、Claude Opus 4.7 と 4.8 には及ばない。基礎能力には明確な差があり、IFEval(90.0)、IMO-AnswerBench(81.8)、GPQA-diamond(88.9)あたりは Gemini と GPT-5.5 に引き離されている。全面的に逆転したわけではなく、自ら専門に磨いた「コード + Agent」という分野で西側トップに追いつき、部分的に上回った、というのが実態だ。純粋な知識や数学的推論ではまだ後れを取る。さらに主要な agent フレームワークである Claude Code、OpenClaw、Hermes に深く適合させている。
長文処理はなぜ詰まるのか
Agent アプリでは、コードベース全体や文書一式といった超長文の入力を一気に読み込む必要がますます高まっている。だが長文を処理するとき、モデルには避けて通れないコストの問題がある。
標準的なやり方は、各単語をほかのすべての単語と総当たりで突き合わせる(注意機構)というもので、文が長くなると突き合わせの回数は二乗のオーダーで爆発的に増える。スパースアテンションの発想はこうだ。全部を比べるのではなく、まず「インデクサ」で最も関連の高いごく一部の単語を選び出し、そこを重点的に計算する。
分厚い本で答えを探すのと同じだ。まず目次を見て関連する章を選び出し、1 ページ目から最後まで一字一句読んだりはしない。インデクサとは、その「目次」にあたる。
DeepSeek のスパースアテンション(DSA)は、細粒度の疎性でこれを解こうとする。だが美団の実測では、DSA 内の「Lightning Indexer(ライトニング・インデクサ)」自体がまだボトルネックだった。出力が不連続で(ハードウェアに優しくない)、しかもスコアリングのコストが依然として二乗のオーダーなのだ。言い換えれば、目次を選ぶのが十分に速くなく、目次をめくること自体に手間がかかる。こここそ、次の節の中核的な革新が手を入れる箇所だ。
LongCat はどうやって長文コンテキスト処理を高速化したか
LongCat スパースアテンション(LSA)は、あの詰まりがちなインデクサに、三つの直交する効率化改良を施した。直交とは、三つが互いに干渉せず、それぞれ単独でオン/オフできるという意味だ。
核心の発想は、インデクサを別物に取り替えることではなく、三つの異なる角度からそれぞれ「目次めくり」のコストを下げることだ。メモリアクセスを整える、一度のインデックスで複数層をまかなう、スコアリングを粗から細へ段階化する。三つの改良が積み重なってインデックスのコストが薄まり、長文コンテキストがようやく速く動く。
「ハードウェアに整列した連続アクセス」と「動的なランダム選択」を組み合わせ、断片的なメモリアクセスを予測可能な順次読み出しへ再編する。これにより HBM メモリのコアレスドアクセスを実現し、実効帯域を引き上げる。同じ token 群でも、読み出し方があちこち飛び飛びから、一本の線で読み通す形へ変わる。
経験則を一つ利用する。隣り合う層どうしでは注意の顕著性が安定している(隣接層が選びたい単語はだいたい同じ)というものだ。そこで一度のインデックス計算で、推論時に連続した複数の層をまかない、層ごとに計算し直さないことでインデックスコストを薄める。これは訓練時の層間蒸留によって実現している。
粗から細への二段階スコアリング。まずブロック単位の近似スコアで粗く候補を拾い、おおよそ関連する候補領域を囲い込む。次に、ずっと小さくなったその候補の中で細粒度の token 選択を行う。インデクサが実際に処理すべき候補空間が、そのたびに縮む。LongCat-2.0 では HI は訓練不要でそのまま使い、選定した超長文タスクにのみ有効化する。
この仕組みは 3 ステップの MTP(マルチ token 予測)モジュールにも拡張され、投機的デコード(一度に複数の単語を先読みし、当たれば時間を節約する手法)の高速化に使われる。以下は公式が示した LSA の設計概観図だ。
10% 未満のパラメータ増で、約 100 倍の語彙空間を手に入れる
二つ目の革新は N-gram Embedding と呼ばれる。その発想を一言でまとめると、増やしたパラメータをより多くのエキスパートに積み増すより、「よく出る単語の組み合わせ」を専門に覚えるほうへ回そう、というものだ。
普通のやり方は、モデルに一文字ずつ覚えさせるものだ。N-gram Embedding は、よく出る連続した組み合わせを丸ごと一枚のカードとして覚える。モデルはよく出る組み合わせを一目で認識でき、毎回その場で組み立てずに済む。英語を覚えるとき、26 文字だけでなく、よく使う単語も丸ごとカードにして、見た瞬間に認識するのと同じだ。
LongCat-2.0 は LongCat-Flash-Lite からこの設計を受け継ぎ、n-gram のサイズを 5 に設定、1350 億個の N-gram Embedding パラメータを詰め込んだ。N-gram token の組み合わせによって embedding 空間を約 100 倍に広げ、より豊かな局所コンテキストを捉える。鍵となるのは、これらのパラメータをどこに置くべきかを決める二つのスケーリング原則だ。
モデルの疎性は N-gram を除いてもすでに約 97% に達し、スイートスポットを過ぎている。同じ規模のパラメータをさらに MoE エキスパートに積んでも、得られる効果はごくわずかだ。
効果 ≈ 頭打ち同じ規模のパラメータを、よく出る単語の組み合わせを覚えるほうへ回すと、効果は普通のエキスパートをはるかに上回る。しかも推論時にはメモリ I/O をエキスパートから逃がせる。
語彙 ×100とはいえ、多ければ多いほど良いわけではない。実験によると、N-gram Embedding が総パラメータ予算の 50% を超えると、エキスパートを積む場合に対する優位が弱まる。そこで LongCat-2.0 はこれを厳密に 10% 未満に抑え、十分な安全余裕を確保した。直接的な利点はこうだ。推論時にパラメータをエキスパートから N-gram Embedding へ回すことで、大 batch デコードのメモリ I/O を下げ、生成を高速化できる。
国産チップでこれを安定して動かすことこそ、本当の正念場だ
アルゴリズムの革新に加え、下層のエンジニアリングで大量の適合作業を行って初めて、この一式がメモリの少ない国産チップ上で動き、しかも問題を起こさずに済んだ。公式も率直に認めている。成熟した NVIDIA GPU のエコシステムに比べ、周辺のソフトウェアコミュニティはまだそこまで成熟していない、と。
最大の制約はメモリだ。彼らのアクセラレータは 1 枚あたりのメモリが H800(80GB)より明らかに小さく、大規模ではメモリが第一のボトルネックになる。対応は二つの道に分かれる。並列化の仕方を細かくすることと、通信ドメインを大きくすることだ。
6D 並列:N-gram Embedding 専用に並列を一本増やす
スーパーノード(Superpod):高帯域の通信ドメインを数百台規模まで拡げる
同規模・同環境の下、スーパーノードだけでさらに約 30% の事前学習スループット増を生む。加えてメモリ最適化(ZeRO-1、選択的リコンピュテーション、OOM を感知した offloading、padding token を「ゼロエキスパート」へルーティング)と大規模デプロイ向けの Muon オプティマイザにより、システム全体の最適化は素朴な実装比で 35% 超の訓練スループット向上を得ている。
信頼性:毎回同じ結果を計算でき、ハードウェアの誤りも捕まえる
決定論的オペレータとは、同じ入力なら毎回まったく同じ結果を計算し、ハードウェアのスケジューリング順序の違いでわずかな差が出ないようにするもので、問題の再現がしやすくなる。bit-flip 検出とは、ハードウェアがあるビットを不意に反転させる(0 が 1 になる)ような計算エラーを自動で見つけ、すかさず捕まえるものだ。
展開:本番級の信頼性のために、どんな地道な作業をしたか
- 決定論を強制:通信と計算の経路をいずれも決定論的にし、自社開発の決定論的オペレータ一式で Embedding、FA、LSA、MoE 層をカバーし、再現性を保証する。
- 数値的信頼性:すべての reduction 系オペレータを「二分木による分割累加」に切り替え、浮動小数点誤差の累積を減らす。実際の LLM 負荷の下で高精度の基準線を使ってアクセラレータの算術精度を検証する。一部の計算集約的なオペレータには bit-flip 検出を組み込み、ハードウェアのビット反転を捕まえる。
- 障害復旧:エンドツーエンドの監視が障害の識別、トラフィックの切り替え、自動復旧を駆動し、人手の介入を必要としない。故障したリンクを一本切り離しても訓練に感知できる影響はなく、修復したリンクはストレステストを通ってから初めて再投入される。
公式が強調するのは、事前学習の全過程でロールバックも回復不能な loss スパイクもなかったという点だ。彼らはこれを「代替ハードウェアプラットフォーム上で最前線規模の訓練ができる」直接的な証拠とみなしている。
訓練から実用まで、さらにもう一関門
1.6 兆パラメータ、しかも 1M コンテキストで提供するとなると、訓練し終えただけでは足りない。実際に使える製品としてデプロイでき、なおかつ複数の能力を同時に備えさせる必要がある。
ネイティブ 1M 長文コンテキスト訓練
長距離タスクを強化するため、訓練に LSA を導入し、数千億 token に及ぶ 1M コンテキストのデータで訓練する。拡張方式には all-gather ベースの CP 並列を用い、CP は 512 以上まで拡張可能で、ネイティブ 1M 長の訓練を実現する。データは get-batch の段階でシャッフルし直し、均衡型の CP 戦略でシャーディングして、負荷分散を保つ。
推論サービス:問題を読む段と答えを吐く段を、分けて最適化
「あなたの問題を読み解く」(prefill)と「一文字ずつ答えを吐き出す」(decode)という二つの段階を、別々のマシンに分けてそれぞれ最適化する。この二つは食うハードウェア資源の種類が違うからだ。
事後学習:三組の「教師」から学び、一つのモデルに融合する
複雑な実シーンで自律的にタスクを実行する。正確なツール呼び出し、複数ターンの API のやり取りで確実にパラメータを解析、無限ループや重複呼び出しを抑える自己修正。
論理推論の深さを広げ、問題の難易度に応じて計算量を自動調整し、数学、STEM の問題解決、マルチホップ推論でより強い。
人間へのアラインメントに専念する。細粒度の指示追従、事実の幻覚を抑制し、有用性を犠牲にせずに境界のある安全機構を築く。
→ MOPD 融合 → 強い agent 実行 / 深い推論 / 高品質な対話を同時に備える
展開:推論側でほかにどんな細部を詰めたか
- モデル層:注意機構は absorb の計算モードを用いる。indexer と MLA prolog を並行ストリーム上でパイプライン化し、インデックスのコストを隠す。KV-cache 並列(KVP)で KV-cache を複数デバイスにまたいでシャーディングする。ScMoE は dense 分岐と MoE 分岐を完全に並列実行させる。
- アクセラレータ層:Super Kernel は kernel 内の起動コストをさらに削る。Weight Prefetch は大きめの L2 キャッシュを使って重みを先読みし、I/O 遅延を前のオペレータの計算の中に隠す。
- 負荷分散:エキスパート並列の負荷分散(EPLB)は、統計の収集と配置の計算を、前向きのクリティカルパスの外で非同期に行う。
この数字を覚えておこう
本文全体の規模の数字を一箇所にまとめた。これらは LongCat-2.0 の「どこが特別なのか」を理解するための錨だ。
最後にひとつ、はっきり覚えておきたい。公式は LongCat-2.0 を「公開しオープンソース化した」と述べ、ブログには GitHub(github.com/meituan-longcat/LongCat-2.0)、HuggingFace、オンライン試用(longcat.chat)、API ドキュメントへのリンクが掲げられている。だが報道時点で重みはまだ実際にはダウンロードできず、第三者がベンチマークを独立に再現できるかはこれからだ。上記の大半のスコアは美団が自前の評価フレームワークで測った自己測定値であり、横並びで比較する際には余地を残しておきたい。
LongCat-2.0 は、私たちが国産計算クラスタ上で大規模モデルを訓練する能力を今や備えていることを証明した。 LongCat 公式技術ブログ