产品发布 · 小互解读

美团发布 LongCat-2.0，1.6 万亿参数模型全程国产芯片训练，不用英伟达 GPU

训练用超 5 万块国产 AI 芯片、35 万亿 token；跑分多为美团自评框架测得，权重尚未真正开放下载。

30 秒速览

美团旗下 LongCat 团队于 2026 年 6 月 30 日发布并开源 LongCat-2.0，总参数 1.6 万亿、每 token 激活约 480 亿的 MoE 大模型。
训练和大规模部署全程跑在超过 5 万块国产 AI ASIC 芯片组成的集群上，覆盖超过 35 万亿 token，没有使用英伟达 GPU。
架构在 LongCat-Flash 基础上新增 LongCat 稀疏注意力（LSA）和 1350 亿参数的 N-gram Embedding，用于加速长上下文并降低推理内存开销。
官方自测跑分显示，它在 SWE-bench Pro、SWE-bench Multilingual 等代码/Agent 任务上超过 Gemini 3.1 Pro 和 GPT-5.5，但低于 Claude Opus 4.7 和 4.8；在 IFEval、GPQA-diamond 等基础能力上落后头部模型。
报道发出时模型权重尚未真正上架 HuggingFace，绝大多数跑分是美团在自建评测框架里测得（in-house），第三方独立复现仍待跟进。

⚑这是厂商内容：技术细节来自美团 LongCat 官方博客，跑分绝大多数为美团自建评测框架测得（in-house），带 * 号的才是外部公开值。美团未点名具体国产芯片厂商，模型权重在报道时尚未真正可下载，第三方独立复现仍待跟进。下文数据处会直接标注口径，不再逐条重复设防。

1发生了什么

美团这次干了件什么事

美团旗下 LongCat 团队于 2026 年 6 月 30 日发布并开源了 LongCat-2.0，一个总参数 1.6 万亿、每 token 激活约 480 亿的超大规模 MoE（混合专家）语言模型。

最特别的地方不是参数量，而是它跑在哪：整个训练和大规模部署，全程建在超过 5 万块国产 AI ASIC 芯片组成的「超节点」集群上，覆盖超过 35 万亿 token，没有用一块英伟达 GPU。

🎯为什么值得看：自 2022 年起美国就对中国实施 AI 芯片出口管制。这是第一个公开宣称完全用国产硬件训练出来的、有竞争力的万亿参数模型。系统优化后训练吞吐比朴素实现提升超过 35%，整个预训练过程没有出现回滚、也没有不可恢复的 loss 尖峰，是「能在替代硬件上做前沿规模训练」的直接证据。

1.6 万亿

总参数量

5 万+

国产 AI 芯片

35 万亿+

训练 token

全程国产算力集群训练　·　~~NVIDIA GPU × 0~~

官方原话是：「LongCat-2.0 已经证明，我们现在具备在国产算力集群上训练大规模模型的能力。」LongCat 团队 2023 年才成立，第一个模型去年底才发布。

2能力演示

它现在能干什么活

先别看参数和跑分。官方给的一个「代码库迁移」演示，更能直观感受它的实际能力：把一个插件整体搬到新 SDK 上，还要跑得通。

1一次读完整套上下文：同时读入整个代码库和迁移文档，不是只看片段。

2梳理原有架构：搞清楚插件现在是怎么组织的、各部分怎么相互调用。

3重写到新 SDK：把整个插件按新接口重写一遍，保留全部原有功能。

4顺手抓 bug：在迁移过程中发现并修掉原代码里潜藏的问题。

5第一次构建就编译通过：不是生成一堆需要人再来回调的代码，而是一次成型。

官方还给了代码工程、Agent 与研究、内容生成等几组演示场景。这类活对模型的要求是：既要装得下超长输入，又要在长链条里保持前后一致，恰好对应它在架构上重点打磨的两个方向，下面几节会拆开讲。

3跑分对比

跑分到底什么水平

官方把 LongCat-2.0 和几个头部闭源模型放在统一评测框架里做了对比。看清它的强项和弱项分别在哪，比看单个数字更有用。

LongCat-2.0 与 Gemini 3.1 Pro / GPT-5.5 / Claude Opus 系列的跑分对比。来源：LongCat 官方博客 / The Decoder

基准	LongCat-2.0	Gemini 3.1 Pro	GPT-5.5	Opus 4.6	Opus 4.7	Opus 4.8
代码 Agent
Terminal-Bench 2.1	70.8	70.7*	73.8*	-	71.7*	78.9*
SWE-bench Pro	59.5	54.2*	58.6*	57.3*	64.3*	69.2*
SWE-bench Multilingual	77.3	76.9*	-	77.8*	80.5*	84.8*
通用 Agent
FORTE †	73.2	70.3	77.8	73.2	77.6	77.2
BrowseComp	79.9	85.9*	84.4*	84.0*	79.3*	84.3*
RWSearch	78.8	76.3	85.3	81.3	79.3	77.3
基础能力
IFEval	90.0	96.1	95.0	92.2	88.7	86.0
Writing Bench	83.8	83.7	84.7	-	85.3	85.2
IMO-AnswerBench	81.8	90.0	79.5	75.3*	81.8	75.3
GPQA-diamond	88.9	94.3*	93.6*	91.3*	94.2*	92.4

口径：带 * 为外部公开报告值，其余为美团在统一 harness 里自测（in-house）；分数归一到 0–100。† FORTE 为通用 Agent 基准。

代码 / Agent 赛道：LongCat-2.0 领先谁、落后谁（SWE-bench Pro）

Opus 4.869.2

Opus 4.764.3

LongCat-2.059.5

GPT-5.558.6

Gemini 3.1 Pro54.2

读法很直接：强项在代码和 Agent，SWE-bench Pro（59.5）和 SWE-bench Multilingual（77.3）上超过 Gemini 3.1 Pro 和 GPT-5.5，但低于 Claude Opus 4.7 和 4.8。基础能力有明显差距，IFEval（90.0）、IMO-AnswerBench（81.8）、GPQA-diamond（88.9）这些被 Gemini 和 GPT-5.5 拉开。它不是全面反超，而是在自己专门打磨的「代码 + Agent」这条赛道上追平、局部超过了西方头部，纯知识和数学推理上还落后。它还深度适配了主流 agent 框架 Claude Code、OpenClaw、Hermes。

4问题背景

长文本处理为什么会卡住

Agent 应用越来越需要一口气读进超长输入：整个代码库、整份文档。但处理长文本时，模型有个绕不开的成本问题。

标准做法是让每个词和所有其他词两两比对（注意力），文本一长，比对次数就成平方级暴涨。稀疏注意力的思路是：不全比，先用一个「索引器」挑出最相关的一小撮词来重点算。

打个比方 · 稀疏注意力索引

就像翻一本很厚的书找答案：你先看目录挑出相关章节，不会从第一页开始逐字读到最后一页。索引器就是那份「目录」。

DeepSeek 的稀疏注意力（DSA）用细粒度稀疏来解决这件事，但美团实测发现，DSA 里的「Lightning Indexer（闪电索引器）」本身还是瓶颈：它的输出不连续（对硬件不友好），而且打分开销仍是平方级。换句话说，目录挑得不够快、翻目录本身就很费劲。这正是下一节核心创新要动手的地方。

5核心创新 · 其一

LongCat 怎么把长上下文处理提速

LongCat 稀疏注意力（LSA）对那个卡住的索引器做了三个正交的效率改造。正交的意思是：三者互不干扰，可以各自单独开关。

Hero · LSA

核心思路不是换一个索引器，而是从三个不同角度分别把「翻目录」的开销降下来：让内存访问变整齐、让一次索引服务多层、让打分先粗后细。三个改造叠加，索引成本被摊薄，长上下文才跑得快。

流式感知索引 SI 跨层索引 CLI 分层索引 HI

SI · Streaming-aware Indexing

把「硬件对齐的连续访问」和「动态随机选择」结合起来，把零碎的内存访问，重新组织成可预测的顺序读取，从而实现 HBM 显存的合并访问、拉高有效带宽。同样一批 token，读取方式从东一块西一块，变成一条线读下去。

改造前 · 零碎随机访问

改造后 · 顺序读取

CLI · Cross-Layer Indexing

利用一条经验规律：相邻层之间的注意力显著性很稳定（相邻层想挑的词差不多）。于是让一次索引计算，在推理时服务连续好几层，而不是每层都重算一遍，索引成本被摊薄。这靠训练期的跨层蒸馏做到。

HI · Hierarchical Indexing

粗到细两段打分：先用块级近似打分做粗召回，圈出大致相关的候选区，再在这个小得多的候选里做细粒度 token 选择。每次索引器真正要处理的候选空间被缩小。在 LongCat-2.0 里，HI 免训练直接用，只对选定的超长上下文任务开启。

这套机制还扩展到了 3 步 MTP（多 token 预测）模块，用来加速投机解码（一次多猜几个词，猜对就省时间）。下面是官方给出的 LSA 设计概览图。

LongCat 稀疏注意力（LSA）设计概览：流式感知索引 / 跨层索引 / 分层索引三个正交改造。来源：LongCat 官方博客

6核心创新 · 其二

多花不到 10% 的参数，换来约 100 倍的词表空间

第二个创新叫 N-gram Embedding。一句话概括它的思路：与其把新增的参数堆进更多专家，不如把参数挪去专门记「常见字词组合」。

打个比方 · N-gram Embedding

普通做法是让模型记住一个个单字。N-gram Embedding 则把常见的连续组合整体记成一张卡片，模型看到常见组合能一眼认出，不用每次现拼。就像背英语不止记 26 个字母，还把常见单词整体记成卡片，看到时直接认。

LongCat-2.0 从 LongCat-Flash-Lite 继承了这一设计，把 n-gram 大小设为 5，塞进 1350 亿个 N-gram Embedding 参数，靠 N-gram token 组合把 embedding 空间扩大约 100 倍，用来捕捉更丰富的局部上下文。关键在于两条缩放原则决定了这些参数该往哪放。

路径 A · 继续堆专家

模型稀疏度即使不算 N-gram 也已到约 97%，已经过了甜点区。同样规模的参数再堆进 MoE 专家，收益微乎其微。

收益 ≈ 触顶

路径 B · 放进 N-gram Embedding

同样规模的参数挪去记常见字词组合，收益远超普通专家；推理时还能把内存 I/O 从专家挪走。

词表 ×100

但也不是越多越好。实验发现，当 N-gram Embedding 占总参数预算超过 50% 时，相对堆专家的优势会减弱。所以 LongCat-2.0 把它严格控制在 10% 以下，留足安全边际。带来的直接好处：推理时把参数从专家挪到 N-gram Embedding，能降低大 batch 解码的内存 I/O，加速生成。

N-gram Embedding 架构概览：在与 MoE 正交的稀疏维度上扩参数。来源：LongCat 官方博客

7工程系统

在国产芯片上把这套跑稳，才是真正的硬仗

算法创新之外，底层工程做了大量适配，才让这套东西在显存更小的国产芯片上跑得起来、还不出岔子。官方也坦承：相比成熟的英伟达 GPU 生态，配套软件社区还没那么成熟。

首要约束是显存。他们的加速器单卡显存明显小于 H800（80GB），所以在大规模下显存是第一瓶颈。应对分两条路：把并行方式做细，把通信域做大。

6D 并行：给 N-gram Embedding 单开一条并行

TP张量并行

CP上下文并行

EP专家并行

DP数据并行

PP流水线并行

EMBP新增：专门并行加速 N-gram EmbeddingNEW

超节点（Superpod）：把高带宽通信域撑到几百块设备

超节点内部全互联高带宽，超节点之间走 RoCE 网络，把高带宽通信域扩大到几百块设备，喂给「吃带宽」的 TP/CP/EP 并行。

同规模同环境下，超节点这一项再带来约 30% 的预训练吞吐增益。加上显存优化（ZeRO-1、选择性重计算、OOM 感知的 offloading、把 padding token 路由到「零专家」）和大规模部署的 Muon 优化器，整体系统优化相比朴素实现拿到超过 35% 的训练吞吐提升。

可靠性：让每一次都能算出一样的结果，还能抓硬件出错

大白话 · 确定性算子 / bit-flip 检测

确定性算子，就是让同样的输入每次都算出完全一样的结果，不会因为硬件调度顺序不同产生微小差异，方便复现问题。bit-flip 检测，则是自动发现硬件把某个比特意外翻转（0 变 1）这类计算出错，及时抓出来。

展开：生产级可靠性做了哪些隐形硬功夫

强制确定性：通信和计算路径都强制确定性，自研一套确定性算子，覆盖 Embedding、FA、LSA、MoE 层，保证可复现。
数值可靠性：所有 reduction 类算子改用「二叉树分段累加」减少浮点误差累积；在真实 LLM 负载下拿高精度基线校验加速器算术精度；部分计算密集算子里加 bit-flip 检测抓硬件比特翻转。
故障恢复：端到端监控驱动故障识别、流量切换、自动恢复，无需人工干预；隔离一条故障链路对训练无可感知影响，修复的链路要通过压力测试才重新加入。

官方强调：整个预训练没有回滚、没有不可恢复的 loss 尖峰。这被他们视为「能在替代硬件平台上做前沿规模训练」的直接证据。

8部署与后训练

从训练到真正能用，还要再过一关

1.6 万亿参数、还要在 1M 上下文下服务，光训练出来不够，得能被部署成实际可用的产品，还得让它同时具备好几种能力。

原生 1M 长上下文训练

为强化长程任务，训练里引入 LSA，并在数千亿 token 的 1M 上下文数据上训练。扩展方案用基于 all-gather 的 CP 并行，CP 可扩到 512 以上，实现原生 1M 长度训练；数据在 get-batch 阶段重洗、用均衡 CP 策略分片，保持负载均衡。

推理服务：读问题和吐答案，分开优化

大白话 · PD 分离部署（Prefill-Decode 分离）

把「读懂你的问题」（prefill）和「一个字一个字往外吐答案」（decode）这两个阶段，拆到不同机器上分别优化，因为这两步吃的硬件资源类型不一样。

Prefill 节点 · 优化 TTFT（首字延迟）

用多节点分块流水并行（CPP）缩小 EP 域，配上注意力序列并行（SP），让「读问题」这一步更快出第一个字。

Decode 节点 · 优化 TPOT（每字延迟）

用 KVP 把 KV-cache 跨设备分片，配大 EP 度（EP128）降低单卡权重内存和专家 I/O，让「吐答案」持续稳定。

后训练：向三组「老师」学习，再融成一个模型

Agent 专家

复杂真实场景下自主执行任务：精确工具调用、多轮 API 交互里可靠解析参数、抑制死循环和重复调用的自我纠错。

推理专家

拓展逻辑推理深度，按题目难度自适应算力，在数学、STEM 解题、多跳推理上更强。

交互专家

专注人类对齐：细粒度指令遵循、抑制事实幻觉、在不牺牲有用性的前提下建立有边界的安全机制。

三组专家的最强能力，用 MOPD 架构融合成最终模型
→ MOPD 融合 → 同时具备强 agent 执行 / 深推理 / 高质量交互

MOPD 多专家后训练架构概览。来源：LongCat 官方博客

展开：推理端还压了哪些细节

模型层：注意力用 absorb 计算模式；把 indexer 和 MLA prolog 在并发流上流水化以隐藏索引开销；用 KV-cache 并行（KVP）把 KV-cache 跨设备分片；ScMoE 让 dense 分支和 MoE 分支完全并行执行。
加速器层：Super Kernel 进一步压 kernel 内的启动开销；Weight Prefetch 利用较大 L2 缓存预取权重，把 I/O 延迟藏进前一个算子的计算里。
负载均衡：专家并行负载均衡（EPLB）把统计收集和放置计算放到前向关键路径之外异步做。

9带走这些

记住这几个数字

把整篇的规模数字汇到一处。这些是理解 LongCat-2.0 「特别在哪」的锚点。

1.6 万亿

总参数量

480 亿

每 token 激活参数

5 万+

国产 AI ASIC 芯片

35 万亿+

训练数据 token

35%+

训练吞吐提升（对朴素实现）

30%

超节点带来的额外吞吐增益

1350 亿

N-gram Embedding 参数

100 倍

等效词表空间扩大

1M token

原生长上下文长度

最后一件事要记清楚：官方称「引入并开源」LongCat-2.0，博客里挂了 GitHub（github.com/meituan-longcat/LongCat-2.0）、HuggingFace、在线试用（longcat.chat）和 API 文档链接。但报道发出时，权重尚未真正可下载，第三方能否独立复现跑分仍待跟进。上面绝大多数分数是美团自建评测框架里的自测值，横向对比时要留余地。

LongCat-2.0 已经证明，我们现在具备在国产算力集群上训练大规模模型的能力。 LongCat 官方技术博客

来源：LongCat 官方技术博客（longcat.chat/blog/longcat-2.0/）与 The Decoder 报道。技术细节以官方博客为准，地缘与行业意义、外部核查视角来自 The Decoder。跑分除标 * 的外部公开值外，均为美团在统一评测框架内自测（in-house）。本文为对公开信息的解读，不构成评测结论。