美团发布 LongCat-2.0,1.6 万亿参数模型全程国产芯片训练,不用英伟达 GPU
- 美团旗下 LongCat 团队于 2026 年 6 月 30 日发布并开源 LongCat-2.0,总参数 1.6 万亿、每 token 激活约 480 亿的 MoE 大模型。
- 训练和大规模部署全程跑在超过 5 万块国产 AI ASIC 芯片组成的集群上,覆盖超过 35 万亿 token,没有使用英伟达 GPU。
- 架构在 LongCat-Flash 基础上新增 LongCat 稀疏注意力(LSA)和 1350 亿参数的 N-gram Embedding,用于加速长上下文并降低推理内存开销。
- 官方自测跑分显示,它在 SWE-bench Pro、SWE-bench Multilingual 等代码/Agent 任务上超过 Gemini 3.1 Pro 和 GPT-5.5,但低于 Claude Opus 4.7 和 4.8;在 IFEval、GPQA-diamond 等基础能力上落后头部模型。
- 报道发出时模型权重尚未真正上架 HuggingFace,绝大多数跑分是美团在自建评测框架里测得(in-house),第三方独立复现仍待跟进。
美团这次干了件什么事
美团旗下 LongCat 团队于 2026 年 6 月 30 日发布并开源了 LongCat-2.0,一个总参数 1.6 万亿、每 token 激活约 480 亿的超大规模 MoE(混合专家)语言模型。
官方原话是:「LongCat-2.0 已经证明,我们现在具备在国产算力集群上训练大规模模型的能力。」LongCat 团队 2023 年才成立,第一个模型去年底才发布。
它现在能干什么活
先别看参数和跑分。官方给的一个「代码库迁移」演示,更能直观感受它的实际能力:把一个插件整体搬到新 SDK 上,还要跑得通。
官方还给了代码工程、Agent 与研究、内容生成等几组演示场景。这类活对模型的要求是:既要装得下超长输入,又要在长链条里保持前后一致,恰好对应它在架构上重点打磨的两个方向,下面几节会拆开讲。
跑分到底什么水平
官方把 LongCat-2.0 和几个头部闭源模型放在统一评测框架里做了对比。看清它的强项和弱项分别在哪,比看单个数字更有用。
| 基准 | LongCat-2.0 | Gemini 3.1 Pro | GPT-5.5 | Opus 4.6 | Opus 4.7 | Opus 4.8 |
|---|---|---|---|---|---|---|
| 代码 Agent | ||||||
| Terminal-Bench 2.1 | 70.8 | 70.7* | 73.8* | - | 71.7* | 78.9* |
| SWE-bench Pro | 59.5 | 54.2* | 58.6* | 57.3* | 64.3* | 69.2* |
| SWE-bench Multilingual | 77.3 | 76.9* | - | 77.8* | 80.5* | 84.8* |
| 通用 Agent | ||||||
| FORTE † | 73.2 | 70.3 | 77.8 | 73.2 | 77.6 | 77.2 |
| BrowseComp | 79.9 | 85.9* | 84.4* | 84.0* | 79.3* | 84.3* |
| RWSearch | 78.8 | 76.3 | 85.3 | 81.3 | 79.3 | 77.3 |
| 基础能力 | ||||||
| IFEval | 90.0 | 96.1 | 95.0 | 92.2 | 88.7 | 86.0 |
| Writing Bench | 83.8 | 83.7 | 84.7 | - | 85.3 | 85.2 |
| IMO-AnswerBench | 81.8 | 90.0 | 79.5 | 75.3* | 81.8 | 75.3 |
| GPQA-diamond | 88.9 | 94.3* | 93.6* | 91.3* | 94.2* | 92.4 |
读法很直接:强项在代码和 Agent,SWE-bench Pro(59.5)和 SWE-bench Multilingual(77.3)上超过 Gemini 3.1 Pro 和 GPT-5.5,但低于 Claude Opus 4.7 和 4.8。基础能力有明显差距,IFEval(90.0)、IMO-AnswerBench(81.8)、GPQA-diamond(88.9)这些被 Gemini 和 GPT-5.5 拉开。它不是全面反超,而是在自己专门打磨的「代码 + Agent」这条赛道上追平、局部超过了西方头部,纯知识和数学推理上还落后。它还深度适配了主流 agent 框架 Claude Code、OpenClaw、Hermes。
长文本处理为什么会卡住
Agent 应用越来越需要一口气读进超长输入:整个代码库、整份文档。但处理长文本时,模型有个绕不开的成本问题。
标准做法是让每个词和所有其他词两两比对(注意力),文本一长,比对次数就成平方级暴涨。稀疏注意力的思路是:不全比,先用一个「索引器」挑出最相关的一小撮词来重点算。
就像翻一本很厚的书找答案:你先看目录挑出相关章节,不会从第一页开始逐字读到最后一页。索引器就是那份「目录」。
DeepSeek 的稀疏注意力(DSA)用细粒度稀疏来解决这件事,但美团实测发现,DSA 里的「Lightning Indexer(闪电索引器)」本身还是瓶颈:它的输出不连续(对硬件不友好),而且打分开销仍是平方级。换句话说,目录挑得不够快、翻目录本身就很费劲。这正是下一节核心创新要动手的地方。
LongCat 怎么把长上下文处理提速
LongCat 稀疏注意力(LSA)对那个卡住的索引器做了三个正交的效率改造。正交的意思是:三者互不干扰,可以各自单独开关。
核心思路不是换一个索引器,而是从三个不同角度分别把「翻目录」的开销降下来:让内存访问变整齐、让一次索引服务多层、让打分先粗后细。三个改造叠加,索引成本被摊薄,长上下文才跑得快。
把「硬件对齐的连续访问」和「动态随机选择」结合起来,把零碎的内存访问,重新组织成可预测的顺序读取,从而实现 HBM 显存的合并访问、拉高有效带宽。同样一批 token,读取方式从东一块西一块,变成一条线读下去。
利用一条经验规律:相邻层之间的注意力显著性很稳定(相邻层想挑的词差不多)。于是让一次索引计算,在推理时服务连续好几层,而不是每层都重算一遍,索引成本被摊薄。这靠训练期的跨层蒸馏做到。
粗到细两段打分:先用块级近似打分做粗召回,圈出大致相关的候选区,再在这个小得多的候选里做细粒度 token 选择。每次索引器真正要处理的候选空间被缩小。在 LongCat-2.0 里,HI 免训练直接用,只对选定的超长上下文任务开启。
这套机制还扩展到了 3 步 MTP(多 token 预测)模块,用来加速投机解码(一次多猜几个词,猜对就省时间)。下面是官方给出的 LSA 设计概览图。
多花不到 10% 的参数,换来约 100 倍的词表空间
第二个创新叫 N-gram Embedding。一句话概括它的思路:与其把新增的参数堆进更多专家,不如把参数挪去专门记「常见字词组合」。
普通做法是让模型记住一个个单字。N-gram Embedding 则把常见的连续组合整体记成一张卡片,模型看到常见组合能一眼认出,不用每次现拼。就像背英语不止记 26 个字母,还把常见单词整体记成卡片,看到时直接认。
LongCat-2.0 从 LongCat-Flash-Lite 继承了这一设计,把 n-gram 大小设为 5,塞进 1350 亿个 N-gram Embedding 参数,靠 N-gram token 组合把 embedding 空间扩大约 100 倍,用来捕捉更丰富的局部上下文。关键在于两条缩放原则决定了这些参数该往哪放。
模型稀疏度即使不算 N-gram 也已到约 97%,已经过了甜点区。同样规模的参数再堆进 MoE 专家,收益微乎其微。
收益 ≈ 触顶同样规模的参数挪去记常见字词组合,收益远超普通专家;推理时还能把内存 I/O 从专家挪走。
词表 ×100但也不是越多越好。实验发现,当 N-gram Embedding 占总参数预算超过 50% 时,相对堆专家的优势会减弱。所以 LongCat-2.0 把它严格控制在 10% 以下,留足安全边际。带来的直接好处:推理时把参数从专家挪到 N-gram Embedding,能降低大 batch 解码的内存 I/O,加速生成。
在国产芯片上把这套跑稳,才是真正的硬仗
算法创新之外,底层工程做了大量适配,才让这套东西在显存更小的国产芯片上跑得起来、还不出岔子。官方也坦承:相比成熟的英伟达 GPU 生态,配套软件社区还没那么成熟。
首要约束是显存。他们的加速器单卡显存明显小于 H800(80GB),所以在大规模下显存是第一瓶颈。应对分两条路:把并行方式做细,把通信域做大。
6D 并行:给 N-gram Embedding 单开一条并行
超节点(Superpod):把高带宽通信域撑到几百块设备
同规模同环境下,超节点这一项再带来约 30% 的预训练吞吐增益。加上显存优化(ZeRO-1、选择性重计算、OOM 感知的 offloading、把 padding token 路由到「零专家」)和大规模部署的 Muon 优化器,整体系统优化相比朴素实现拿到超过 35% 的训练吞吐提升。
可靠性:让每一次都能算出一样的结果,还能抓硬件出错
确定性算子,就是让同样的输入每次都算出完全一样的结果,不会因为硬件调度顺序不同产生微小差异,方便复现问题。bit-flip 检测,则是自动发现硬件把某个比特意外翻转(0 变 1)这类计算出错,及时抓出来。
展开:生产级可靠性做了哪些隐形硬功夫
- 强制确定性:通信和计算路径都强制确定性,自研一套确定性算子,覆盖 Embedding、FA、LSA、MoE 层,保证可复现。
- 数值可靠性:所有 reduction 类算子改用「二叉树分段累加」减少浮点误差累积;在真实 LLM 负载下拿高精度基线校验加速器算术精度;部分计算密集算子里加 bit-flip 检测抓硬件比特翻转。
- 故障恢复:端到端监控驱动故障识别、流量切换、自动恢复,无需人工干预;隔离一条故障链路对训练无可感知影响,修复的链路要通过压力测试才重新加入。
官方强调:整个预训练没有回滚、没有不可恢复的 loss 尖峰。这被他们视为「能在替代硬件平台上做前沿规模训练」的直接证据。
从训练到真正能用,还要再过一关
1.6 万亿参数、还要在 1M 上下文下服务,光训练出来不够,得能被部署成实际可用的产品,还得让它同时具备好几种能力。
原生 1M 长上下文训练
为强化长程任务,训练里引入 LSA,并在数千亿 token 的 1M 上下文数据上训练。扩展方案用基于 all-gather 的 CP 并行,CP 可扩到 512 以上,实现原生 1M 长度训练;数据在 get-batch 阶段重洗、用均衡 CP 策略分片,保持负载均衡。
推理服务:读问题和吐答案,分开优化
把「读懂你的问题」(prefill)和「一个字一个字往外吐答案」(decode)这两个阶段,拆到不同机器上分别优化,因为这两步吃的硬件资源类型不一样。
后训练:向三组「老师」学习,再融成一个模型
复杂真实场景下自主执行任务:精确工具调用、多轮 API 交互里可靠解析参数、抑制死循环和重复调用的自我纠错。
拓展逻辑推理深度,按题目难度自适应算力,在数学、STEM 解题、多跳推理上更强。
专注人类对齐:细粒度指令遵循、抑制事实幻觉、在不牺牲有用性的前提下建立有边界的安全机制。
→ MOPD 融合 → 同时具备强 agent 执行 / 深推理 / 高质量交互
展开:推理端还压了哪些细节
- 模型层:注意力用 absorb 计算模式;把 indexer 和 MLA prolog 在并发流上流水化以隐藏索引开销;用 KV-cache 并行(KVP)把 KV-cache 跨设备分片;ScMoE 让 dense 分支和 MoE 分支完全并行执行。
- 加速器层:Super Kernel 进一步压 kernel 内的启动开销;Weight Prefetch 利用较大 L2 缓存预取权重,把 I/O 延迟藏进前一个算子的计算里。
- 负载均衡:专家并行负载均衡(EPLB)把统计收集和放置计算放到前向关键路径之外异步做。
记住这几个数字
把整篇的规模数字汇到一处。这些是理解 LongCat-2.0 「特别在哪」的锚点。
最后一件事要记清楚:官方称「引入并开源」LongCat-2.0,博客里挂了 GitHub(github.com/meituan-longcat/LongCat-2.0)、HuggingFace、在线试用(longcat.chat)和 API 文档链接。但报道发出时,权重尚未真正可下载,第三方能否独立复现跑分仍待跟进。上面绝大多数分数是美团自建评测框架里的自测值,横向对比时要留余地。
LongCat-2.0 已经证明,我们现在具备在国产算力集群上训练大规模模型的能力。 LongCat 官方技术博客