产品发布 · 小互解读

Claude 4 发布：双模型主攻编程与 Agent

Opus 4、Sonnet 4 在 SWE-bench 分别拿 72.5% 和 72.7%；定价沿用上代，Sonnet 4 免费用户也能用。

速览

Anthropic 发布 Claude Opus 4 和 Claude Sonnet 4 两款模型，主打编程、推理和 AI Agent。
Opus 4 在 SWE-bench 拿 72.5%、Terminal-bench 43.2%，官方称是「全球最强编程模型」；Sonnet 4 在 SWE-bench 拿 72.7%。
两款都是混合模型，支持「即时回答」和「扩展思考」两种模式，扩展思考期间还能调用工具（如网页搜索）。
定价沿用上代：Opus 4 每百万 token 输入/输出 $15/$75，Sonnet 4 为 $3/$15；上 API、Bedrock、Vertex AI，Sonnet 4 对免费用户开放。
Claude Code 正式版上线，支持 VS Code/JetBrains 插件、GitHub 后台任务，并开放 SDK。

⚑ 这是 Anthropic 官方发布通稿。模型能力、benchmark 得分、「全球最强编程模型」等表述均出自厂商，benchmark 为官方自测，合作方评价多为单方说法。下文已把官方确认与外界推测分栏对照。

长任务进度轴：Opus 4 能在上千步、连续数小时的任务上推进，途中把关键信息写成「记忆便签」存下来，回头再翻，保持前后连贯。

这次 Anthropic 一口气发了两款模型。Opus 4 定位最强编程，能在需要上千步、连续干几个小时的长任务上保持状态；Sonnet 4 是 Sonnet 3.7 的升级款，编程和推理更强、更听指令，主打性价比和日常使用。两款都是「混合模型」：同一个模型既能秒回（即时回答），也能切到「扩展思考」模式做更慢、更深的推理。

一个模型，两种模式

即时回答

直接给答案，快，适合日常问答和简单任务。

扩展思考

先在内部推理一段再作答，处理更难的问题。

这一代的新东西是，扩展思考时模型能边想边用工具。以前要么先想完再答，要么单独调个工具拿结果；现在它可以在思考过程里穿插调用网页搜索等工具：想一段，去查点资料，拿回结果接着想，直到给出答案。下面是这个交替过程：

推理THINK

→

调用工具网页搜索等

→

拿到结果RESULT

→

继续推理THINK

→

给出答案ANSWER

↺ 推理与工具调用交替进行，直到答案成形

记忆文件

另一项升级是记忆。当开发者给模型本地文件的读写权限后，它会把关键信息写进「记忆文件」存着，跨长任务保持连贯，把零散经验慢慢攒成默会知识。官方还称两款模型在容易钻空子的 Agent 任务上，走捷径、钻漏洞的概率比 Sonnet 3.7 低 65%。

打个比方

模型的「记忆文件」就像做长期项目时随手记的工作笔记本，把关键信息写下来存着，过一阵回来翻一翻，不至于把前面做的事忘光。

官方演示：给本地文件访问权限后，Opus 4 在玩《宝可梦红》时自己写了一份「导航指南」记下关键信息，帮助后续游戏。图为 Opus 4 真实记下的笔记。来源：Anthropic

Opus 4 与 Sonnet 4 怎么选

Opus 4

最强编程，长任务连续数小时

SWE-bench Verified: 72.5%
Terminal-bench: 43.2%
价格 / 百万 token: 输入 $15 / 输出 $75
免费用户: 否，限 Pro / Max / Team / Enterprise

Sonnet 4

高性价比日常，Sonnet 3.7 升级

SWE-bench Verified: 72.7%
Terminal-bench: ，
价格 / 百万 token: 输入 $3 / 输出 $15
免费用户: 是，免费可用

关键数据

72.5%

Opus 4 在 SWE-bench Verified 的得分

72.7%

Sonnet 4 在 SWE-bench Verified 的得分

43.2%

Opus 4 在 Terminal-bench 的得分

$15 / $75

Opus 4 每百万 token 输入/输出价格

$3 / $15

Sonnet 4 每百万 token 输入/输出价格

低 65%

官方称两款在易投机 Agent 任务上走捷径的概率，比 Sonnet 3.7 更低

约 5%

思考过程长到需用小模型做摘要的占比，其余直接全文展示

SWE-bench Verified 得分

Opus 4标准

72.5%

Sonnet 4标准

72.7%

Opus 4高算力

79.4%

Sonnet 4高算力

80.2%

官方自测口径，标准分无扩展思考。「高算力」指多次并行采样、剔除破坏回归测试的补丁、再用内部打分模型挑最优，非默认设置。

官方给出的 SWE-bench Verified 跑分柱状图，Claude 4 两款与 OpenAI、Gemini 等模型对比。所有数据为 Anthropic 官方自测口径，竞品分取自各家公开材料。来源：Anthropic

官方确认 vs 外界推测

✓ 官方确认

定价：Opus 4 $15/$75、Sonnet 4 $3/$15，与上代 Opus、Sonnet 持平。
上线渠道：Claude 各付费套餐 + API + Amazon Bedrock + Google Vertex AI；Sonnet 4 对免费用户开放。
Claude Code 转为正式版（GA），含 VS Code/JetBrains 插件、GitHub 集成和可扩展 SDK。
新增 4 项 API 能力：代码执行工具、MCP 连接器、Files API、最长 1 小时的提示缓存。
两款均为混合模型，提供即时回答与扩展思考两种模式。

≈ 外界推测 / 厂商措辞

「全球最强编程模型」是 Anthropic 自己的措辞，所列 benchmark 也均为官方自测。
benchmark 取「用或不用扩展思考的最高分」；TAU-bench 还加了提示词补丁，并把最大步数从 30 提到 100，测试条件偏有利。
Cursor、Replit、Rakuten「连续运行 7 小时」、iGent「导航错误从 20% 降到接近零」等均为合作方单方说法或单一案例。
「能连续工作数小时」「迈向虚拟协作者」属趋势性表述，不是可复现的硬指标。

Claude Opus 4 是我们迄今最强的模型，也是全球最好的编程模型，在 SWE-bench（72.5%）和 Terminal-bench（43.2%）上领先。 Anthropic,《Introducing Claude 4》, 2025-05-22

来源：Anthropic 官方发布《Introducing Claude 4》（2025-05-22，anthropic.com/news/claude-4）。文中所有 benchmark 数据均为 Anthropic 官方自测口径，竞品分数取自各厂商公开材料；Cursor、Replit、Block、Rakuten、Cognition、GitHub、Manus、iGent、Sourcegraph、Augment Code 等表述为对应公司的单方说法。本页可视化由小互解读站绘制。

Claude 4 发布：双模型主攻编程与 Agent

相关解读