产品发布 · 小互解读

Claude 4 发布:双模型主攻编程与 Agent

Opus 4、Sonnet 4 在 SWE-bench 分别拿 72.5% 和 72.7%;定价沿用上代,Sonnet 4 免费用户也能用。
速览
  • Anthropic 发布 Claude Opus 4 和 Claude Sonnet 4 两款模型,主打编程、推理和 AI Agent。
  • Opus 4 在 SWE-bench 拿 72.5%、Terminal-bench 43.2%,官方称是「全球最强编程模型」;Sonnet 4 在 SWE-bench 拿 72.7%。
  • 两款都是混合模型,支持「即时回答」和「扩展思考」两种模式,扩展思考期间还能调用工具(如网页搜索)。
  • 定价沿用上代:Opus 4 每百万 token 输入/输出 $15/$75,Sonnet 4 为 $3/$15;上 API、Bedrock、Vertex AI,Sonnet 4 对免费用户开放。
  • Claude Code 正式版上线,支持 VS Code/JetBrains 插件、GitHub 后台任务,并开放 SDK。
这是 Anthropic 官方发布通稿。模型能力、benchmark 得分、「全球最强编程模型」等表述均出自厂商,benchmark 为官方自测,合作方评价多为单方说法。下文已把官方确认与外界推测分栏对照。
长任务进度轴:Opus 4 能在上千步、连续数小时的任务上推进,途中把关键信息写成「记忆便签」存下来,回头再翻,保持前后连贯。

这次 Anthropic 一口气发了两款模型。Opus 4 定位最强编程,能在需要上千步、连续干几个小时的长任务上保持状态;Sonnet 4 是 Sonnet 3.7 的升级款,编程和推理更强、更听指令,主打性价比和日常使用。两款都是「混合模型」:同一个模型既能秒回(即时回答),也能切到「扩展思考」模式做更慢、更深的推理。

一个模型,两种模式
即时回答
直接给答案,快,适合日常问答和简单任务。
扩展思考
先在内部推理一段再作答,处理更难的问题。

这一代的新东西是,扩展思考时模型能边想边用工具。以前要么先想完再答,要么单独调个工具拿结果;现在它可以在思考过程里穿插调用网页搜索等工具:想一段,去查点资料,拿回结果接着想,直到给出答案。下面是这个交替过程:

推理THINK
调用工具网页搜索等
拿到结果RESULT
继续推理THINK
给出答案ANSWER
↺ 推理与工具调用交替进行,直到答案成形
记忆文件

另一项升级是记忆。当开发者给模型本地文件的读写权限后,它会把关键信息写进「记忆文件」存着,跨长任务保持连贯,把零散经验慢慢攒成默会知识。官方还称两款模型在容易钻空子的 Agent 任务上,走捷径、钻漏洞的概率比 Sonnet 3.7 低 65%。

打个比方

模型的「记忆文件」就像做长期项目时随手记的工作笔记本,把关键信息写下来存着,过一阵回来翻一翻,不至于把前面做的事忘光。

Claude Opus 4 玩宝可梦时自己记的导航笔记
官方演示:给本地文件访问权限后,Opus 4 在玩《宝可梦红》时自己写了一份「导航指南」记下关键信息,帮助后续游戏。图为 Opus 4 真实记下的笔记。来源:Anthropic
Opus 4 与 Sonnet 4 怎么选
Opus 4
最强编程,长任务连续数小时
SWE-bench Verified
72.5%
Terminal-bench
43.2%
价格 / 百万 token
输入 $15 / 输出 $75
免费用户
否,限 Pro / Max / Team / Enterprise
Sonnet 4
高性价比日常,Sonnet 3.7 升级
SWE-bench Verified
72.7%
Terminal-bench
价格 / 百万 token
输入 $3 / 输出 $15
免费用户
是,免费可用
关键数据
72.5%
Opus 4 在 SWE-bench Verified 的得分
72.7%
Sonnet 4 在 SWE-bench Verified 的得分
43.2%
Opus 4 在 Terminal-bench 的得分
$15 / $75
Opus 4 每百万 token 输入/输出价格
$3 / $15
Sonnet 4 每百万 token 输入/输出价格
低 65%
官方称两款在易投机 Agent 任务上走捷径的概率,比 Sonnet 3.7 更低
约 5%
思考过程长到需用小模型做摘要的占比,其余直接全文展示
SWE-bench Verified 得分
Opus 4标准
72.5%
Sonnet 4标准
72.7%
Opus 4高算力
79.4%
Sonnet 4高算力
80.2%
官方自测口径,标准分无扩展思考。「高算力」指多次并行采样、剔除破坏回归测试的补丁、再用内部打分模型挑最优,非默认设置。
Claude 与其他大模型在软件工程任务上的得分柱状图
官方给出的 SWE-bench Verified 跑分柱状图,Claude 4 两款与 OpenAI、Gemini 等模型对比。所有数据为 Anthropic 官方自测口径,竞品分取自各家公开材料。来源:Anthropic
官方确认 vs 外界推测
✓ 官方确认
  • 定价:Opus 4 $15/$75、Sonnet 4 $3/$15,与上代 Opus、Sonnet 持平。
  • 上线渠道:Claude 各付费套餐 + API + Amazon Bedrock + Google Vertex AI;Sonnet 4 对免费用户开放。
  • Claude Code 转为正式版(GA),含 VS Code/JetBrains 插件、GitHub 集成和可扩展 SDK。
  • 新增 4 项 API 能力:代码执行工具、MCP 连接器、Files API、最长 1 小时的提示缓存。
  • 两款均为混合模型,提供即时回答与扩展思考两种模式。
≈ 外界推测 / 厂商措辞
  • 「全球最强编程模型」是 Anthropic 自己的措辞,所列 benchmark 也均为官方自测。
  • benchmark 取「用或不用扩展思考的最高分」;TAU-bench 还加了提示词补丁,并把最大步数从 30 提到 100,测试条件偏有利。
  • Cursor、Replit、Rakuten「连续运行 7 小时」、iGent「导航错误从 20% 降到接近零」等均为合作方单方说法或单一案例。
  • 「能连续工作数小时」「迈向虚拟协作者」属趋势性表述,不是可复现的硬指标。
Claude Opus 4 是我们迄今最强的模型,也是全球最好的编程模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上领先。 Anthropic,《Introducing Claude 4》, 2025-05-22
来源:Anthropic 官方发布《Introducing Claude 4》(2025-05-22,anthropic.com/news/claude-4)。文中所有 benchmark 数据均为 Anthropic 官方自测口径,竞品分数取自各厂商公开材料;Cursor、Replit、Block、Rakuten、Cognition、GitHub、Manus、iGent、Sourcegraph、Augment Code 等表述为对应公司的单方说法。本页可视化由小互解读站绘制。