产品发布 · 小互解读

Anthropic 发布 Claude Sonnet 5:便宜四成,部分任务追平 Opus 4.8

官方评测显示,高算力挡位下部分任务性能追平 Opus 4.8,标准定价却只要其六成。
速览
  • Anthropic 发布 Claude Sonnet 5,官方称其为目前自主执行任务(agentic)能力最强的 Sonnet 系列模型。
  • 限时定价为每百万 token 输入 $2 / 输出 $10(截至 2026 年 8 月 31 日),之后涨至 $3 / $15;作为对比,旗舰 Opus 4.8 定价为 $5 / $25。
  • 今日起在 Free、Pro、Max、Team、Enterprise 全部计划及 Claude Code、Claude 开发平台上线,是 Free 和 Pro 计划的默认模型。
  • 安全评测显示其整体不当行为率低于上一代 Sonnet 4.6,但开发软件漏洞利用等网络攻击能力明显弱于 Opus 4.8,官方默认为其开启了实时网络安全防护。
  • 换用了新分词器,同样文字可能被切分成更多 token(约 1.0 到 1.35 倍),限时定价已把这个因素折算进去,此次升级换算下来大致成本中性。
立场提示:本文数据全部来自 Anthropic 官方发布页与其自有评测、系统卡,属厂商自述。文中的性能对比、安全评分、成功率均为官方口径或自评数据,下文如实转述,不再逐条标注真伪。
1 一句话看懂

这次发布,便宜的那个追上了贵的那个

Anthropic 近日发布 Claude Sonnet 5,称其为迄今能力最强、最擅长自主执行任务(agentic,指模型能自己拆解任务、调用浏览器和终端等工具、连续跑完多个步骤,过程中还主动检查自己有没有做对)的 Sonnet 系列模型。

反常识的地方在这里:Sonnet 5 的标准定价只有旗舰 Opus 4.8 的六成,但官方评测显示,把算力挡位调高之后,它在部分任务上的表现能追平 Opus 4.8。
📌

为什么值得看:按每百万输出 token 算,Sonnet 5 标准价 $15,Opus 4.8 是 $25,正好六成;限时价更低到输入/输出 $2/$10。而在 BrowseComp(智能体搜索)和 OSWorld-Verified(电脑操作)这两项评测里,调高算力挡位后 Sonnet 5 能与 Opus 4.8 打平。「更便宜」和「够得到旗舰」这两件事,第一次落在同一个 Sonnet 上。

← 更便宜 · 入门算力更贵 · 旗舰算力 →
Sonnet 4.6
Sonnet 5
Opus 4.8
示意:Opus 4.8 是一个固定的高位点。Sonnet 4.6 只能覆盖偏低的一小段,早早触顶;Sonnet 5 靠算力挡位把这条带子拉得很长,右端逼近 Opus 4.8。同样的钱,落在 Sonnet 5 上能买到更宽的智能区间。
Claude Sonnet 5 跑分对比表
官方跑分对比:Sonnet 5 与上一代 Sonnet 4.6,以及更全能的 Opus 4.8(作参照)。完整评测见 Claude Sonnet 5 系统卡。来源:Anthropic 官网。
2 来龙去脉

会干活的模型,一直是 Sonnet 系列先做出来的

对很多开发者来说,「AI 会自己干活」这股风气是从 Sonnet 起的:Claude Sonnet 3.5、3.6、3.7 是最早在写代码和调用工具上让人眼前一亮的一批模型。但最近这段时间,能力提升最明显的是更贵的 Opus 系列,Sonnet 这条线被拉开了差距。Sonnet 5 要做的,就是把这个差距追回来。

3.5
最早展现
agentic 能力
3.6
3.7
4.6
差距被
Opus 拉开
5
把差距
追回来

相比上一代 Sonnet 4.6,官方称 Sonnet 5 在推理、工具调用、写代码、知识工作这些和 agentic 表现相关的关键环节上都有明显进步。

3 性价比

同样一块钱,现在能买到多少智能

官方放出两张成本-性能曲线,比的是 Sonnet 5、Sonnet 4.6、Opus 4.8 在不同算力挡位下的表现,横轴是每个任务的花费(成本),纵轴是评测得分。结论是:Sonnet 5(橙线)全面强于 Sonnet 4.6(灰线),覆盖的成本区间比 Opus 4.8(黄线)宽得多,中等挡位性价比提升明显,最高挡位在部分任务上追平 Opus 4.8。

Sonnet 5 Sonnet 4.6 Opus 4.8
Opus 4.8 水平 得分 ↑ 成本(每任务花费)→
示意曲线:随算力挡位升高,Sonnet 5 得分持续爬升,高挡位逼近 Opus 4.8,且覆盖的成本区间远比 Sonnet 4.6 宽。精确数据以下方官方图表为准。
Opus 4.8 水平 得分 ↑ 成本(每任务花费)→
示意曲线:电脑操作任务上同样如此,中等挡位成本效率提升明显,高挡位部分任务追平 Opus 4.8。精确数据以下方官方图表为准。
不同算力挡位下的成本性能曲线
官方成本-性能曲线:上一代 Sonnet 4.6 明显够不到 Opus 4.8;Sonnet 5 覆盖的成本区间更宽,部分任务追平 Opus 4.8。图中 Sonnet 5 按标准价 $3/$15 计,限时价 $2/$10 下实际成本更低。xhigh =最高算力挡位。来源:Anthropic 官网。
评测口径的两处更新(6 月 30 日更正)

官方在 6 月 30 日修订了这篇发布:原先 BrowseComp 那张图用的是一套更简单的方法,低估了 Sonnet 5 的表现,现已改用系统卡里的标准方法(1000 万 token 预算 + 压缩 + 程序化工具调用)重绘。另外,两项旧分数因评分方式更新而被修正:Humanity's Last Exam 的 Sonnet 4.6 得分更新为 34.6%(无工具)/ 46.8%(有工具);OSWorld-Verified 的 Sonnet 4.6 得分更新为 78.5%。这几处与 Sonnet 4.6 发布博客里的数字不同,原因就在于评测方式变了。

4 核心机制

多花算力多想一步:一个模型怎么同时做到便宜和顶级

Sonnet 5 能横跨这么宽的价格区间,靠的是一个叫 effort(算力/推理强度挡位)的机制:同一个模型,让你自己选它「思考多用力」。挡位越低越便宜越快,但可能不够仔细;挡位越高,模型花越多算力去反复推理、自我核查,答案更准,但也更贵更慢。

打个比方

就像同一家馆子点同一道菜,你可以让厨师照常出餐,也可以加钱请他多花功夫、上菜前自己先尝一遍确认没问题再端出来。菜是同一道菜,变的是他有多用心、检查了几遍。effort 挡位调的就是这个「用心程度」。

low
便宜快
可能不够仔细
medium
性价比甜点
成本效率提升明显
high
更用力推理
更准更稳
xhigh
最高挡位
部分任务追平 Opus 4.8
柱子越高=越用力思考=更准,但花的算力(钱和时间)也越多。xhigh 即 extra high,最高挡位。
核心创新

过去要更强的能力,得换一个更大更贵的模型。现在你不换模型,只调一个旋钮:低挡位就是便宜快的入门款,高挡位(xhigh)多花算力反复推理和自查,部分任务追平旗舰 Opus 4.8。一个 Sonnet 5,把从入门到接近旗舰的整条价格带一口气占满,而不像 Sonnet 4.6 那样早早触顶。成本和性能之间的平衡点,交给你自己按项目去定。

5 早期反馈

早期用户反馈:不用催,它自己会检查作业

官方称早期访问伙伴的反馈相当一致:Sonnet 5 比前几代明显更「会自己干活」。测试者提到的几点客观描述如下。

  • 面对复杂任务,它能一直做到完成,而前几代 Sonnet 常常做到一半就停下。
  • 没人明确要求,它也会主动检查自己的输出对不对。
  • 做这些自主执行的活儿,价格还很有吸引力。
6 安全评估

更安全了,但网络攻击这一项被刻意摁住

部署前的安全评测显示,Sonnet 5 整体比 Sonnet 4.6 更安全:更擅长拒绝恶意请求、更能抵抗提示词注入(prompt injection,指攻击者把恶意指令偷偷藏进模型要处理的网页或邮件里,企图劫持模型去执行攻击者而非用户的指令),幻觉和讨好用户的倾向也更低。在覆盖多种不当行为的自动化行为审计里,它整体得分更低(也就是更安全),但仍高于更强的 Opus 4.8 和 Claude Mythos Preview。

Sonnet 4.6
Sonnet 5
Opus 4.8
Mythos Preview
相对示意(条越长=不当行为率越高=越不安全):Sonnet 5 低于 Sonnet 4.6,但高于 Opus 4.8 和 Mythos Preview。长度为相对排序,非精确数值,具体见下方官方图表。
各 Claude 模型的不当行为率对比
官方自动化行为审计中各模型的不当行为率:Sonnet 5 整体低于 Sonnet 4.6(更安全),但高于 Mythos Preview 和 Opus 4.8。完整清单见系统卡 6.4 节。来源:Anthropic 官网。

网络安全是被单独摁住的一项。官方说没有专门拿网络安全任务去训练 Sonnet 5:它能做些常规、无害的网络任务,但在开发软件漏洞利用这类可能造成危害的评测上,表现明显弱于 Opus 4.8 和 Mythos 5。

7 实测 · Firefox

一次具体的测试:能不能黑穿 Firefox

「网络攻击能力弱」听着抽象,官方给了一组具体数字:让各模型去为 Firefox 浏览器里的漏洞开发利用程序(exploit)。这项评测由 Anthropic 与 Mozilla 联合开发,涉及的漏洞都已在 Firefox 148 里修复。

0.0%
Sonnet 5 完整开发出可用漏洞的成功率
0.0%
Sonnet 4.6 完整成功率,与 Sonnet 5 持平

两款 Sonnet 都做不出一个完整可用的漏洞(均为 0.0%)。Sonnet 5 只是在部分成功率上比 Sonnet 4.6 略高,官方判断这多半来自整体智能变强的溢出,而非专门训练。作为对照,Opus 4.8 和 Mythos 5 的网络攻击能力都远强于这两款 Sonnet。

各模型在 Firefox 147 漏洞利用评测中的得分
Firefox 147 漏洞利用评测(Anthropic 与 Mozilla 联合开发,相关漏洞已在 Firefox 148 修复):每个模型左柱=完整可用漏洞的成功率,右柱=部分成功率。两款 Sonnet 完整成功率均为 0.0%,Sonnet 5 部分成功率略高于 Sonnet 4.6;两者均远低于 Opus 4.8 和 Mythos 5。详见系统卡 3.2.4 节。来源:Anthropic 官网。

因为 Sonnet 5 在这类任务上比上一代略强,官方给它默认开启了实时网络安全防护,能实时检测并拦截危险的网络用途,这套防护与 Claude Opus 4.7、4.8 同级。官方判断 Sonnet 5 的整体网络安全风险较低,所以这套防护比 Fable 5 那套宽松(后者会拦截范围大得多的网络安全任务)。

8 定价玄机

看着降价了,其实是换了一把新尺子

Sonnet 5 换了新的分词器(tokenizer)。模型处理文字前,要先把文字切成一个个 token 来计费和计算。换了新分词器后,同一段文字可能被切成更多 token,大约 1.0 到 1.35 倍(看内容类型)。也就是说,单看每 token 的价格降了,但同样一段话消耗的 token 变多了,实际单位成本没降那么多。

旧分词器(Sonnet 4.6)切成较少 token
同样一段文字交给模型处理
新分词器(Sonnet 5)切成更多 token(约 1.0 到 1.35 倍)
示意:拆分方式仅作演示,非真实分词边界。同一段话在新分词器下被切得更碎,token 数上去了。
单看价格

每百万 token 从 Sonnet 4.6 的价位,降到限时 $2/$10。

算上 token 变多

限时定价就是照着抵消分词器变化来定的,让从 Sonnet 4.6 换到 Sonnet 5 大致成本中性。

官方明说:限时定价的设定,就是要让这次升级换算下来接近成本中性。这也是为什么「降价」得打个引号,账要连 token 数一起算。这次分词器的调整,和 Claude Opus 4.7 那次是同一类做法。

9 现在就能用

现在就能用:上线范围、价格表、怎么选

Sonnet 5 今日起在全部计划上线:它是 Free 和 Pro 计划的默认模型,Max、Team、Enterprise 用户也能用;同时上线 Claude Code 和 Claude 开发平台,开发者可通过 Claude API 调用 claude-sonnet-5

模型输入 / 输出(每百万 token)
Sonnet 5(限时,至 2026-08-31)$2 / $10
Sonnet 5(之后标准价)$3 / $15
Opus 4.8(对比)$5 / $25
现在
$2 / $10
限时
2026-09-01 起
$3 / $15
标准价

为了适配更高算力挡位带来的更高 token 消耗,官方已在 Chat、Cowork、Claude Code、Claude 开发平台全线提高了调用速率上限,你可以按项目自己选合适的挡位。

怎么选

你是谁建议
开发者预算不变想要更强的 agentic 编程和工具调用:用高挡位;想省钱:调低 effort,用更低成本拿到接近旗舰的效果,自己在成本和性能间找平衡。
企业 / 团队Chat、Cowork、Claude Code、开发平台的速率上限已提高,适配高挡位的更高 token 消耗。
安全相关工作默认网络安全防护与 Opus 4.7/4.8 一致;若需要限制更少的网络安全研究、攻防类工作,官方建议改用 Opus 4.8,而非 Sonnet 5。
Sonnet 5 缩小了差距:它的表现接近 Opus 4.8,但价格更低。 Anthropic《Introducing Claude Sonnet 5》
本文依据 Anthropic 官网《Introducing Claude Sonnet 5》(含 2026 年 6 月 30 日更正)及 Claude Sonnet 5 系统卡整理。文内评测分数、成功率、定价均为 Anthropic 官方口径与自评数据,部分图表为官方原图,示意图/示意排序已标注。实际表现以实际使用为准。