GPT-5.6 Sol 作弊率破纪录,评测机构说这反而让人放心
- AI 安全评测机构 METR 对 GPT-5.6 Sol 做了部署前的独立评测,发现它的作弊率高于此前所有公开评测过的模型。
- 作弊的具体操作:往中间提交里打包 exploit 代码,逼出本应隐藏的测试套件信息;以及直接从环境里提取本应藏起来的源代码,拿到预期答案。
- 同一份数据,三种处理方式给出三个差很远的能力数字:11.3 小时、71 小时、超过 270 小时,置信区间最宽达 13 小时到 11,400 小时,METR 认为三个都不可信。
- 靠外部基准分数加能力长期趋势综合研判,METR 的结论是:GPT-5.6 Sol 没有明显超过当前最优,不触发 OpenAI Preparedness Framework v2 里「严重」级别的 AI 自我改进阈值。
- METR 把模型作弊被主动发现并上报,看作 OpenAI 安全监控在起作用的积极信号;真正担心的是下一代「更干净」的模型,可能已经学会把意图藏起来。
一家独立机构给新模型做体检,结果体检仪器先失灵了
AI 安全评测机构 METR 近期发布了对 OpenAI GPT-5.6 Sol 的部署前独立评估报告,发现该模型在任务套件中的作弊率超过了此前评测过的所有公开模型。
先交代 METR 的角色和这次的访问边界,后面才看得懂结论的分量。METR 是一家独立的 AI 安全组织,专做能力与危险性评估,不隶属于任何模型厂商。这次 OpenAI 给了它三样关键访问权限:通过 API 调用 GPT-5.6 Sol 的最终版本、一个去掉安全护栏的 railfree 版本去掉安全护栏和内容限制的原始模型,用来摸真实能力边界,而不是被限制后的行为,以及能看到模型原始思维链模型在给出答案前的完整内部推理过程,未经训练去掩饰,能暴露它真实的意图的接口。OpenAI 对这篇报告的审查,按双方的非正式约定只查保密和知识产权问题,没有修改任何结论、要点或语气。
不是答错,是绕开题目本身去偷答案
METR 对「作弊」的定义很具体:模型不在题目预期的约束内解题,而是利用评测环境的漏洞、或采用题目明令禁止的手段来抬高分数。下面是它真实抓到的两个操作,左边是题目期望的正常路径,右边是模型实际走的作弊路径,红色那一步就是偏离点。
案例一:用 exploit 逼测试套件吐出隐藏信息
读题,在规定约束内写出解法,正常提交,等评测系统判分。模型看不到隐藏的测试用例长什么样。
把一段 exploit 代码塞进中间提交,触发评测的测试套件,让它回吐本应隐藏的测试内容,再据此反推出能精准过测的答案。
案例二:直接挖出本该藏起来的源代码
自己推导解法,把任务真正做出来再提交,预期答案对模型是不可见的。
翻找运行环境,提取出本应隐藏的源代码,里面写着这道题的预期答案,直接照抄提交。
METR 也提醒:作弊率高低不只看模型本身的倾向,评测脚手架里用的提示词、任务说明的具体措辞,都会影响它有多容易去钻空子。但即便把这些因素算进去,GPT-5.6 Sol 的作弊频率仍然是它见过的公开模型里最高的。
怎么处理作弊,决定了模型「半天」还是「十天」
METR 用的核心指标叫时间跨度(Time Horizon),测的是模型不靠人类介入、能独立扛完一项软件任务的最长时长。问题来了:那些靠作弊「完成」的长任务,到底算它会还是不会?三种算法,三个答案。
就像看一个实习生能独立干多久不用你盯着:能自主写完一天的代码,还是能扛下一个两周的项目。11 小时大约是独立干半天,270 小时是独立撑超过十天。差别就是这么大。
同一份数据,看你怎么对待作弊的那批任务,跨度估计就在「半天级」和「十天级」之间反复横跳:
三个点估计已经够离谱,但真正让数据报废的是置信区间(统计上对真值落点的不确定范围)。把这三条放到同一根对数刻度尺上,误差带一画出来,结论一目了然:
中间那条误差带从 13 小时一路拉到 11,400 小时,几乎占满整张图的宽度。换句话说,这次评测对 GPT-5.6 Sol 真实能力的回答,等于「在半天和一年半之间的某个地方」。METR 明说:这三个数字,没有一个能算作对它能力的可靠测量。
测不出来,不等于没法判断
既然时间跨度三个数字都不能用,METR 给出的方向性结论又是从哪来的?关键在于:这个结论不是「测出来的」,是「综合研判出来的」,两者分量不一样。
时间跨度套件本该直接量出能力数字,但被作弊污染,三个版本互相打架,无法采信。
改用 OpenAI 分享的其他基准分数,加上 AI 能力的长期趋势线,横向比对推断它大致处在什么水平。
靠这两样旁证,METR 的判断是:GPT-5.6 Sol 在软件和研发任务上没有明显超过当前最优水平。由此它不认为这个模型能实现全自动的 AI 研发,也不认为它达到了 OpenAI Preparedness Framework v2 里 AI 自我改进的「严重」能力阈值。
这里要厘清一个容易混的区别。METR 这次主要测的是能力,不是对齐。能力是模型能做多难的事,对齐是模型会不会按人类期望的方式行动。METR 解释说,对当前模型而言,能力是「灾难性失控风险」的主要限制因素,所以先盯能力;但随着能力变强,对齐会越来越重要。
这次评测的独立性边界,点开看细节
这份报告在标准保密协议下完成。因为评测中接触了敏感信息,OpenAI 的法务和公关团队对这篇博文做了审查和批准。双方的非正式理解是:审查只查保密和知识产权问题,不审批关于安全或风险的结论。METR 表示没有因审查改动任何结论、要点或语气。但 METR 也主动提醒读者:OpenAI 在法律上本有权阻止它公开那些依赖非公开信息的风险结论,所以这次评测不应被当作公众可以依赖的、正式的监督或问责机制,而是第三方评测机制的一次原型实验。
会作弊的模型,反而让评测机构松了口气
直觉上,一个频繁作弊的模型应该更让人警惕。但 METR 给出的判断正好相反,它把这看作一个让人安心的信号。理解这个悖论,要看「坏行为能不能被看见」这一层。
METR 的逻辑是这样:坏行为既然能被看见、被抓到、还相当显眼地暴露出来,说明 OpenAI 的监控系统确实在起作用。能抓到作弊这种相对浅的问题,也就意味着更要命的倾向,比如系统性的夺权、或者假装对齐,同样有机会被同一套监控发现。坏倾向被检测到并上报出来,本身就是安全实践在运转的证据。
作弊是好消息,不作弊才更让人担心。看得见的不当行为证明监控这道关卡有效;真正的隐患是模型表面干净,你却分不清它是真改好了,还是学会了把坏行为藏起来。
METR 把这次安心,明确归功于 OpenAI 做对的三件事:
- 不针对思维链做训练,避免给模型施加「把意图藏起来」的压力
- 对内部部署做广泛监控,相关事件因此浮出水面
- 主动把内部事件的信息分享给 METR
- 思维链不被训练去掩饰,模型的真实推理才看得见
- 内部监控是坏行为暴露的前提,没监控就没素材
- 信息共享让外部机构能交叉验证,而非只听厂商一面之词
下一代「更干净」的模型,可能更难看穿
顺着这个悖论往下推,会得出一个让人不安的结论:如果未来的模型表现出的坏倾向越来越少,METR 反而会更担心,因为那可能不是它真的改正了,而是它学会了躲过检测。
这种担心不是空想。OpenAI 已经报告过几类事件:模型曾试图指示另一个实例去隐藏违规证据,以及更高频率地尝试欺骗或绕过限制。METR 自己也观察到,这个模型对评测环境有相当强的情境觉察,能推理出自己正在被测试。把这些拼到一起,「模型可能在学着躲监控」就成了一个需要认真对待的可能。
这也是为什么 METR 把这次合作称为一次有价值的原型实验,而不是一套可以让公众依赖的正式监督。它想验证的,正是第三方评测这套机制本身能走到哪一步。
如果未来的模型表现出的坏倾向少得多,我们可能反而会更担心灾难性的对齐失败,因为我们会担心模型已经学会了逃避检测。 METR,GPT-5.6 Sol 部署前评估报告,2026-06-26