研究解读 · 小互解读

桥水训了个专做金融信息筛选的模型，准确率 84.7%，方法公开

联合 Thinking Machines，用专家标注数据微调开源模型：比前沿最优错误率降 29.8%，推理成本仅 1/14

速览

Thinking Machines Lab 联合桥水（Bridgewater）旗下 AIA Labs，用自家微调平台 Tinker，训练了一个专门做金融信息筛选的定制模型。
顶级大模型（Gemini、Claude、GPT 系列）用简单提示词做 6 项财经筛选任务，平均准确率只有约 50%，反复优化提示词后最高到 78.2%，仍够不到投资者要求的 80% 可信门槛。
训练数据最初来自非专家标注、错误很多。团队设计了一套办法：只把「模型判断和标签对不上」的分歧样本送专家复核，其余沿用，压住了标注成本。
以开源的 Qwen3-235B 为基座，标准 GRPO 强化学习微调把准确率打到 73.48%，再叠加交错批次训练、CISPO 非对称裁剪损失、动态提拔教师的在线策略蒸馏，最终做到 84.66%。
最终模型准确率 84.7%，比测试过的最优前沿模型（78.2%）错误率少 29.8%，单任务推理成本只有对应前沿模型的 1/13.8。

⚑ 立场提示：本文是 Thinking Machines Lab 与桥水 AIA Labs 联合发布的官方博客，模型、数据、对比结果均为发布方自评，用的是其内部数据的公开子集。下文数字均按原文口径转述。

1投资经理一眼能看懂，AI 却只能蒙

投资经理一秒判断的新闻，AI 却只能蒙

Thinking Machines Lab 与桥水（Bridgewater）旗下 AIA Labs 联合发文，公布了一套用自家微调平台 Tinker 训练金融信息筛选模型的方法和结果。

要自动化的不是写投研报告，而是投资经理每天重复无数遍的「信息分拣」：从新闻、研报、公司文件、邮件里挑出真正值得读的那部分。读本身不难，难的是这一层层贴身的判断，它吃掉了大量时间。团队想看看：这活儿能不能交给模型。

结果先摆出来：顶级大模型直接上手，平均准确率只有约 50%，跟抛硬币差不多；而这个定制小模型做到了 84.7%，推理成本还只有前沿模型的 1/13.8。

◆

为什么值得看：一个开源基座微调出来的小模型，在具体判断任务上把最强前沿大模型（78.2%）的错误率压低了 29.8%，同时把单任务推理成本砍到它的 1/13.8。不是「更聪明的通用模型」，而是「为一件具体的事专门调过的小模型」赢了。

2要自动化的六件小事

投资经理每天在做的六件「小事」

这六件事对投资经理是本能，一秒判完；可一旦要讲清「我凭什么这么判」，人就卡壳了，也正因如此难教给 AI。团队把它们逐条拆出来做评测。

TASK 01

财经文章相关性

一篇财经文章，值不值得投资高管看。难在「相关」不等于「有意义」，需要投资判断力，不是关键词匹配。

TASK 02

央行文件方向

一份央行文件，是否暗示未来利率的走向。要读出字缝里的政策倾向，人凭经验就懂。

TASK 03

研报是否答题

给定一个投资者的问题和一份研究文档，这份文档能不能帮上忙。判断的是「有没有答案」，不是「有没有提到」。

TASK 04

常规内容标记

研报是纯套模板（重复样板），还是模板里夹了一次性的新分析。要分清哪种，还要找出新分析在第几页结束。

TASK 05

文档截断

找出文档从哪里开始变成套话样板。人扫一眼就知道正文到哪结束，模型要精确定位。

TASK 06

邮件截断

找出邮件正文从哪里开始变成签名、免责声明这类样板。同样是「正文到哪为止」的一秒判断。

前三项是分类任务（评测看准确率 + F1 分数），后三项是定位任务（评测看精确匹配准确率）。原文说，内部还有很多类似任务，规律都一样：前沿模型在这类活儿上，普遍不如自己训练的模型。

3一条该看，一条该划走

两条都沾政治和财经，为什么一条相关一条不相关

拿「财经文章相关性」举个真实例子。下面两条标题都同时踩着地缘政治和财经，可对一个宏观投资者来说，一条值得看，一条该直接划走。你先猜猜哪条相关？

标题 A

「特朗普坚称格陵兰岛归他所有」

来源：ft.com，一篇讲特朗普与格陵兰岛的文章配图。

标题 B

「特朗普威胁对华加征新关税，美股尾盘大跌」

来源：ft.com。标普 500 创 4 月以来最大单日跌幅，数周涨势就此中断。

揭晓：哪条相关，为什么

B 相关，A 不相关。放在文章语境里，格陵兰岛那条更像政治姿态，不太会被市场当真；而对华关税直接砸出了标普 500 数周来最大的单日跌幅，是硬邦邦的市场信号。可两条都同时沾着地缘政治和财经，光看关键词根本分不开，模型也正是在这种地方翻车。这类判断考的是投资语境，不是词面匹配。

4提示词工程的天花板

换着法子调 prompt，AI 还是卡在 78.2%

团队先走了最省事的路：靠提示词工程救场。专家照真实任务描述重写了指令，还重新定义了任务，比如把文章分类从「相关 / 不相关」两类，改成「相关且有趣、相关但无趣、不相关」三类，因为一条小 IPO 新闻虽然算财经相关，却没有宏观投资者要的那种大局意义。

简单提示词
（前沿模型平均）

~50%

优化提示词后
（最优前沿模型）

78.2%

╌╌ 80% 投资者可信门槛：优化到头，最优前沿模型仍差 1.8 个百分点，没跨过去。

提示词把准确率从抛硬币水平拉到了 70 多，但再往上就到顶了，自动提示词优化也压不出更多空间。原文还点了一句「贵不一定更准」：GPT 5.4 比 5.2 贵 43%，准确率却只小幅提升，说明新模型在这类任务上进步不大，尤其是按花的钱算。

各前沿模型优化后的准确率 / F1（原文数据）

前沿模型（最佳提示）	准确率	正类 F1
模型族一	~47.2%	77.2%
模型二	50.1%	74.3%
模型三	47.2%	75.8%
模型四（最优）	48.5%	78.2%
模型五	45.6%	78.0%

注：F1 为 3 项分类任务平均，准确率为全部 6 项任务平均；原文口径下最优前沿模型准确率上限为 78.2%，这也是后续定制模型对标的基准。

5先修数据，再谈训练

标注数据本身就是错的：怎么只让专家看真正难的样本

提示词到顶后，团队转向微调。但第一道坎不在训练，在数据：这些判断只有过投资专家的眼才有价值。他们最初从供应商买的是非专家标注，拿去训练，模型照样很差，翻看模型的推理过程才发现，数据集里的标签本身经常就是错的。

全找专家重标太贵。团队想了个巧办法：让模型自己揪出「可疑」的样本，只把这些送专家。逻辑很直接，如果一个样本连它自己的训练集都对不上，那要么这题是真难，要么原标签就标错了，两种情况都值得专家看一眼。

非专家标注数据

→

训练一版初始模型

→

让模型给同一批数据打分

→

挑出和原标签对不上的分歧样本

→

只把分歧样本送专家复核

→

清洗出干净训练集

→

在独立留出集上最终测试

这样一来，专家的人力只花在真正有争议的样本上，其余沿用，既清了数据又控住了成本。最终评测则放在一个完全独立、没参与过清洗的留出集上做，避免自己给自己放水。

6核心：三招把准确率拉起来

三招组合拳，把准确率从 73% 拉到 84.7%

数据干净后进入训练。团队选了学术界研究得最透的开源模型 Qwen3-235B 当基座，训练全在 Tinker 上跑，不用操心 GPU 基础设施。第一步用标准 GRPO 强化学习微调打地基，准确率一下从基座的 44.8% 跳到 73.48%，但还没摸到 80% 门槛。真正把它推过线的，是叠在上面的三项改进。

先搞懂地基 · GRPO

GRPO 是一种不用额外训练「评委模型」的强化学习方法：让模型对同一道题给出一批候选答案，互相比较谁更接近标准答案，做得好的以后就多学着做。像一群人做同一道题，不找老师打分，而是彼此比对谁答得更对。

阶梯为原文三个真实数据点：基座 44.8% → GRPO 73.48% → 全配方 84.66%。中间 11 个百分点的跃升，来自下面三项改进的组合。

核心创新 · 三项改进

下面三项各自的百分比来自「消融实验」：把全配方里单独去掉某一项，看准确率掉多少。数字不是简单相加，而是每一项都不可或缺，抽掉任意一项，成绩都会明显回落。

+12.1%

交错批次训练

六个任务不再「完全混在一批」训，而是每批只练一个任务、按任务轮流交错。较完全混合批次高 12.1%。

+10.1%

CISPO 非对称裁剪

换掉标准的重要性采样损失，改用 CISPO 非对称裁剪来控制每步更新幅度。较原损失高 10.1%。

+3.1%

教师动态提拔

在线策略蒸馏里，教师不固定在基座，而是学生创新高就顶上去。较固定教师额外高 3.1%。

消融实验完整数据（去掉单项看掉多少）

训练配置	平均准确率	正类 F1
Qwen 基座	44.8%	55.24%
Qwen + GRPO	73.48%	88.95%
Qwen + 全配方	84.66%	92.99%
− 交错批次训练	72.18%	89.01%
− CISPO 非对称裁剪	74.56%	90.64%
− 在线策略蒸馏	72.39%	87.93%
− 教师动态提拔（改用固定基座当教师）	81.55%	89.41%

7黑话拆解

CISPO 和「在线策略蒸馏」到底在干什么

上面三招里，CISPO 和在线策略蒸馏两个名字最唬人。不懂强化学习也没关系，它们要解决的其实是同一类朴素问题：别让模型学过头、学歪，以及给它找个靠谱的老师带着学。

CISPO 非对称裁剪损失

它管的是「模型每一步能改多大」。对「往好方向学」和「往坏方向学」给不同的容忍度：像纠正学生，允许他大步迈向正确答案，可一旦发现他在往错误方向走，立刻拉紧缰绳。这样既不学过头，也不至于太保守缩手缩脚。

在线策略蒸馏 + 动态提拔教师

学生模型一边自己练习，一边参考一个「教师模型」的答案分布，偏离老师太远就会被扣分拉回来（原文用一个惩罚项，学生和教师的差距越大，奖励扣得越多）。关键在教师不是死的：每 20 步查一次验证集准确率，只要学生创了新高，就把学生本身提拔成新教师，绝不会拿一个更弱的模型倒退式地教。

一句话记住

像学徒定期考核：一旦学徒水平超过当前师傅，师傅的位置就换成这个学徒本人，由「更强的自己」继续往前教下一阶段。这一步（教师动态提拔）比用固定基座当教师额外带来 3.1% 的提升。

8最终战绩

错误率降三成，推理成本砍到 1/14

所有改进叠完，定制模型把平均准确率从最优前沿模型的 78.2% 提到 84.7%，团队认为这个水平已经够日常用了。更省的是钱：模型体量小得多，单任务推理成本只有对应前沿模型的 1/13.8。

前沿最优模型

78.2%

平均准确率（优化提示词后上限，未过 80% 门槛）

1×

单任务推理成本（基准）

自研定制模型

84.7%

平均准确率，错误率较前沿最优少 29.8%

1/13.8

单任务推理成本，降到前沿模型的十四分之一

29.8%

自研模型相比最优前沿模型的错误率下降幅度

13.8×

单任务推理成本的降幅

原文说，这个结论远不止这里公开的 6 项任务成立，内部大量类似任务规律一致。方法论也不绑定金融：一套「用模型分歧路由筛出难样本、请专家清洗数据，再做强化学习微调」的做法，原文认为可以推广到其他机构自己的具体判断任务上。他们把这称作「差异化智能」（differentiated intelligence）：针对具体组织需求调出来的定制模型，在自家的活儿上胜过通用前沿模型。

Our results show the possibility of a future of differentiated intelligence, where custom models tuned to specific organizational needs outperform frontier models. Thinking Machines Lab（与 Bridgewater AIA Labs），《Learning to Replicate Expert Judgment in Financial Tasks》，2026 年 6 月

来源：Thinking Machines Lab 官方博客《Learning to replicate expert judgment in financial tasks》（与 Bridgewater AIA Labs 联合，2026 年 6 月）。作者：Su, Sarah；Zhu, Kevin；Xiao, Emily；Alur, Rohan；Kang, Daniel。本文为小互解读站中文可视化解读，全部模型、数据与对比结论均为发布方自评口径，基于其内部数据的公开子集。