研究解读 · 小互解读

桥水训了个专做金融信息筛选的模型,准确率 84.7%,方法公开

联合 Thinking Machines,用专家标注数据微调开源模型:比前沿最优错误率降 29.8%,推理成本仅 1/14
速览
  • Thinking Machines Lab 联合桥水(Bridgewater)旗下 AIA Labs,用自家微调平台 Tinker,训练了一个专门做金融信息筛选的定制模型。
  • 顶级大模型(Gemini、Claude、GPT 系列)用简单提示词做 6 项财经筛选任务,平均准确率只有约 50%,反复优化提示词后最高到 78.2%,仍够不到投资者要求的 80% 可信门槛。
  • 训练数据最初来自非专家标注、错误很多。团队设计了一套办法:只把「模型判断和标签对不上」的分歧样本送专家复核,其余沿用,压住了标注成本。
  • 以开源的 Qwen3-235B 为基座,标准 GRPO 强化学习微调把准确率打到 73.48%,再叠加交错批次训练、CISPO 非对称裁剪损失、动态提拔教师的在线策略蒸馏,最终做到 84.66%。
  • 最终模型准确率 84.7%,比测试过的最优前沿模型(78.2%)错误率少 29.8%,单任务推理成本只有对应前沿模型的 1/13.8。
⚑ 立场提示:本文是 Thinking Machines Lab 与桥水 AIA Labs 联合发布的官方博客,模型、数据、对比结果均为发布方自评,用的是其内部数据的公开子集。下文数字均按原文口径转述。
1投资经理一眼能看懂,AI 却只能蒙

投资经理一秒判断的新闻,AI 却只能蒙

Thinking Machines Lab 与桥水(Bridgewater)旗下 AIA Labs 联合发文,公布了一套用自家微调平台 Tinker 训练金融信息筛选模型的方法和结果。

要自动化的不是写投研报告,而是投资经理每天重复无数遍的「信息分拣」:从新闻、研报、公司文件、邮件里挑出真正值得读的那部分。读本身不难,难的是这一层层贴身的判断,它吃掉了大量时间。团队想看看:这活儿能不能交给模型。

结果先摆出来:顶级大模型直接上手,平均准确率只有约 50%,跟抛硬币差不多;而这个定制小模型做到了 84.7%,推理成本还只有前沿模型的 1/13.8。
为什么值得看:一个开源基座微调出来的小模型,在具体判断任务上把最强前沿大模型(78.2%)的错误率压低了 29.8%,同时把单任务推理成本砍到它的 1/13.8。不是「更聪明的通用模型」,而是「为一件具体的事专门调过的小模型」赢了。
2要自动化的六件小事

投资经理每天在做的六件「小事」

这六件事对投资经理是本能,一秒判完;可一旦要讲清「我凭什么这么判」,人就卡壳了,也正因如此难教给 AI。团队把它们逐条拆出来做评测。

TASK 01
财经文章相关性
一篇财经文章,值不值得投资高管看。难在「相关」不等于「有意义」,需要投资判断力,不是关键词匹配。
TASK 02
央行文件方向
一份央行文件,是否暗示未来利率的走向。要读出字缝里的政策倾向,人凭经验就懂。
TASK 03
研报是否答题
给定一个投资者的问题和一份研究文档,这份文档能不能帮上忙。判断的是「有没有答案」,不是「有没有提到」。
TASK 04
常规内容标记
研报是纯套模板(重复样板),还是模板里夹了一次性的新分析。要分清哪种,还要找出新分析在第几页结束。
TASK 05
文档截断
找出文档从哪里开始变成套话样板。人扫一眼就知道正文到哪结束,模型要精确定位。
TASK 06
邮件截断
找出邮件正文从哪里开始变成签名、免责声明这类样板。同样是「正文到哪为止」的一秒判断。

前三项是分类任务(评测看准确率 + F1 分数),后三项是定位任务(评测看精确匹配准确率)。原文说,内部还有很多类似任务,规律都一样:前沿模型在这类活儿上,普遍不如自己训练的模型。

3一条该看,一条该划走

两条都沾政治和财经,为什么一条相关一条不相关

拿「财经文章相关性」举个真实例子。下面两条标题都同时踩着地缘政治和财经,可对一个宏观投资者来说,一条值得看,一条该直接划走。你先猜猜哪条相关?

标题 A
「特朗普坚称格陵兰岛归他所有」
来源:ft.com,一篇讲特朗普与格陵兰岛的文章配图。
标题 B
「特朗普威胁对华加征新关税,美股尾盘大跌」
来源:ft.com。标普 500 创 4 月以来最大单日跌幅,数周涨势就此中断。
揭晓:哪条相关,为什么

B 相关,A 不相关。放在文章语境里,格陵兰岛那条更像政治姿态,不太会被市场当真;而对华关税直接砸出了标普 500 数周来最大的单日跌幅,是硬邦邦的市场信号。可两条都同时沾着地缘政治和财经,光看关键词根本分不开,模型也正是在这种地方翻车。这类判断考的是投资语境,不是词面匹配。

4提示词工程的天花板

换着法子调 prompt,AI 还是卡在 78.2%

团队先走了最省事的路:靠提示词工程救场。专家照真实任务描述重写了指令,还重新定义了任务,比如把文章分类从「相关 / 不相关」两类,改成「相关且有趣、相关但无趣、不相关」三类,因为一条小 IPO 新闻虽然算财经相关,却没有宏观投资者要的那种大局意义。

简单提示词
(前沿模型平均)
~50%
优化提示词后
(最优前沿模型)
78.2%
╌╌ 80% 投资者可信门槛:优化到头,最优前沿模型仍差 1.8 个百分点,没跨过去。

提示词把准确率从抛硬币水平拉到了 70 多,但再往上就到顶了,自动提示词优化也压不出更多空间。原文还点了一句「贵不一定更准」:GPT 5.4 比 5.2 贵 43%,准确率却只小幅提升,说明新模型在这类任务上进步不大,尤其是按花的钱算。

各前沿模型优化后的准确率 / F1(原文数据)
前沿模型(最佳提示)准确率正类 F1
模型族一~47.2%77.2%
模型二50.1%74.3%
模型三47.2%75.8%
模型四(最优)48.5%78.2%
模型五45.6%78.0%

注:F1 为 3 项分类任务平均,准确率为全部 6 项任务平均;原文口径下最优前沿模型准确率上限为 78.2%,这也是后续定制模型对标的基准。

5先修数据,再谈训练

标注数据本身就是错的:怎么只让专家看真正难的样本

提示词到顶后,团队转向微调。但第一道坎不在训练,在数据:这些判断只有过投资专家的眼才有价值。他们最初从供应商买的是非专家标注,拿去训练,模型照样很差,翻看模型的推理过程才发现,数据集里的标签本身经常就是错的。

全找专家重标太贵。团队想了个巧办法:让模型自己揪出「可疑」的样本,只把这些送专家。逻辑很直接,如果一个样本连它自己的训练集都对不上,那要么这题是真难,要么原标签就标错了,两种情况都值得专家看一眼。

非专家标注数据
训练一版初始模型
让模型给同一批数据打分
挑出和原标签对不上的分歧样本
只把分歧样本送专家复核
清洗出干净训练集
在独立留出集上最终测试

这样一来,专家的人力只花在真正有争议的样本上,其余沿用,既清了数据又控住了成本。最终评测则放在一个完全独立、没参与过清洗的留出集上做,避免自己给自己放水。

6核心:三招把准确率拉起来

三招组合拳,把准确率从 73% 拉到 84.7%

数据干净后进入训练。团队选了学术界研究得最透的开源模型 Qwen3-235B 当基座,训练全在 Tinker 上跑,不用操心 GPU 基础设施。第一步用标准 GRPO 强化学习微调打地基,准确率一下从基座的 44.8% 跳到 73.48%,但还没摸到 80% 门槛。真正把它推过线的,是叠在上面的三项改进。

先搞懂地基 · GRPO

GRPO 是一种不用额外训练「评委模型」的强化学习方法:让模型对同一道题给出一批候选答案,互相比较谁更接近标准答案,做得好的以后就多学着做。像一群人做同一道题,不找老师打分,而是彼此比对谁答得更对。

80% 可信门槛 44.8% Qwen 基座 73.48% +GRPO 微调 84.66% +三项改进(全配方) 1/13.8 推理成本

阶梯为原文三个真实数据点:基座 44.8% → GRPO 73.48% → 全配方 84.66%。中间 11 个百分点的跃升,来自下面三项改进的组合。

核心创新 · 三项改进

下面三项各自的百分比来自「消融实验」:把全配方里单独去掉某一项,看准确率掉多少。数字不是简单相加,而是每一项都不可或缺,抽掉任意一项,成绩都会明显回落。

+12.1%
交错批次训练
六个任务不再「完全混在一批」训,而是每批只练一个任务、按任务轮流交错。较完全混合批次高 12.1%。
+10.1%
CISPO 非对称裁剪
换掉标准的重要性采样损失,改用 CISPO 非对称裁剪来控制每步更新幅度。较原损失高 10.1%。
+3.1%
教师动态提拔
在线策略蒸馏里,教师不固定在基座,而是学生创新高就顶上去。较固定教师额外高 3.1%。
消融实验完整数据(去掉单项看掉多少)
训练配置平均准确率正类 F1
Qwen 基座44.8%55.24%
Qwen + GRPO73.48%88.95%
Qwen + 全配方84.66%92.99%
− 交错批次训练72.18%89.01%
− CISPO 非对称裁剪74.56%90.64%
− 在线策略蒸馏72.39%87.93%
− 教师动态提拔(改用固定基座当教师)81.55%89.41%
7黑话拆解

CISPO 和「在线策略蒸馏」到底在干什么

上面三招里,CISPO 和在线策略蒸馏两个名字最唬人。不懂强化学习也没关系,它们要解决的其实是同一类朴素问题:别让模型学过头、学歪,以及给它找个靠谱的老师带着学。

CISPO 非对称裁剪损失

它管的是「模型每一步能改多大」。对「往好方向学」和「往坏方向学」给不同的容忍度:像纠正学生,允许他大步迈向正确答案,可一旦发现他在往错误方向走,立刻拉紧缰绳。这样既不学过头,也不至于太保守缩手缩脚。

在线策略蒸馏 + 动态提拔教师

学生模型一边自己练习,一边参考一个「教师模型」的答案分布,偏离老师太远就会被扣分拉回来(原文用一个惩罚项,学生和教师的差距越大,奖励扣得越多)。关键在教师不是死的:每 20 步查一次验证集准确率,只要学生创了新高,就把学生本身提拔成新教师,绝不会拿一个更弱的模型倒退式地教。

① 学生自己练习 生成答案,拿奖励 ② 对比教师分布 偏离越远,扣分越多 ③ 每 20 步查验证集 准确率有没有创新高? ④ 创新高则 学生升为新教师 ↺ 新教师带着学生进入下一轮,水平只升不降
一句话记住

像学徒定期考核:一旦学徒水平超过当前师傅,师傅的位置就换成这个学徒本人,由「更强的自己」继续往前教下一阶段。这一步(教师动态提拔)比用固定基座当教师额外带来 3.1% 的提升。

8最终战绩

错误率降三成,推理成本砍到 1/14

所有改进叠完,定制模型把平均准确率从最优前沿模型的 78.2% 提到 84.7%,团队认为这个水平已经够日常用了。更省的是钱:模型体量小得多,单任务推理成本只有对应前沿模型的 1/13.8。

前沿最优模型
78.2%
平均准确率(优化提示词后上限,未过 80% 门槛)
单任务推理成本(基准)
自研定制模型
84.7%
平均准确率,错误率较前沿最优少 29.8%
1/13.8
单任务推理成本,降到前沿模型的十四分之一
29.8%
自研模型相比最优前沿模型的错误率下降幅度
13.8×
单任务推理成本的降幅

原文说,这个结论远不止这里公开的 6 项任务成立,内部大量类似任务规律一致。方法论也不绑定金融:一套「用模型分歧路由筛出难样本、请专家清洗数据,再做强化学习微调」的做法,原文认为可以推广到其他机构自己的具体判断任务上。他们把这称作「差异化智能」(differentiated intelligence):针对具体组织需求调出来的定制模型,在自家的活儿上胜过通用前沿模型。

Our results show the possibility of a future of differentiated intelligence, where custom models tuned to specific organizational needs outperform frontier models. Thinking Machines Lab(与 Bridgewater AIA Labs),《Learning to Replicate Expert Judgment in Financial Tasks》,2026 年 6 月
来源:Thinking Machines Lab 官方博客《Learning to replicate expert judgment in financial tasks》(与 Bridgewater AIA Labs 联合,2026 年 6 月)。作者:Su, Sarah;Zhu, Kevin;Xiao, Emily;Alur, Rohan;Kang, Daniel。本文为小互解读站中文可视化解读,全部模型、数据与对比结论均为发布方自评口径,基于其内部数据的公开子集。