桥水训了个专做金融信息筛选的模型,准确率 84.7%,方法公开
- Thinking Machines Lab 联合桥水(Bridgewater)旗下 AIA Labs,用自家微调平台 Tinker,训练了一个专门做金融信息筛选的定制模型。
- 顶级大模型(Gemini、Claude、GPT 系列)用简单提示词做 6 项财经筛选任务,平均准确率只有约 50%,反复优化提示词后最高到 78.2%,仍够不到投资者要求的 80% 可信门槛。
- 训练数据最初来自非专家标注、错误很多。团队设计了一套办法:只把「模型判断和标签对不上」的分歧样本送专家复核,其余沿用,压住了标注成本。
- 以开源的 Qwen3-235B 为基座,标准 GRPO 强化学习微调把准确率打到 73.48%,再叠加交错批次训练、CISPO 非对称裁剪损失、动态提拔教师的在线策略蒸馏,最终做到 84.66%。
- 最终模型准确率 84.7%,比测试过的最优前沿模型(78.2%)错误率少 29.8%,单任务推理成本只有对应前沿模型的 1/13.8。
投资经理一秒判断的新闻,AI 却只能蒙
Thinking Machines Lab 与桥水(Bridgewater)旗下 AIA Labs 联合发文,公布了一套用自家微调平台 Tinker 训练金融信息筛选模型的方法和结果。
要自动化的不是写投研报告,而是投资经理每天重复无数遍的「信息分拣」:从新闻、研报、公司文件、邮件里挑出真正值得读的那部分。读本身不难,难的是这一层层贴身的判断,它吃掉了大量时间。团队想看看:这活儿能不能交给模型。
投资经理每天在做的六件「小事」
这六件事对投资经理是本能,一秒判完;可一旦要讲清「我凭什么这么判」,人就卡壳了,也正因如此难教给 AI。团队把它们逐条拆出来做评测。
前三项是分类任务(评测看准确率 + F1 分数),后三项是定位任务(评测看精确匹配准确率)。原文说,内部还有很多类似任务,规律都一样:前沿模型在这类活儿上,普遍不如自己训练的模型。
两条都沾政治和财经,为什么一条相关一条不相关
拿「财经文章相关性」举个真实例子。下面两条标题都同时踩着地缘政治和财经,可对一个宏观投资者来说,一条值得看,一条该直接划走。你先猜猜哪条相关?
揭晓:哪条相关,为什么
B 相关,A 不相关。放在文章语境里,格陵兰岛那条更像政治姿态,不太会被市场当真;而对华关税直接砸出了标普 500 数周来最大的单日跌幅,是硬邦邦的市场信号。可两条都同时沾着地缘政治和财经,光看关键词根本分不开,模型也正是在这种地方翻车。这类判断考的是投资语境,不是词面匹配。
换着法子调 prompt,AI 还是卡在 78.2%
团队先走了最省事的路:靠提示词工程救场。专家照真实任务描述重写了指令,还重新定义了任务,比如把文章分类从「相关 / 不相关」两类,改成「相关且有趣、相关但无趣、不相关」三类,因为一条小 IPO 新闻虽然算财经相关,却没有宏观投资者要的那种大局意义。
提示词把准确率从抛硬币水平拉到了 70 多,但再往上就到顶了,自动提示词优化也压不出更多空间。原文还点了一句「贵不一定更准」:GPT 5.4 比 5.2 贵 43%,准确率却只小幅提升,说明新模型在这类任务上进步不大,尤其是按花的钱算。
各前沿模型优化后的准确率 / F1(原文数据)
| 前沿模型(最佳提示) | 准确率 | 正类 F1 |
|---|---|---|
| 模型族一 | ~47.2% | 77.2% |
| 模型二 | 50.1% | 74.3% |
| 模型三 | 47.2% | 75.8% |
| 模型四(最优) | 48.5% | 78.2% |
| 模型五 | 45.6% | 78.0% |
注:F1 为 3 项分类任务平均,准确率为全部 6 项任务平均;原文口径下最优前沿模型准确率上限为 78.2%,这也是后续定制模型对标的基准。
标注数据本身就是错的:怎么只让专家看真正难的样本
提示词到顶后,团队转向微调。但第一道坎不在训练,在数据:这些判断只有过投资专家的眼才有价值。他们最初从供应商买的是非专家标注,拿去训练,模型照样很差,翻看模型的推理过程才发现,数据集里的标签本身经常就是错的。
全找专家重标太贵。团队想了个巧办法:让模型自己揪出「可疑」的样本,只把这些送专家。逻辑很直接,如果一个样本连它自己的训练集都对不上,那要么这题是真难,要么原标签就标错了,两种情况都值得专家看一眼。
这样一来,专家的人力只花在真正有争议的样本上,其余沿用,既清了数据又控住了成本。最终评测则放在一个完全独立、没参与过清洗的留出集上做,避免自己给自己放水。
三招组合拳,把准确率从 73% 拉到 84.7%
数据干净后进入训练。团队选了学术界研究得最透的开源模型 Qwen3-235B 当基座,训练全在 Tinker 上跑,不用操心 GPU 基础设施。第一步用标准 GRPO 强化学习微调打地基,准确率一下从基座的 44.8% 跳到 73.48%,但还没摸到 80% 门槛。真正把它推过线的,是叠在上面的三项改进。
GRPO 是一种不用额外训练「评委模型」的强化学习方法:让模型对同一道题给出一批候选答案,互相比较谁更接近标准答案,做得好的以后就多学着做。像一群人做同一道题,不找老师打分,而是彼此比对谁答得更对。
阶梯为原文三个真实数据点:基座 44.8% → GRPO 73.48% → 全配方 84.66%。中间 11 个百分点的跃升,来自下面三项改进的组合。
下面三项各自的百分比来自「消融实验」:把全配方里单独去掉某一项,看准确率掉多少。数字不是简单相加,而是每一项都不可或缺,抽掉任意一项,成绩都会明显回落。
消融实验完整数据(去掉单项看掉多少)
| 训练配置 | 平均准确率 | 正类 F1 |
|---|---|---|
| Qwen 基座 | 44.8% | 55.24% |
| Qwen + GRPO | 73.48% | 88.95% |
| Qwen + 全配方 | 84.66% | 92.99% |
| − 交错批次训练 | 72.18% | 89.01% |
| − CISPO 非对称裁剪 | 74.56% | 90.64% |
| − 在线策略蒸馏 | 72.39% | 87.93% |
| − 教师动态提拔(改用固定基座当教师) | 81.55% | 89.41% |
CISPO 和「在线策略蒸馏」到底在干什么
上面三招里,CISPO 和在线策略蒸馏两个名字最唬人。不懂强化学习也没关系,它们要解决的其实是同一类朴素问题:别让模型学过头、学歪,以及给它找个靠谱的老师带着学。
它管的是「模型每一步能改多大」。对「往好方向学」和「往坏方向学」给不同的容忍度:像纠正学生,允许他大步迈向正确答案,可一旦发现他在往错误方向走,立刻拉紧缰绳。这样既不学过头,也不至于太保守缩手缩脚。
在线策略蒸馏 + 动态提拔教师
学生模型一边自己练习,一边参考一个「教师模型」的答案分布,偏离老师太远就会被扣分拉回来(原文用一个惩罚项,学生和教师的差距越大,奖励扣得越多)。关键在教师不是死的:每 20 步查一次验证集准确率,只要学生创了新高,就把学生本身提拔成新教师,绝不会拿一个更弱的模型倒退式地教。
像学徒定期考核:一旦学徒水平超过当前师傅,师傅的位置就换成这个学徒本人,由「更强的自己」继续往前教下一阶段。这一步(教师动态提拔)比用固定基座当教师额外带来 3.1% 的提升。
错误率降三成,推理成本砍到 1/14
所有改进叠完,定制模型把平均准确率从最优前沿模型的 78.2% 提到 84.7%,团队认为这个水平已经够日常用了。更省的是钱:模型体量小得多,单任务推理成本只有对应前沿模型的 1/13.8。
原文说,这个结论远不止这里公开的 6 项任务成立,内部大量类似任务规律一致。方法论也不绑定金融:一套「用模型分歧路由筛出难样本、请专家清洗数据,再做强化学习微调」的做法,原文认为可以推广到其他机构自己的具体判断任务上。他们把这称作「差异化智能」(differentiated intelligence):针对具体组织需求调出来的定制模型,在自家的活儿上胜过通用前沿模型。
Our results show the possibility of a future of differentiated intelligence, where custom models tuned to specific organizational needs outperform frontier models. Thinking Machines Lab(与 Bridgewater AIA Labs),《Learning to Replicate Expert Judgment in Financial Tasks》,2026 年 6 月