研究解説 · 小互解説

Bridgewater が金融情報の選別専用モデルを訓練、精度 84.7%、手法も公開

Thinking Machines と共同で、専門家がラベル付けしたデータでオープンソースモデルをファインチューニング:最強フロンティアモデルよりエラー率を 29.8% 削減、推論コストはわずか 1/14
早わかり
  • Thinking Machines Lab が Bridgewater 傘下の AIA Labs と組み、自社のファインチューニング基盤 Tinker を使って、金融情報の選別に特化したカスタムモデルを訓練した。
  • トップクラスの大規模モデル(Gemini、Claude、GPT 系)は、シンプルなプロンプトで 6 つの金融選別タスクに取り組んでも平均精度は約 50% にとどまり、プロンプトを何度も最適化しても最高 78.2%。投資家が求める 80% の信頼ラインには届かなかった。
  • 訓練データは当初、非専門家によるラベル付けでエラーが多かった。チームはある仕組みを考案した:「モデルの判断とラベルが食い違う」対立サンプルだけを専門家の再チェックに回し、残りはそのまま使うことで、ラベル付けコストを抑えた。
  • オープンソースの Qwen3-235B をベースに、標準的な GRPO 強化学習ファインチューニングで精度を 73.48% まで引き上げ、さらに交互バッチ訓練、CISPO 非対称クリッピング損失、教師を動的に昇格させるオンポリシー蒸留を重ねて、最終的に 84.66% に到達した。
  • 最終モデルの精度は 84.7%。テストした最強フロンティアモデル(78.2%)よりエラー率が 29.8% 少なく、1 タスクあたりの推論コストは対応するフロンティアモデルのわずか 1/13.8 だ。
⚑ 立場について:本記事は Thinking Machines Lab と Bridgewater AIA Labs が共同で公開した公式ブログであり、モデル・データ・比較結果はいずれも発表側による自己評価で、社内データの公開サブセットを用いている。以下の数字はすべて原文の基準に沿って伝えている。
1投資マネージャーには一目瞭然、だが AI は当て推量

投資マネージャーが一秒で判断するニュース、AI は当てずっぽうしかできない

Thinking Machines Lab が Bridgewater 傘下の AIA Labs と共同で記事を発表し、自社のファインチューニング基盤 Tinker で金融情報の選別モデルを訓練する手法とその結果を公開した。

自動化したいのは投資レポートを書くことではなく、投資マネージャーが毎日数え切れないほど繰り返す「情報の仕分け」だ。ニュース、リサーチレポート、企業文書、メールの中から、本当に読む価値のある部分を選び出す。読むこと自体は難しくない。難しいのはこの一つひとつのきめ細かな判断で、それが膨大な時間を食う。チームは、この仕事をモデルに任せられるかを確かめようとした。

結果を先に示そう:トップの大規模モデルをそのまま使うと平均精度は約 50%、コイン投げとほとんど変わらない。一方、このカスタムの小型モデルは 84.7% を達成し、推論コストはフロンティアモデルのわずか 1/13.8 だった。
なぜ読む価値があるのか:オープンソースのベースからファインチューニングした小型モデルが、具体的な判断タスクで最強フロンティアモデル(78.2%)のエラー率を 29.8% 下げ、同時に 1 タスクの推論コストをその 1/13.8 まで削った。「より賢い汎用モデル」ではなく、「一つの具体的な仕事のために専用にチューニングした小型モデル」が勝ったのだ。
2自動化したい 6 つの小さな仕事

投資マネージャーが毎日こなす 6 つの「小さな仕事」

この 6 つは投資マネージャーにとって本能で、一秒で判断がつく。だが「なぜそう判断したのか」を説明しようとすると人は言葉に詰まる。だからこそ AI に教えるのが難しい。チームはそれらを一つずつ切り出して評価した。

TASK 01
金融記事の関連性
ある金融記事が投資幹部の読むに値するか。難しいのは「関連する」が「意味がある」とは限らない点で、キーワード一致ではなく投資の判断力が要る。
TASK 02
中央銀行文書の方向性
ある中央銀行の文書が、今後の金利の向きを示唆しているか。行間の政策スタンスを読み取る必要があり、人は経験で分かる。
TASK 03
レポートは答えているか
投資家の質問と 1 つのリサーチ文書が与えられたとき、その文書が役に立つか。見るのは「答えがあるか」であって「触れているか」ではない。
TASK 04
定型コンテンツの判別
レポートが単なるテンプレート(使い回しの定型文)なのか、それともテンプレートの中に一度きりの新しい分析が挟まっているのか。どちらかを見分け、さらに新しい分析が何ページ目で終わるかも突き止める。
TASK 05
文書の切れ目
文書がどこから決まり文句の定型文に変わるかを見つける。人はざっと見れば本文がどこで終わるか分かるが、モデルは正確に位置を特定する必要がある。
TASK 06
メールの切れ目
メール本文がどこから署名や免責事項といった定型文に変わるかを見つける。これも「本文はどこまでか」という一秒の判断だ。

前半 3 つは分類タスク(評価は精度+F1 スコアで見る)、後半 3 つは位置特定タスク(評価は完全一致の精度で見る)。原文によれば、社内には似たタスクがまだ多数あり、傾向はどれも同じ。この種の仕事では、フロンティアモデルは総じて自前で訓練したモデルに及ばない。

3一方は読むべき、もう一方は捨てるべき

どちらも政治と金融に触れているのに、なぜ一方は関連し他方は無関係なのか

「金融記事の関連性」で実例を挙げよう。下の 2 つの見出しはどちらも地政学と金融の両方に触れているが、マクロ投資家にとっては一方は読む価値があり、一方はそのまま捨てるべきだ。どちらが関連するか、当ててみてほしい。

見出し A
「トランプ、グリーンランドは自分のものだと主張」
出典:ft.com。トランプとグリーンランドを扱った記事の図版。
見出し B
「トランプが中国への新関税を警告、米国株が引けにかけて急落」
出典:ft.com。S&P 500 は 4 月以来最大の 1 日下落率を記録し、数週間の上昇がここで途切れた。
答え合わせ:どちらが関連し、なぜか

B が関連、A は無関係。記事の文脈に置くと、グリーンランドの件はどちらかといえば政治的なポーズで、市場に本気で受け止められにくい。一方、対中関税は S&P 500 に数週間ぶり最大の 1 日下落率を直接もたらした、まぎれもない市場シグナルだ。だが両方とも地政学と金融の両方に触れており、キーワードだけでは全く区別できない。モデルもまさにこういう所でつまずく。この種の判断が問うのは投資の文脈であって、字面の一致ではない。

4プロンプトエンジニアリングの天井

プロンプトをあれこれ工夫しても、AI は 78.2% で頭打ち

チームはまず最も手軽な道を選んだ:プロンプトエンジニアリングで乗り切ろうとしたのだ。専門家が実際のタスク記述に沿って指示を書き直し、さらにタスクそのものを定義し直した。たとえば記事の分類を「関連/無関係」の 2 分類から、「関連かつ興味深い、関連だが退屈、無関係」の 3 分類に変えた。小さな IPO ニュースは金融的には関連しても、マクロ投資家が求める大局的な意味を持たないからだ。

シンプルなプロンプト
(フロンティアモデル平均)
~50%
プロンプト最適化後
(最強フロンティアモデル)
78.2%
╌╌ 80% 投資家の信頼ライン:最適化しきっても、最強フロンティアモデルはなお 1.8 ポイント届かず、越えられなかった。

プロンプトは精度をコイン投げ水準から 70 台まで引き上げたが、そこから先は頭打ちで、自動プロンプト最適化でもこれ以上は絞り出せなかった。原文は「高い=正確とは限らない」とも指摘する:GPT 5.4 は 5.2 より 43% 高いのに精度の向上はわずかで、この種のタスクでは新モデルの進歩は小さい、とりわけ支払う金額に対しては、というわけだ。

各フロンティアモデルの最適化後の精度/F1(原文データ)
フロンティアモデル(最良プロンプト)精度正例 F1
モデル群 1~47.2%77.2%
モデル 250.1%74.3%
モデル 347.2%75.8%
モデル 4(最良)48.5%78.2%
モデル 545.6%78.0%

注:F1 は 3 つの分類タスクの平均、精度は全 6 タスクの平均。原文の基準では最強フロンティアモデルの精度上限は 78.2% で、これが後段のカスタムモデルが対抗する基準となる。

5まずデータを直し、それから訓練を語る

ラベル付けデータ自体が間違っている:本当に難しいサンプルだけを専門家に見せるには

プロンプトが頭打ちになると、チームはファインチューニングに切り替えた。だが最初の関門は訓練ではなくデータにあった:こうした判断は投資の専門家の目を通してこそ価値がある。当初ベンダーから買ったのは非専門家によるラベル付けで、それで訓練してもモデルは相変わらずひどく、モデルの推論過程を見返して初めて、データセットのラベル自体がしばしば間違っていると分かった。

すべてを専門家に付け直してもらうのは高くつく。そこでチームは巧妙な手を考えた:モデル自身に「怪しい」サンプルを見つけさせ、それだけを専門家に回す。理屈は単純だ。あるサンプルが自分の訓練セットとすら食い違うなら、その問題が本当に難しいか、元のラベルが間違っているかのどちらかで、どちらも専門家が一度見る価値がある。

非専門家のラベル付けデータ
初期モデルを一度訓練
同じデータにモデルで採点させる
元ラベルと食い違う対立サンプルを抽出
対立サンプルだけ専門家が再チェック
クリーンな訓練セットを抽出
独立したホールドアウトで最終テスト

こうすれば、専門家の労力は本当に議論のあるサンプルだけに使われ、残りはそのまま使うので、データを整えつつコストも抑えられる。最終評価は、クリーニングに一切関与していない完全に独立したホールドアウトで行い、自分に甘い採点をしないようにした。

6核心:3 つの手で精度を引き上げる

3 つの合わせ技で、精度を 73% から 84.7% へ

データがきれいになると訓練に入る。チームは学術界で最も研究が進んだオープンソースモデル Qwen3-235B をベースに選び、訓練はすべて Tinker 上で回し、GPU インフラを気にせずに済んだ。第一歩は標準的な GRPO 強化学習ファインチューニングで土台を固め、精度はベースの 44.8% から一気に 73.48% へ跳ね上がったが、まだ 80% の壁には届かない。本当にそれを越えさせたのは、上に重ねた 3 つの改良だ。

まず土台を理解 · GRPO

GRPO は「審査員モデル」を別途訓練しなくてよい強化学習の手法だ:同じ問題に対してモデルに候補となる答えをまとめて出させ、どれが正解に近いかを互いに比べ、うまくできたものを以後より多く真似させる。大勢で同じ問題を解き、先生に採点してもらう代わりに、誰の答えがより正しいかを互いに突き合わせるようなものだ。

80% 信頼ライン 44.8% Qwen ベース 73.48% +GRPO 調整 84.66% +3 改良(フル構成) 1/13.8 推論コスト

階段は原文の 3 つの実データ点:ベース 44.8% → GRPO 73.48% → フル構成 84.66%。間の 11 ポイントの飛躍は、下記 3 つの改良の組み合わせによるものだ。

核心の工夫 · 3 つの改良

下記 3 つそれぞれのパーセンテージは「アブレーション実験」から得たものだ:フル構成から 1 項目だけ外し、精度がどれだけ落ちるかを見る。数字は単純な足し算ではなく、どれも欠かせない。どれか 1 つを抜くだけで成績は明らかに落ちる。

+12.1%
交互バッチ訓練
6 つのタスクを「完全に一つのバッチに混ぜて」訓練するのをやめ、1 バッチにつき 1 タスクだけを練習し、タスクごとに順番で交互に回す。完全混合バッチより 12.1% 高い。
+10.1%
CISPO 非対称クリッピング
標準の重要度サンプリング損失を置き換え、CISPO 非対称クリッピングで 1 ステップごとの更新幅を制御する。元の損失より 10.1% 高い。
+3.1%
教師の動的昇格
オンポリシー蒸留において、教師はベースに固定せず、生徒が新記録を出すたびに入れ替える。固定教師よりさらに 3.1% 高い。
アブレーション実験の全データ(1 項目を外すとどれだけ落ちるか)
訓練構成平均精度正例 F1
Qwen ベース44.8%55.24%
Qwen + GRPO73.48%88.95%
Qwen + フル構成84.66%92.99%
− 交互バッチ訓練72.18%89.01%
− CISPO 非対称クリッピング74.56%90.64%
− オンポリシー蒸留72.39%87.93%
− 教師の動的昇格(固定ベースを教師に)81.55%89.41%
7専門用語のかみ砕き

CISPO と「オンポリシー蒸留」は結局何をしているのか

上の 3 つの手のうち、CISPO とオンポリシー蒸留の 2 つが最も名前で身構えさせる。強化学習を知らなくても構わない。これらが解こうとしているのは実は同じ素朴な問題だ:モデルに学びすぎ・歪んだ学習をさせないこと、そして頼れる先生をつけて学ばせることだ。

CISPO 非対称クリッピング損失

これが司るのは「モデルが 1 ステップでどれだけ変えられるか」だ。「良い方向に学ぶ」と「悪い方向に学ぶ」に別々の許容度を与える:生徒を正すように、正解へ大股で進むのは許すが、間違った方向へ進んでいると分かった瞬間に手綱を締める。こうして学びすぎず、かといって保守的に縮こまりすぎもしない。

オンポリシー蒸留 + 教師の動的昇格

生徒モデルは自分で練習しながら、ある「教師モデル」の答えの分布を参照し、教師から離れすぎると減点で引き戻される(原文はペナルティ項を用い、生徒と教師の差が大きいほど報酬を多く差し引く)。肝心なのは教師が固定ではない点だ:20 ステップごとに検証セットの精度を確認し、生徒が新記録を出しさえすれば、生徒自身を新しい教師に昇格させ、より弱いモデルで後退的に教えることは決してしない。

① 生徒が自分で練習 答えを生成し報酬を得る ② 教師の分布と比較 離れるほど減点が多い ③ 20 ステップごと検証 精度は新記録か? ④ 新記録なら 生徒を新教師に ↺ 新教師が生徒を次のラウンドへ、水準は上がる一方
一言で覚える

弟子を定期的に試すようなものだ:弟子の腕が今の師匠を超えた瞬間、師匠の座はその弟子本人に入れ替わり、「より強い自分」が次の段階を教え続ける。このステップ(教師の動的昇格)は、固定ベースを教師に使う場合よりさらに 3.1% の向上をもたらす。

8最終成績

エラー率を 3 割下げ、推論コストを 1/14 に

すべての改良を重ね終えると、カスタムモデルは平均精度を最強フロンティアモデルの 78.2% から 84.7% へ引き上げた。チームはこの水準なら日常運用に十分だと見ている。さらに節約になるのはコストだ:モデルの規模がはるかに小さく、1 タスクの推論コストは対応するフロンティアモデルのわずか 1/13.8 だ。

最強フロンティアモデル
78.2%
平均精度(プロンプト最適化後の上限、80% の壁は越えず)
1 タスクの推論コスト(基準)
自社開発のカスタムモデル
84.7%
平均精度、エラー率は最強フロンティアより 29.8% 少ない
1/13.8
1 タスクの推論コスト、フロンティアモデルの 14 分の 1 に
29.8%
自社モデルの最強フロンティアモデルに対するエラー率の低下幅
13.8×
1 タスクの推論コストの削減幅

原文によれば、この結論はここで公開した 6 タスクにとどまらず成り立ち、社内の多数の類似タスクでも傾向は一致する。方法論も金融に縛られない:「モデルの食い違いで難サンプルを振り分け、専門家にデータをクリーニングしてもらい、その上で強化学習ファインチューニングを行う」という一連のやり方は、他の組織が自前の具体的な判断タスクにも応用できる、と原文は考える。彼らはこれを「差異化された知能」(differentiated intelligence)と呼ぶ:具体的な組織のニーズに合わせてチューニングしたカスタムモデルが、自社の仕事では汎用のフロンティアモデルを上回るのだ。

Our results show the possibility of a future of differentiated intelligence, where custom models tuned to specific organizational needs outperform frontier models. Thinking Machines Lab(Bridgewater AIA Labs と共同)、『Learning to Replicate Expert Judgment in Financial Tasks』、2026 年 6 月
出典:Thinking Machines Lab 公式ブログ『Learning to replicate expert judgment in financial tasks』(Bridgewater AIA Labs と共同、2026 年 6 月)。著者:Su, Sarah;Zhu, Kevin;Xiao, Emily;Alur, Rohan;Kang, Daniel。本記事は小互解読站による日本語ビジュアル解説で、すべてのモデル・データ・比較結論は発表側の自己評価基準に基づき、社内データの公開サブセットを用いている。