プロダクトリリース · 小互解読

Anthropic が Advisor ツールを発表:安いモデルが行き詰まったら、もっと賢いモデルにワンタップで電話相談

アドバイザーモデルは数百文字の助言を出すだけで全代打はしない、同等の品質で総コストはより低い、現状は Claude API と AWS プラットフォーム限定の beta 機能
ざっくり要約
  • Anthropic が Claude API に beta 版の Advisor ツールを公開:より速く安い「実行モデル」が生成の途中で、より賢い「アドバイザーモデル」を一時的に呼び出して戦略的助言をもらい、そのままタスクを続けて完成させられる。
  • この一連の流れは同一の API リクエスト内で完結する:アドバイザーモデルはツールを一切使わず、コンテキスト管理も行わず、思考過程はそのまま破棄され、最終的な助言テキストだけが実行モデルへ返される。
  • アドバイザーモデルの能力は実行モデルと同等以上でなければならない。例えば Claude Sonnet 5 が実行モデルの場合、アドバイザーには Claude Opus 4.7 や Claude Opus 4.8 などより強いモデルしか組み合わせられず、具体的な組み合わせは公式の互換表で厳密に定められている。
  • アドバイザーは一回の呼び出しで通常 400 から 700 個のテキストトークンしか出力しない(思考込みで 1400 から 1800 トークン)。これはアドバイザーモデルにタスクを最初からやり直させるよりずっと安く、コスト削減の要となっている。
  • あまり自発的にアドバイザーに相談しない実行モデル(特に Claude Haiku 4.5)向けに、公式は「リマインド」というテクニックを検証済み:2ターン目に「まだアドバイザーに相談していない」という一言を差し込むことで、タスク通過率を約7ポイント引き上げられる。ただし挿入するタイミングの早い遅いが効果の良し悪しを直接左右する。
スタンス表明:本記事は Anthropic 公式開発者ドキュメントに基づいてまとめたもので、ベンダー自身によるプロダクト説明です。文中の通過率向上、呼び出し比率、トークン区間などはすべて Anthropic 社内の行動評価データであり、公式も「結果はタスクによって異なるため、自分のワークロードで評価してほしい」と注記しています。以下は機構と公式見解のみを扱い、効果の裏付けは行いません。
1これは何か

作業する側と助言する側、モデルを分けて探す

Anthropic は最近 Claude API に beta 版の新ツール Advisor ツールを公開した。より速く安い「実行モデル」がタスク生成の過程で、より賢い「アドバイザーモデル」を一時的に呼び出して戦略的助言を得て、助言を受け取ったらそのままタスクを書き続けられる。

手は速いが経験がやや浅いモデルが実際の回答を書く役を担い、重要な判断に差し掛かったら隣にいるより強いモデルのドアをノックして数言問いかけ、席に戻って書き続ける——タスク全体を丸ごと強いモデルに渡してゼロから作り直させるのではなく。

注目すべき理由:アドバイザーの1回の呼び出しは通常 400 から 700 個のテキストトークン(思考込みで約 1400 から 1800)しか出力しない。タスク全体を一から生成し直すのに必要な量よりはるかに少ない。Anthropic によれば、この「途中で口を挟む」協業によって、実行モデルの成果物の品質はアドバイザーモデルが単独でタスクを完成させた水準に近づける一方、大部分のトークンは依然として実行モデルのより低い料率で課金される。有効化には beta header advisor-tool-2026-03-01 が必要。
実行モデル executor 途中で「空の呼び出し」を発起 アドバイザーモデル advisor 「チャネルで調整、まず入力を止めて…」
左側の実行モデルは絶えずトークンを吐き出して作業し、右側のアドバイザーモデルは普段は沈黙していて、呼ばれた瞬間だけ点灯して一言助言を弾き出す。その後、実行モデルはその一言を携えて書き続ける
2何を解決するか

これまでは二択しかなかった:安いか賢いか

多段階を要する agent タスク(コーディング、PC操作、複数ステップの調査)では、大部分のターンは実は機械的な操作で、本当に最高レベルの知性が必要なのはごく一部の重要な局面だけだ。しかし従来モデルを呼ぶ方法は2通りしかなく、どちらも帯に短し襷に長しだった。

実行モデル単独作業(小モデルが全過程)
コスト
低い
品質
重要な局面で質が落ちる
アドバイザーモデル単独作業(大モデルが全過程)
コスト
高い、機械的なステップにまで最高料率がかかる
品質
高い
実行モデル + アドバイザーモデルの協業(本ツール)
コスト
大半は実行料率、数百トークンだけがアドバイザー料率
品質
公式によればアドバイザー単独完成の水準に近い

協業モードは品質とコストの中間地点を突いている:ほとんどのトークンは安い実行モデルが低料率で生成し、本当に頭を使う必要のある数回の重要な局面だけ、数百トークンをかけて最高峰モデルに知恵を借りる。

3核心メカニズム · 重点

作業を途中まで進めたら、アドバイザーに電話をかける

アドバイザーツールは普通のツールと同じく tools 配列に掛かっており、いつ呼び出すかは実行モデル自身が判断する。一連の完全な呼び出しは次の4ステップで進む。

Hero · 協業がどう起きるか

この一連のやり取りはすべて同一の /v1/messages リクエスト内で発生し、あなた側で追加のネットワーク往復は一切発生しない。唯一の例外は、アドバイザーがまだ答え終わっていないうちに途中で止まったケースで、この場合はその会話をそのまま送り返して続きを進める必要がある。

STEP 1実行モデルが「空の呼び出し」を発起、タイミングをシグナルするだけで input は空
STEP 2サーバーがアドバイザーに対して単独で推論を1回実行、アドバイザーは会話記録の全体を見る
STEP 3アドバイザーの助言が advisor_tool_result として実行モデルに返される
STEP 4実行モデルが助言を携えてそのまま生成を続ける

1ステップ目では、実行モデルが吐き出すのは server_tool_use ブロックで、名前は advisor、中の input は常に空だ。実行モデルが担うのは「今問うべきタイミングだと決める」ことだけで、アドバイザーに渡す具体的なコンテキストはサーバー側が自動で補完する。2ステップ目では、サーバーが自分側でアドバイザーモデルを単独で1回走らせる。アドバイザーは Anthropic が用意したシステムプロンプトを使い、実行モデルの会話記録全体——あなたのシステムプロンプト、ツール定義、これまでの全ターンとツール結果、そして実行モデルが今回のターンでこれまでに書いたテキストを含む——を見る。

アドバイザーは「助言だけ出して手は出さない」役割:自分自身ではツールを一切使わず、コンテキスト管理も行わない。その思考過程は返される前に破棄され、最終的にはあの助言テキストだけが実行モデルの手に戻る。

たとえ話 · 空の呼び出し

実行モデルが発起するこの呼び出しが「空」なのは、ベテランの同僚のドアをノックする時にプロジェクトの背景を最初から全部説明し直す必要がないのと同じだ。会社の共有ドキュメントシステムがあなたの手元の進捗を自動で相手の目の前に並べてくれているので、あなたはただ口を開いて問うだけでいい。

もしアドバイザーがまだ答え終わっていなかったら:中断からの再開(pause_turn)

時にはこのリクエストが、アドバイザーの呼び出しがまだ吊るされたままの状態で前もって終わることがある。レスポンスには stop_reason: "pause_turn" が付き、呼び出しを発起した server_tool_use ブロックだけがあって、対応する結果がまだない状態だ。このときは、その assistant メッセージをそのまま messages に追加し(server_tool_use ブロックを保持したまま)、同じアドバイザーツールと beta header を付けてもう一度リクエストを送ればいい。新しいユーザーメッセージを追加する必要も、tool_result ブロックを補う必要もない。

たとえ話 · 中断からの再開

電話が話し中で「しばらくしてからおかけ直しください」というアナウンスに遭遇した時のようなもので、電話を切らずに同じ番号にそのままかけ直せば、さっき話し終わっていなかった続きにつながる。続けたこのターンがまた止まったら、同じ動作をもう一度繰り返せばいい。

クリックして詳細を見る:返される結果の中の2種類のブロックと、アドバイザーの「暗号化された助言」

成功した呼び出しでは、assistant のコンテンツの中にまず server_tool_use ブロック(呼び出しの発起)が現れ、その直後に advisor_tool_result ブロック(アドバイザーの返答)が続く。後者の content はユニオン型だ。Claude Opus 4.8 のようなアドバイザーは平文の advisor_result(text フィールドが読める)を返すが、Claude Fable 5 と Claude Mythos 5 という2つのアドバイザーは暗号化された advisor_redacted_result を返し、あなたが受け取るのは読めない encrypted_content の断片で、次のターンでサーバー側が復号して実行モデルのプロンプトにレンダリングする。どちらのケースでも、その内容は後続のターンでそのまま送り返す必要がある。呼び出しが失敗すると、結果ブロックには error_code(overloaded、prompt_too_long、max_uses_exceeded など)が付き、実行モデルはエラーを見た上で助言なしにそのまま書き続ける。リクエスト自体が失敗することはない。

4組み合わせルール

誰が誰のアドバイザーになれるかには、決まりがある

トップレベルの model フィールドが実行モデル、ツール定義の中の model フィールドがアドバイザーモデルで、両者は正当な組み合わせを構成しなければならない。ルールはたった一つの明確な線だけだ:アドバイザーは Claude Sonnet 4.6 以上でなければならず、かつ能力は少なくとも実行モデルと同等でなければならない。組み合わせを間違えると、API は即座に400エラーを返し、この組み合わせがサポート対象外であると名指しする。

実行モデル選べるアドバイザーモデル
Claude Haiku 4.5Fable 5Mythos 5Opus 4.8Opus 4.7Opus 4.6Sonnet 4.6
Claude Sonnet 4.6Fable 5Mythos 5Opus 4.8Opus 4.7Opus 4.6Sonnet 4.6
Claude Sonnet 5Fable 5Mythos 5Opus 4.8Opus 4.7
Claude Opus 4.6Fable 5Mythos 5Opus 4.8Opus 4.7Opus 4.6
Claude Opus 4.7Fable 5Mythos 5Opus 4.8Opus 4.7
Claude Opus 4.8Fable 5Mythos 5Opus 4.8Opus 4.7
Claude Fable 5Fable 5
Claude Mythos 5Mythos 5

破線枠 = 能力が同等で、互いにアドバイザーになれる(Opus 4.7 と Opus 4.8 など)。ハイライト行の Sonnet 5 は分かりやすい例だ:Opus 4.7 か Opus 4.8 としか組めず、Opus 4.6 すら対象外になっている。

この「アドバイザーの能力は実行モデル以上でなければならない」という厳格なルールの背後にある理屈はとてもシンプルだ。もしアドバイザーが実行モデルより弱ければ、本当に価値のある助言を出せず、その呼び出し自体が無駄になってしまう。そこで公式は組み合わせの関係を一枚の互換表で固定し、弱いアドバイザーと強い実行モデルの組み合わせはそもそも提出できないようにしている。

5リマインド機構 · 重点

自発的にアドバイザーに相談したがらないモデルもいる、公式は専用の「リマインド」を用意した

一部の実行モデルは1ターン目では自発的にアドバイザーに相談しない。特に Claude Haiku 4.5 のようなより軽量なモデルに顕著だ。公式のやり方はこうだ:1ターン目でアドバイザーを呼ばなかった場合、2ターン目の前にもう一つユーザーメッセージを立てて短いリマインド(nudge)を差し込む。ただし、このリマインドを早く挿すか遅く挿すかで結果は大きく変わる。

Hero · タイミングへの敏感さ

リマインド自体はとても効果的で、問題はすべてタイミングにある。早く挿しすぎると、実行モデルがまだタスクを把握しきれていない段階で、この情報量の少ない呼び出しがかえって本来もっと後の、もっと価値の高い呼び出しの機会を奪ってしまう。遅く挿しすぎると、今度はより良い呼び出しのタイミングを逃してしまう。Anthropic は実際の実験データでこのタイミングへの敏感さを示している。

+7 pp
Claude Haiku 4.5 が適切なターンでリマインドを受けた場合のタスク通過率の向上幅(Anthropic 社内行動評価)
74%–98%
リマインドを受けた直後の2ターン目でアドバイザーを呼び出す比率:Claude Sonnet は約74%、Claude Haiku 4.5 は約98%
−3~4 pp
基準では7ターン目以降に初回呼び出しがあるはずのタスクが、2ターン目のリマインドで中断された場合の成績低下幅
86% → 代償なし
あるブラウジングタスクでは基準の呼び出し率がすでに86%あり、この場合はリマインドを加えても参加度が上がるだけでタスク成績の損失は生じない
リマインドを挿すターン(そのタスクの基準初回呼び出し位置を基準とした相対値) タスク成績 早すぎる −3~4 pp 基準に近い · 最適 遅すぎる 窓を逃す
デフォルトの NUDGE_TURN は2で、リマインドが「モデルがタスクを把握したが、まだやり方を決め切っていない」位置に落ちるようにしている。基準の初回呼び出しがもともと非常に遅い(7ターン目以降)タスクに対しては、2ターン目で強く催促するとかえって最適ゾーンの左側に引きずり込んでしまう

公式が示す使い方は具体的だ。まずリマインドがない状態で、あなたの実行モデルが通常何ターン目で初めてアドバイザーを呼ぶかを測定し(これを N ターン目とする)、NUDGE_TURN を N より大きく設定する。ワークロードに簡単なタスクと複雑なタスクの両方が混在している場合は、NUDGE_TURN を3に上げて、2ターンで完了できる簡単なタスクを先に終わらせ、不要な相談にリマインドで無理やり押し込まれないようにするとよい。

リマインドが適切なターンに落ちた場合
Haiku はリマインドを受けると 98% の割合で直後の2ターン目にアドバイザーを呼び出し、通過率は約 7ポイント引き上がる。基準の呼び出し率がもともと86%あるブラウジングタスクにリマインドを加えても、参加度が上がるだけで成績は落ちない。
リマインドを早く挿しすぎた場合
基準では初回呼び出しが7ターン目以降にあるはずのタスクが2ターン目のリマインドで中断され、この情報量の少ない相談が後のより良い呼び出しの機会を奪ってしまい、成績はかえって 3から4ポイント低下する。
モデルを選び間違えた場合
Sonnet 実行モデルでは、この純粋なテキストリマインドは公式のテストで測定可能な効果がなかった。Opus 実行モデルではむしろわずかに通過率を下げるため、Opus にはこのリマインドは適用されない。
クリックして詳細を見る:リマインドの挿し方と「強制呼び出し」との違い

リマインドはツール結果の後に続く、それ自体独立した1つのユーザーメッセージとして送るべきで、同じメッセージに兄弟ブロックとして詰め込んではいけない。連続する2つのユーザーメッセージは正当な構成で、公式が Haiku と Sonnet で検証したところ両方の書き方の効果は同等だった。独立した1つのメッセージにするのは、単にリマインドとツール出力をより明確に区別するためだ。また、もしあなたのシステムプロンプトにすでに「本当に確信が持てない時だけアドバイザーに相談する」といった抑制的な文言が入っているなら、リマインドは追加しない方がいい。2つの指示がぶつかってしまう。特定の1回のリクエストで相談を強制したい場合は、tool_choice を advisor を指すように設定できるが、強制呼び出しは拡張思考と同時には使えず、そうすると API は400エラーを返す。

6課金方法

この一手間で増えたお金は、どう計算されるのか

アドバイザーの呼び出しは独立したサブ推論として扱われ、アドバイザーモデル自身の料率で決済される。実行モデルの usage 総数に組み込まれることはない。各パートにいくらかかったかを内訳したい場合は、usage.iterations という配列を見る必要がある。

iteration 1
89
advisor
1612(思考込み)· アドバイザーモデル料率で計算
iteration 3
442 · 実行モデル料率で計算
type: "message" のイテレーションは実行料率で、type: "advisor_message" のイテレーションはアドバイザー料率で計算される。トップレベルの usage は実行トークンのみを集計し、output_tokens は各実行イテレーションの合計、input/cache_read は最初の実行イテレーションのみを反映する。

アドバイザーは1回あたり典型的に 400 から 700 個のテキストトークンを出力し、破棄される前に消費した思考分を含めると合計で約 1400 から 1800 トークンになる。コスト削減の鍵はここにある。アドバイザーは最終的な出力の大部分を生成する役割を担わず、その部分は実行モデルがより低い料率で完成させる。

400–700
アドバイザーの1回の呼び出しにおける典型的なテキスト出力量(tokens)
1400–1800
思考込みでのアドバイザー1回あたりの総トークン量

さらに、実行モデルにのみ作用し、アドバイザーには自動的に及ばない細部がいくつかある。トップレベルの max_tokens は実行の出力のみを制約し、アドバイザーのサブ推論には及ばない(単独で制限したい場合はツール定義の中で別途 max_tokens を設定する必要がある)。アドバイザーのトークンは実行モデル側の task budget も消費しない。Priority Tier(優先度契約)もそれぞれ独立して計算され、あなたの組織がアドバイザーモデルにも契約を結んでいない限り、アドバイザーの呼び出しは優先処理を通らない。

7さらに一手コスト削減

もう一手節約できる:アドバイザー側でもキャッシュを開ける

キャッシュには2つの層があり、それぞれ独立している。実行側の advisor_tool_result ブロックは普通のコンテンツブロックと同様にキャッシュ可能で、この層は特に気にする必要はない。本当に工夫が要るのはアドバイザー側自身のキャッシュだ。

アドバイザーモデルが毎回見る会話記録は、前回の内容の上に新しい部分を追加しただけのもので、プレフィックスは安定している。ツール定義で caching{"type":"ephemeral","ttl":"5m"} のような形)を有効にすると、呼び出しのたびに1つのキャッシュが書き込まれ、次回はその地点まで読み込んで、新しく追加された部分にだけ料金を払えばよくなる。2回目以降の advisor_message イテレーションで cache_read_input_tokens がゼロでない値になっているのが見えるはずだ。

たとえ話 · アドバイザー側のキャッシュ

毎回アドバイザーに相談するたびに、以前の会議議事録を最初からもう一度読み上げなければならないようなもので、キャッシュを有効にするのは議事録を保存しておくのと同じで、以降は新しく追加された部分だけ読み足せばよくなる。ただしこの記録を作ること自体にもコストがかかるので、会う回数が少なすぎると、記録を作るコストの方が節約できる分より高くついてしまい、割に合わない。

≤ 2 回
この会話でアドバイザーが2回以下しか呼ばれない場合、キャッシュの書き込みコストが読み込みで節約できる分を上回るので、開けない方がよい
≈ 3 回
呼び出しが約3回に達すると収支が均衡し、それ以上になるほど得になっていく。長い agent ループに向いている

公式はさらに2つの一貫性に関する落とし穴を特に注意喚起している。1つ目は、caching のスイッチは一度設定したら全過程で維持すべきで、途中で切り替えを繰り返すとキャッシュが直接無効になってしまうこと。2つ目は、clear_thinking の設定が不適切(keep 値が "all" でない)だと、アドバイザーが毎ターン見る引用記録にずれが生じ、同様にアドバイザー側のキャッシュを中断させてしまうこと——ただしこれはコストが悪化するだけで、助言の品質には影響しない。

クリックして詳細を見る:clear_thinking のデフォルト値がなぜ落とし穴になるのか

拡張思考を有効にしながら clear_thinking を明示的に設定しなかった場合、API はデフォルトで keep: {type: "thinking_turns", value: 1} を採用し、これがちょうど上述のキャッシュのずれを引き起こす(これは初期の Opus / Sonnet モデルおよびすべての Haiku モデルのデフォルト挙動で、Opus 4.5+ と Sonnet 4.6+ はデフォルトですべてのターンを保持する)。アドバイザー側のキャッシュを安定させたいなら、keep を明示的に "all" に設定すること。

8使うべきか否か

どんな作業に向いていて、どんな作業では手を出さない方がいいか

公式は「When to use it」の中で境界線をはっきり引いている。この協業方式が割に合うのは「大部分のターンは節約できるが、少数のターンはどうしても強さが必要」という混合ワークロードだけだ。

向いている · アドバイザーを加える意味がある

長いチェーンの agent タスク:コーディング agent、PC操作、複数ステップの調査といったパイプラインでは、大部分のターンは機械的な実行で、本当に最高峰の知性が必要なのはごく一部の重要な局面だけだ。すでに Sonnet で複雑なタスクを処理しているチームは、Opus のアドバイザーを1つ加えることで、品質向上を得つつ総コストが Sonnet を直接使う場合と近い、あるいはそれより低くなる可能性がある。すでに Haiku 4.5 を使っているチームにとっては、アドバイザーを加えるのは、より大きな実行モデルに直接乗り換えるよりも節約できる知性アップグレードの経路になる。

向いていない · 手を出さない方がいい

計画する余地のない単発の質疑応答。ユーザーがすでにコストと品質のトレードオフを自分で判断済みの、純粋な「モデルセレクター」の透過的なシナリオ。そして、あらゆるステップで本当にアドバイザーモデルのフル能力が必要になるワークロード。これらの場合、協業モードは利益をもたらさない。

公式も先に釘を刺している。結果はタスクによって異なるので、自分のワークロードで評価してほしいとのことだ。現時点でこのツールは Claude API と AWS 上の Claude Platform で beta 版として提供されており、Amazon Bedrock、Google Cloud、Microsoft Foundry にはまだ対応しておらず、ゼロデータ保持(ZDR)の条件に適合している。

You get close to advisor-solo quality while the bulk of token generation happens at executor-model rates.(アドバイザーモデルが単独で完成させる品質に近づきつつ、大部分のトークン生成は実行モデルの料率で行われる。) Claude 開発者ドキュメント · Advisor tool
出典:Claude 開発者ドキュメント Advisor tool ページ(platform.claude.com)。本記事は小互解読站が公式ドキュメントに基づいて作成した可視化まとめで、ベンダー自身によるプロダクト説明に属する。文中の通過率、呼び出し比率、トークン区間などはすべて Anthropic 社内評価に基づくもので、公式は結果がタスクによって異なると注記している。機能は beta 段階にあり、パラメータと互換表は公式の最新ドキュメントを基準とする。