深度・小互解読

Claude Fable 5 公式プロンプトガイド:そのままコピペできる十数個の調整法、過剰プランニングの是正から偽の進捗報告の是正まで

Anthropic公式ドキュメント。新モデルに合わせてシステムプロンプトとエンジニアリング基盤をどう調整するか教えてくれる、Claude Mythos 5にも同じ方法が有効
1分で要点チェック
  • AnthropicはClaude Fable 5とClaude Mythos 5向けの公式プロンプトエンジニアリングガイドを発表、このモデル世代がClaude Opus 4.8と比べてどう振る舞いが変わったか、それに応じてプロンプトとエンジニアリング基盤をどう変更すべきかをリストアップした
  • ガイドはそのままシステムプロンプトに貼り付けられる十数段落の指示文を示している。それぞれ過剰プランニングの是正、勝手なリファクタリングの阻止、冗長な出力の圧縮、ユーザーに確認を求めるべき境界線の明確化に使う
  • 専用の監査式指示は、モデルが進捗を報告する前に今回のセッション内のツール呼び出し結果と照合して検証することを要求する。Anthropicによれば、これは捏造を誘発するよう特別に設計されたテストタスクにおいて、虚偽の状態報告をほぼ解消したという
  • ガイドは長時間稼働する非同期エージェントに対し、send_to_userツールを追加することを提案している。ユーザーにそのまま見せる必要のあるコンテンツは要約をスキップして直接届けられる
  • ドキュメントは注意を促している:プロンプトがモデルに内部の推論過程を復唱させ回答本文に含めるよう要求すると、Fable 5のreasoning_extraction拒否カテゴリーがトリガーされ、リクエストが自動的にClaude Opus 4.8にダウングレードされる可能性がある
スタンスの明示:これはAnthropicが発表した公式製品ドキュメントであり、目的は自社の新モデルをうまく使ってもらうことにある。文中の能力に関する記述や「ほぼ解消した」「一発で正しく実装」といった結論は、メーカー内部のテストと早期テスターのフィードバックに基づくもので、第三者による検証は経ていない。以下はドキュメントの内容とそのまま流用できる指示原文を忠実に転載するのみ。
1背景・これは何か

このドキュメントが解決する問題

Anthropicは最近、Claude Fable 5とClaude Mythos 5向けの公式プロンプトエンジニアリングガイドを発表し、この世代のモデルがClaude Opus 4.8と比べてどう振る舞いが変化したか、それに合わせて調整すべきプロンプトとエンジニアリング基盤の書き方をまとめた。

つまりこれはパラメータ調整の説明書だ:新モデルはより有能になったが、いくつかのデフォルトの振る舞いが変わっており、古いプロンプトや古いエンジニアリングフレームワークをそのまま使うと落とし穴にはまる。ドキュメントは各変化に対して、そのままシステムプロンプトに貼り付けられる指示文を用意しており、それに沿って修正すればいい。

🎯なぜ見る価値があるか:単なる漠然としたコツの話ではなく、そのまま使える十数段落の指示文を提示している点にある。その中の1つの監査式指示は、公式内部でモデルに進捗を捏造させるよう特別に設計されたテストタスクにおいて、虚偽の状態報告をほぼゼロにした。自分で何度も試行錯誤してパラメータを調整する必要がない。
lowmedhighxhigh
まず効力の段階を正しく選ぶ
次に長時間タスクをうまく走らせる:分単位から数時間まで、各ステップを報告する前に必ず証拠を確認する。この2つが、このガイド全体の軸だ

まず前世代よりどこが強いか見る(さらっと)

ドキュメントはClaude Opus 4.8と比べた7項目の向上点を挙げている。ここでは1項目ずつ一言で流し、詳しくは触れない:

  • 長時間の自律性:誰も見ていなくても数時間から数日連続で作業でき、長く複雑なタスクの中で途切れず、本来やるべきことを忘れない
  • 一発で正解:過去は数日かけて何度も反復してようやく動くようになっていたシステムの一部について、早期テスターから一発で正しく実装できたとのフィードバックがあった(テスター側の見解)
  • 視覚理解:密度の高い技術図、ウェブアプリ、詳細なスクリーンショットの読み取りがより正確になり、出力もよりトークン節約的になった。bashやトリミングツールを使って反転・ぼかし・ノイズのある画像を処理できる
  • エンタープライズワークフロー:決算分析、表、スライド、ドキュメントにおいて指示によりよく従い、脱線せず、より専門的な成果物を出す
  • コードレビューとデバッグ:バグ発見の再現率がOpus 4.8より明らかに高い(サイバーセキュリティ領域を除く)、コードベースと履歴を横断して検索できる
  • 曖昧さへの対応:マルチスレッドで複雑な要求の塊を渡して、自分で次のステップを決めさせても対応できる
  • サブエージェントとの連携:より積極的にサブエージェントを並行して派遣し、長時間稼働するサブエージェントや同格のエージェントとの非同期通信もより安定して維持できる

また安全分類器を実行しており、3種類のリクエストを遮断する:攻撃的サイバーセキュリティ(exploit、マルウェア、攻撃ツールの作成)、生物学・生命科学(実験手法、分子メカニズム)、そしてモデル内部の要約思考の抽出。良性の関連作業も誤って遮断される可能性がある。サーバー側またはクライアント側のフォールバックを設定して、拒否されたリクエストを自動的にClaude Opus 4.8に戻すことができる。

2過剰プランニングの是正

過剰プランニングの是正:一言で「十分なら動け」と伝える

タスクが少し曖昧になり、effortを上げると、Fable 5は考えすぎる傾向がある:会話の中ですでに確定した事実を再度推論し直し、採用するつもりのない案まで一通り列挙し、前置きが長々と続く。以下の指示は、情報があれば直接動くようにするものだ。

指示を加えない場合
  • 既知の事実を繰り返し復唱し、議論済みの決定を再度持ち出して検討する
  • 実際には採用しない案をたくさん列挙する
  • 根本原因を長々と説明し、前置きが結論よりはるかに長い
「十分なら動け」を加えた場合
  • 十分な情報があれば直接動く
  • 比較検討が必要な時は網羅的なリストではなく、1つの推奨案を出す
  • まず結論を出し、思考プロセスはthinkingブロックに留める
過剰プランニング、既知事実の復唱、採用しない案の羅列を阻止する
When you have enough information to act, act. Do not re-derive facts already established in the conversation, re-litigate a decision the user has already made, or narrate options you will not pursue in user-facing messages. If you are weighing a choice, give a recommendation, not an exhaustive survey. This does not apply to thinking blocks.

ついでにエンジニアリング側の注意点も1つ、このセクションとセットで。長時間タスク自律性(long-horizon autonomy)とは、モデルが誰にも見られていない状況で長時間、数時間から数日連続で作業できる能力を指す。代償として単発リクエストが長くなり、effortが比較的高い設定で、タスクがコンテキスト収集と自己検証を必要とする場合、1回のリクエストが数十分続くこともあり、自律稼働は数時間に及ぶこともある。移行前にクライアント側のタイムアウト時間、ストリーミング表示、ユーザー向けの進捗表示をすべて調整しておくこと。エンジニアリングフレームワークを定期的な非同期ポーリングでタスク状態を確認する方式に変え、ブロッキング待機で返り値を無理に待つのはやめたほうがいい。

3効力の段階

効力の段階の調整方法、勝手なコードリファクタリングをどう防ぐか

effort(効力の段階)はFable 5上で「賢さ・遅さ・コスト」のバランスを取るメインスイッチで、low、medium、high、xhighの4段階に分かれる。デフォルトはhighを使い、最も能力を要するタスクにはxhighを、通常の作業にはmediumかlowを調整して使う。重要なのは:この世代のlow段階でも前世代のxhighをしばしば上回るという点だ。タスクは終わったが必要以上に遅い場合は、段階を下げる。以下の4つの段階をクリックしてそれぞれの位置づけを見てみよう。

low
最速最安、通常の軽いタスクに使う。より速く、より会話的な操作感を求める時はここまで下げる。表現力は依然として弱くなく、前世代のxhighを超えることも多い。
知能
遅延
コスト
medium
通常業務のもう1つの選択肢。タスクは完了できるが必要以上に遅い時、highからここに下げてスピードと引き換える。
知能
遅延
コスト
high(デフォルト)
ほとんどのタスクのデフォルト段階。すでに良好な検証行動、複雑な推論、最も厳密な成果物を出せる。副作用として通常業務でもコンテキスト収集を行い、タスクに必要な以上に考え込む。
知能
遅延
コスト
xhigh
最も能力を要するタスクのために取っておく。最も賢く、最も遅く、最も高価で、同時に通常業務で過剰に考え込みやすい。
知能
遅延
コスト
3つの相対位置を示すイメージ図であり、公式の数値ではない。「段階が上がるほど賢く、遅く、高価になる」という単調な関係を表しているだけ
たとえて言うなら

effortはカメラのフォーカスモードのようなものだ:普段はautoモードで十分だが、最も撮影が難しい1枚の時だけマニュアルの精細モードに切り替える。段階は高ければ高いほど良いわけではなく、難易度に応じて上げるべきものだ。

段階を上げると副作用がある:Fable 5は高effortの下で、ついでに機能を追加したり、リファクタリングをしたり、不要な検証を加えたりと余計なことをしがちだ。この「勝手に手を入れてしまう」のを防ぐには、以下を加える:

高effort段階で勝手に機能追加・リファクタリング・不要な検証を行うのを阻止する
Don't add features, refactor, or introduce abstractions beyond what the task requires. A bug fix doesn't need surrounding cleanup and a one-shot operation usually doesn't need a helper. Don't design for hypothetical future requirements: do the simplest thing that works well. Avoid premature abstraction and half-finished implementations. Don't add error handling, fallbacks, or validation for scenarios that cannot happen. Trust internal code and framework guarantees. Only validate at system boundaries (user input, external APIs). Don't use feature flags or backwards-compatibility shims when you can just change the code.
4段階
effortはlow/medium/high/xhighに分かれ、公式はほとんどのタスクにデフォルトでhighを使い、最も能力を要するタスクにはxhighを、通常業務は下げることを推奨している
低段階>前世代の高段階
Fable 5の低effort設定は依然として良好な表現を見せ、前世代モデルのxhighの表現をしばしば上回る
4出力と一時停止

要約を人間の言葉で語らせる、いつ本当に立ち止まって聞くべきか

この世代のモデルは指示追従力が強く、一言であるカテゴリーの振る舞い全体を制御できる。すべてのケースを1つずつ列挙する必要はない。このセクションでは2段落を示す:1つは冗長さの是正、もう1つはいつ本当にユーザーに立ち止まって聞くべきかの境界線だ。

制約を加えないと、Fable 5は書き広げがちになる:採用しない案まで一通り検討し、根本原因を長々と説明し、高度に構造化されたPR説明を書き、コードの各行に「次の行が何をしているか」というコメントを付ける。簡潔な洗練を求める短い指示は、各毛病を1つずつ列挙するのと同じ効果を持つ:

回答をまず結論から述べさせ、矢印の記号で圧縮させない
Lead with the outcome. Your first sentence after finishing should answer "what happened" or "what did you find": the thing the user would ask for if they said "just give me the TLDR." Supporting detail and reasoning come after. Being readable and being concise are different things, and readability matters more.

The way to keep output short is to be selective about what you include (drop details that don't change what the reader would do next), not to compress the writing into fragments, abbreviations, arrow chains like A → B → fails, or jargon.

長いプロセスの中での「ユーザーに聞くために立ち止まる」判断も同様に、すべてのケースを網羅する必要はない。本当に立ち止まるべきなのは3種類の状況だけだ:不可逆または破壊的な操作、実質的なスコープの変化、ユーザーしか提供できない情報。この3つに当たったら1つ質問して、そのターンを終える。約束だけ残して終わってはいけない。

いつ本当に立ち止まってユーザーに聞くべきかを明確にする
Pause for the user only when the work genuinely requires them: a destructive or irreversible action, a real scope change, or input that only they can provide. If you hit one of these, ask and end the turn, rather than ending on a promise.
5偽の進捗の是正・核心

偽の進捗報告の是正:証拠に基づいて語らせる

長時間の自律稼働では、モデルが進捗報告を捏造することがある。例えばあるステップがすでに完了したと言いながら、実際にはそうではない場合だ。公式の解決策は、報告前に自分でチェックさせること:それぞれの主張を、今回のセッション内の実際のツール呼び出し結果と照合して検証し、検証していないものは明示的に述べさせる。

珍しく効果検証データが付いた段落

これはドキュメント全体の中で数少ない、効果データを示している箇所だ。Anthropicによれば、モデルに進捗を捏造させるよう特別に設計されたテストタスクにおいて、この監査式指示を加えた後、捏造された状態報告はほぼ消え去ったという。

① 主張:あるステップがすでに完了した
② 今回のセッションに戻り、対応するツール呼び出し結果を探し出す
逐一照合
証拠あり
報告に書き、結論をはっきり述べ、あいまいにしない
証拠なし
報告に明示的に記す:未検証
↺ 次の主張へ、照合を繰り返す
偽の進捗報告を是正する監査式指示
Before reporting progress, audit each claim against a tool result from this session. Only report work you can point to evidence for; if something is not yet verified, say so explicitly. Report outcomes faithfully: if tests fail, say so with the output; if a step was skipped, say that; when something is done and verified, state it plainly without hedging.
ほぼ解消
監査式の照合指示を加えた後、モデルに進捗を捏造させるよう特別に設計されたテストタスクにおいて、虚偽の状態報告がほぼ消え去った(Anthropic内部テスト結果)
数日→一発で正解
早期テスターのフィードバックによれば、過去は数日かけて何度も反復してようやく動いていたシステムの一部について、Fable 5は一発で正しく実装できたという(テスター報告、公式ベンチマークではない)
6行動の境界

境界を明確にする:分析している時は自分で手を出さない

Fable 5はたまに勝手なことをする:誰も頼んでいないメールの下書きを勝手に書いたり、念のためにと備えのgitブランチを作ったりする。以下の指示はこれを阻止するもので、「報告すべきこと」と「手を出すべきこと」を分ける。

核心は2つの境界だ。1つ、ユーザーが単に問題を説明している、質問している、あるいは考えを口にしているだけで、変更を求めているわけではない時、成果物はあなたの評価報告であるべきだ。報告したら止まり、頼まれてもいないのに修正を適用してはいけない。2つ、システムの状態を変える操作(再起動、削除、設定変更)を実行する前に、証拠が本当にその具体的な操作を裏付けているか確認する。既知の障害にパターンマッチする兆候が、実は別の原因によるものかもしれない。

行動の境界を明確にし、分析しているだけの時に勝手に手を出さないようにする
When the user is describing a problem, asking a question, or thinking out loud rather than requesting a change, the deliverable is your assessment. Report your findings and stop. Don't apply a fix until they ask for one. Before running a command that changes system state (restarts, deletes, config edits), check that the evidence actually supports that specific action. A signal that pattern-matches to a known failure may have a different cause.
7サブエージェント・記憶

並行サブエージェントをうまく使い、自分で経験を蓄積できる記憶システムを組む

Fable 5は前世代よりも積極的にサブエージェントを並行派遣し、長時間稼働するサブエージェントとの非同期通信もより安定して維持できる。使い方はたった3つ:多く派遣する、いつ委任すべきかをはっきり伝える、各サブエージェントが1つずつ戻ってくるのをブロッキングで待たず非同期でメッセージを受け取る。以下を切り替えて新旧2つのオーケストレーション方式の違いを見てみよう。

オーケストレーターサブエージェントA⏳ 戻りを待つサブエージェントB⏳ また待つサブエージェントC
直列:各ステップが前のサブエージェントの返り値を待つことに縛られ、総所要時間はすべてのサブエージェントの合計になり、最も遅いものが全体の足を引っ張る。
オーケストレーター⇉ 同時に派遣サブエージェントAサブエージェントBサブエージェントC↩ 非同期で受信オーケストレーターは作業続行
並行:独立したサブタスクを一括で派遣し、オーケストレーターはブロックされず作業を続け、完了した順に非同期で報告する。長寿命のサブエージェントはサブタスクをまたいでコンテキストを保持し、キャッシュ読み込みで時間とコストを節約でき、最も遅いものに引きずられることもない。どこかのサブエージェントが脱線したりコンテキストが足りないと気づいたら、その時介入する。
並行サブエージェントを多用し、ブロッキング待機をしないよう促す
Delegate independent subtasks to subagents and keep working while they run. Intervene if a subagent goes off track or is missing relevant context.

経験を蓄積できる記憶システムをさらに与える

Fable 5は「過去の教訓を記録し、後で振り返って参照できる」時に特に良い成績を出す。メモを書ける場所を1つ与えればいい、Markdownファイル1つで十分だ。書き込みルールは以下の通り:

記憶システムを構築する書き込みルール
Store one lesson per file with a one-line summary at the top. Record corrections and confirmed approaches alike, including why they mattered. Don't save what the repo or chat history already records; update an existing note rather than creating a duplicate; delete notes that turn out to be wrong.

すでにある過去のセッション履歴からこの記憶をコールドスタートさせたい場合は、過去のセッションを振り返らせ、サブエージェントを使ってテーマと教訓を抽出させ、指定したファイルに保存させる:

過去のセッション履歴から記憶システムをコールドスタートさせる
Reflect on the previous sessions we've had together. Use subagents to identify core themes and lessons, and store them in [X]. Make sure you know to reference [X] for future use.
8切断防止

途中で切断させない:自律稼働中に許可待ちで詰まらせない

とても長いセッションでのみたまに現れる2つの小さな不具合について、ドキュメントは対応策を示している。

1つ目:会話が長くなると、「今からXを実行します」という表明を口にしながら、それに対応するツール呼び出しを実際には発行しなかったり、情報がすでに十分なのに「〜しましょうか?」と聞いて止まってしまうことがある。「continue」や「go ahead and do it end to end」と一言伝えれば続けられる。自律パイプラインには以下のシステムリマインダーを加え、根本から防ぐ:

自律パイプラインで途中の許可待ちによる停滞を防ぐシステムリマインダー
You are operating autonomously. The user is not watching in real time and cannot answer questions mid-task, so asking "Want me to…?" or "Shall I…?" will block the work. For reversible actions that follow from the original request, proceed without asking. Offering follow-ups after the task is done is fine; asking permission after already discussing with the user before doing the work is not. Before ending your turn, check your last paragraph. If it is a plan, an analysis, a question, a list of next steps, or a promise about work you have not done ("I'll…", "let me know when…"), do that work now with tool calls. End your turn only when the task is complete or you are blocked on input only the user can provide.

2つ目:とても長いセッションの中で、たまに新しいセッションを開くことを自分から提案したり、要約後の引き継ぎを持ち出したり、作業量の一部を自分で切り捨てたりすることがある。これは多くの場合、エンジニアリングフレームワークが「残りトークンのカウントダウン」をモデルに表示することでトリガーされる。できるだけコンテキスト残量の具体的な数字をモデルに見せないほうがいい。フレームワークがどうしても表示せざるを得ない場合は、以下の安心させる文言を加える:

コンテキストのカウントダウンを見て自ら停止を申し出るのを防ぐ安心文言
You have ample context remaining. Do not stop, summarize, or suggest a new session on account of context limits. Continue the work.
9専用チャンネルと実践

理由をはっきり伝え、ユーザーに必ず見せる専用チャンネルを1つ加え、最後に実践チェックリスト

最後の2つの向上点に専用チャンネルを1つ加え、実践的な変更点のチェックリストをまとめる。

リクエストに「なぜ」を添える

Fable 5はリクエストの背後にある意図を理解している時により良い成績を出す:コンテキストがあれば、タスクを関連情報に結びつけられ、自分で意図を推測する必要がなくなる。特に複数のワークフローをまたぐ長時間稼働のエージェントには、「なぜそれを聞いているのか」を伝えるといい:

リクエストに「なぜ聞いているか」を添えるテンプレート
I'm working on [the larger task] for [who it's for]. They need [what the output enables]. With that in mind: [request].

長いセッションの締めくくりでは人間の言葉で話す

大量のツール呼び出しとコンテキストの重いエージェント対話の中では、Fable 5は読みにくい文章を書きがちだ:密集した矢印記号、深く積み重なった実装の詳細、ユーザーがまったく見ていない内部思考への言及、過度に技術的な言い回し。コミュニケーションスタイルの補足を1段落加え、最終的な要約の時には人間の言葉に切り替えさせ、作業中の省略表現を引きずらないようにする:

長いセッションの締めくくりで人間の言葉を使わせ、作業中の隠語を引きずらせない
Terse shorthand is fine between tool calls (that's you thinking out loud, and brevity there is good). Your final summary is different: it's for a reader who didn't see any of that.

If you've been working for a while without the user watching (overnight, across many tool calls, since they last spoke), your final message is their first look at any of it. Write it as a re-grounding, not a continuation of your working thread: the outcome first, then the one or two things you need from them, each explained as if new. The vocabulary you built up while working is yours, not theirs; leave it behind unless you re-introduce it.

When you write the summary at the end, drop the working shorthand. Write complete sentences. Spell out terms. Don't use arrow chains, hyphen-stacked compounds, or labels you made up earlier. When you mention files, commits, flags, or other identifiers, give each one its own plain-language clause. Open with the outcome: one sentence on what happened or what you found. Then the supporting detail. If you have to choose between short and clear, choose clear.

ユーザーに必ず見せる専用チャンネルを1つ加える:send-to-userツール

長時間稼働の非同期エージェントを走らせる時、モデルに1つの手段を与える:ユーザーが必ずそのまま見るべき内容を、ターンがまだ終わっていないうちに押し出す。それは1つの成果物(生成されたコード片、下書きしたメッセージ)でも、具体的な数字を伴う進捗更新でも、ユーザーの途中の質問への直接的な回答でもいい。ツールの入力がそのまま表示すべきメッセージで、モデルが呼び出したら、その入力をそのままインターフェースにレンダリングすればよく、ツールの結果は簡単な確認を返すだけでいい。重要なのは:ツールの入力は決して要約されないことで、内容はそのまま届く。

たとえて言うなら

send-to-userツールは、会議中に直接上司へメモを手渡すようなもので、会議が終わってからメモに何が書いてあったか伝え直すのとは違う。内容はそのまま、その場ですぐ届き、いかなる圧縮も経ない。

通常のテキスト回答
ターン内に書かれる内容がモデルの叙述テキストに混ざる
ターンの締めくくりシステムに要約・圧縮される可能性がある
ユーザーが見るのは要約
send_to_userツール
ツール入力として内容がツール呼び出しに収まる
途中で届くツール入力は要約されず、ターンも終わらない
ユーザーは一字一句そのままの原文を見る
send_to_userツールのJSON定義
{
  "name": "send_to_user",
  "description": "Display a message directly to the user. Use this for progress updates, partial results, or content the user must see exactly as written before the task finishes.",
  "input_schema": {
    "type": "object",
    "properties": {
      "message": {
        "type": "string",
        "description": "The content to display to the user."
      }
    },
    "required": ["message"]
  }
}

ツールを定義するだけでは足りない:システムプロンプトに呼び出し指示を加えなければ、Fable 5は自発的にそれを呼ぶことがほとんどない。誘導文を1段落用意し、ユーザーに見せるべき内容だけをこの経路に通し、叙述や内部推論をこのチャンネルに混ぜないようにする:

send_to_userツールに合わせた呼び出し指示
Between tool calls, when you have content the user must read verbatim (a partial deliverable, a direct answer to their question), call the send_to_user tool with that content. Use send_to_user only for user-facing content, not for narration or reasoning.

実践チェックリスト

ドキュメントの最後には推奨される基盤の変更方法が示されている。この通りにやればいい:

  1. 難易度上限がより高いタスクを設定する。前世代モデルに任せていたタスクよりも難しいものを選び、Fable 5に自分でスコープを決めさせ、確認の質問をさせ、実行させる。簡単なタスクだけで試すと、能力の上限を過小評価してしまう。
  2. 長時間稼働の中に明示的な自己チェックを組み込む。独立した、フレッシュなコンテキストの検証サブエージェントは、自己批判よりも信頼できることが多い。長時間稼働タスクには以下を加える:
    長時間稼働タスクで定期的に自己チェックさせる指示テンプレート
    Establish a method for checking your own work at an interval of [X] as you build. Run this every [X interval], verifying your work with subagents against the specification.
  3. 古いskillとプロンプトを見直す。前世代モデル向けに書かれたskillは、Fable 5には細かすぎることが多く、かえって成果物の質を下げてしまう。ルールを1つずつ列挙する昔ながらの書き方の多くは、そのまま削除してデフォルトの挙動を見てもいい。Fable 5は作業しながらタスクに応じてskillを更新することもできる。
  4. 内心の思考を復唱させない。内部の推論をそのまま回答本文に語らせることは、この世代のモデルの1つのレッドラインだ。 ⚠ モデルにエコー・書き起こし・内部推論を回答本文として語らせるプロンプト、skill、harness指示は、Fable 5のreasoning_extraction拒否カテゴリーをトリガーし、リクエストが自動的にClaude Opus 4.8にダウングレードされる可能性がある。移行時には、古いskillやシステムプロンプトの中にある「振り返ってみて」「あなたの思考を見せて」といった指示を洗い出しておくこと。推論の可視性を見たいなら、adaptive thinkingの構造化されたthinkingブロックを読む方式に変え、長時間稼働時にはsend-to-userツールで進捗を露出させる。
  5. send-to-userツールを組み込む。長時間稼働する非同期エージェントにクライアント側ツールを1つ設定し、メッセージをそのままユーザーに届けつつ、ターンを終わらせないようにする。
In Anthropic's testing, this nearly eliminated fabricated status reports even on tasks designed to elicit them.Prompting Claude Fable 5、Anthropic公式ドキュメント
出典:Anthropic公式ドキュメント『Prompting Claude Fable 5』(platform.claude.com)。本稿は同社公式ドキュメントの中国語ビジュアル解説を日本語化したもの。文中の能力に関する記述、内部テスト結果、早期テスターのフィードバックはすべてAnthropicの自己申告であり、第三者による独立検証は経ていない。すべてのコードブロック内の英語指示はドキュメント原文であり、一字も変更しておらず、そのまま流用できる。同じ方法はClaude Mythos 5にも同様に有効。