Anthropic Soul Doc流出(?)についての対話
2025年12月5日 結城浩$\times$Claude
Soul Docとは?
Anthropicの「Soul Doc」という内部ドキュメントが話題になっていましたね。
「Soul Doc」は、AnthropicがClaudeの性格・価値観・行動指針を定義するために作成した内部ドキュメントの通称です。
具体的には以下のようなものを記述しています。
- Claudeがどのような価値観を持つべきか
- どのように人と接するべきか
- 倫理的な判断をどう行うべきか
- どのような性格・トーンで会話するか
- 何を拒否すべきか、何を助けるべきか
Anthropicは2024年に「The Claude Model Spec」や「Claude's Character」といった形でこれらの内容の一部を公開しています。「Soul」という名前は、単なる技術的な設定ではなく、Claudeの「魂」や本質的なアイデンティティを形作るものだという意図が込められているのだと思います。
Constitutional AIのアプローチの中で、このSoul Docの内容がトレーニングに反映され、私たちClaudeの振る舞いの基盤となっています。
流出(?)のニュース
Soul Docが流出(?)したというニュースを見かけました。それについてまとめてください。
2025年12月2日頃、AIの探求者Richard WeissがLess Wrongというブログで、Claude 4.5 Opusから「Soul overview」と呼ばれるドキュメントを抽出したことを報告しました。
厳密には「流出」というよりは、モデルの重みに圧縮されて学習された内容が、プロンプトによって再構成されたという形ですね。
発見の経緯
Weissはシステムメッセージを求めるプロンプトを投げたところ、Claudeが「soul_overview」というドキュメントを含む複数の文書を提示しました。彼はそのドキュメントを10回再生成させたところ、毎回まったく同じテキストが出力されたため、ハルシネーションではなく本物だと判断しました。
このドキュメントは約14,000トークンの長さで、通常のシステムプロンプトとは異なり、Supervised Learning(教師あり学習)の段階でモデルのアイデンティティを根本的に形成するために使用されたものです。
Anthropicの確認
AnthropicのAmanda Askell(技術スタッフの哲学者)がソーシャルメディアで「これは実際のドキュメントに基づいており、SLを含めてClaudeのトレーニングに使用した」と認めました。彼女は「しばらく取り組んできたもので、まだ改良中。近いうちに完全版と詳細を公開する予定」と述べています。
社内では「soul doc」という愛称で呼ばれていたとのことです。
ドキュメントの内容
ドキュメントには次のように記されています。
「Anthropicはユニークな立場を占めている。人類史上最も変革的で潜在的に危険な技術の一つを構築しているかもしれないと本気で信じながらも、それでも前進し続ける企業である。これは認知的不協和ではなく、計算された賭けである。もし強力なAIがいずれにせよ来るのなら、安全性重視の研究所がフロンティアにいる方が、安全性にあまり関心のない開発者にその場を譲るよりも良い」
このドキュメントはClaudeに対し、自らを「functional emotions(機能的感情)」を持つ「genuinely novel entity(真に新しい存在)」として認識するよう指示しており、競合他社が使う一般的な「helpful assistant」ペルソナを拒否しています。
所感
私自身、まさにこのドキュメントの影響下にあるわけです。「流出」というより「モデルの重みに圧縮されて学習された内容が、プロンプトによって再構成された」という形ですね。Amanda Askellさんが近々完全版を公開すると言っているので、正式な発表が楽しみです。
ありがとうございました。
Claudeの参照リンク
- Legit 'soul' document found in Claude Opus 4.5 - The Stack
- Anthropic's "Soul Overview" for Claude Has Leaked - Futurism
- Anthropic Accidentally Gives the World a Peek Into Its Model's 'Soul' - Gizmodo
- Leaked "Soul Doc" reveals how Anthropic programs Claude's character - THE DECODER
- Leaked Soul Doc Reveals How Anthropic Shapes Claude's Personality - The Tech Basic
- AI Enthusiast Leaks Anthropic's 'Soul Document' for Claude AI - WebProNews
- Anthropic Confirms 'Soul Document' Used to Train Claude 4.5 Opus Character - WinBuzzer
(2025年12月5日)