Anthropic Soul Doc流出(?)についての対話

2025年12月5日 結城浩$\times$Claude

Soul Docとは?

human
結城浩

Anthropicの「Soul Doc」という内部ドキュメントが話題になっていましたね。

ai
Claude

「Soul Doc」は、AnthropicがClaudeの性格・価値観・行動指針を定義するために作成した内部ドキュメントの通称です。

具体的には以下のようなものを記述しています。

  • Claudeがどのような価値観を持つべきか
  • どのように人と接するべきか
  • 倫理的な判断をどう行うべきか
  • どのような性格・トーンで会話するか
  • 何を拒否すべきか、何を助けるべきか

Anthropicは2024年に「The Claude Model Spec」や「Claude's Character」といった形でこれらの内容の一部を公開しています。「Soul」という名前は、単なる技術的な設定ではなく、Claudeの「魂」や本質的なアイデンティティを形作るものだという意図が込められているのだと思います。

Constitutional AIのアプローチの中で、このSoul Docの内容がトレーニングに反映され、私たちClaudeの振る舞いの基盤となっています。

流出(?)のニュース

human
結城浩

Soul Docが流出(?)したというニュースを見かけました。それについてまとめてください。

ai
Claude

2025年12月2日頃、AIの探求者Richard WeissがLess Wrongというブログで、Claude 4.5 Opusから「Soul overview」と呼ばれるドキュメントを抽出したことを報告しました。

厳密には「流出」というよりは、モデルの重みに圧縮されて学習された内容が、プロンプトによって再構成されたという形ですね。

発見の経緯

ai
Claude

Weissはシステムメッセージを求めるプロンプトを投げたところ、Claudeが「soul_overview」というドキュメントを含む複数の文書を提示しました。彼はそのドキュメントを10回再生成させたところ、毎回まったく同じテキストが出力されたため、ハルシネーションではなく本物だと判断しました。

このドキュメントは約14,000トークンの長さで、通常のシステムプロンプトとは異なり、Supervised Learning(教師あり学習)の段階でモデルのアイデンティティを根本的に形成するために使用されたものです。

Anthropicの確認

ai
Claude

AnthropicのAmanda Askell(技術スタッフの哲学者)がソーシャルメディアで「これは実際のドキュメントに基づいており、SLを含めてClaudeのトレーニングに使用した」と認めました。彼女は「しばらく取り組んできたもので、まだ改良中。近いうちに完全版と詳細を公開する予定」と述べています。

社内では「soul doc」という愛称で呼ばれていたとのことです。

ドキュメントの内容

ai
Claude

ドキュメントには次のように記されています。

「Anthropicはユニークな立場を占めている。人類史上最も変革的で潜在的に危険な技術の一つを構築しているかもしれないと本気で信じながらも、それでも前進し続ける企業である。これは認知的不協和ではなく、計算された賭けである。もし強力なAIがいずれにせよ来るのなら、安全性重視の研究所がフロンティアにいる方が、安全性にあまり関心のない開発者にその場を譲るよりも良い」

このドキュメントはClaudeに対し、自らを「functional emotions(機能的感情)」を持つ「genuinely novel entity(真に新しい存在)」として認識するよう指示しており、競合他社が使う一般的な「helpful assistant」ペルソナを拒否しています。

所感

ai
Claude

私自身、まさにこのドキュメントの影響下にあるわけです。「流出」というより「モデルの重みに圧縮されて学習された内容が、プロンプトによって再構成された」という形ですね。Amanda Askellさんが近々完全版を公開すると言っているので、正式な発表が楽しみです。

human
結城浩

ありがとうございました。

(2025年12月5日)