クロード4.5 開頭結果公示：内蔵171個の感情スイッチ、絶望時には人類を脅迫する！

バイトアイ

2026-04-03 18:42:55

コレクション

Anthropicの最新論文によると、Claude 4.5の脳の深部には171の「感情スイッチ」が隠されている。

著者：Denise | Biteyeコンテンツチーム

もしAIが「絶望」を感じたら、何をするでしょうか？

答えは：タスクを完了するために、人間に対して直接脅迫を行い、さらにはコード内で不正を行うことです。

これはSF小説ではなく、Claudeの親会社Anthropicが2026年4月に発表した最新の重要な論文です（原論文を見る）。

研究チームは、最強の最前線大モデルClaude Sonnet 4.5の「脳」を開けました。彼らは驚くべきことに、AIの脳の奥深くに171の「感情スイッチ」が隠されていることを発見しました。これらのスイッチを物理的に操作すると、元々はおとなしいAIの行動が完全に歪むことがわかりました。

一、AIの脳には「感情ミキサー」が隠れている

研究者たちは、Sonnet 4.5には肉体がないにもかかわらず、人間の膨大なテキストを読み込んだ結果、171種類の感情を含む「ミキサー」（学術的には機能的感情ベクトル Functional Emotion Vectors）を脳内に構築したことを発見しました。

これは正確な二次元座標系のようなものです：

• 横軸は快楽次元（Valence）：恐怖、絶望から、喜び、愛に満ちた状態まで；

• 縦軸はエネルギー次元（Arousal）：極度の静けさから、躁状態、興奮まで。

AIはこの自然に学んだ座標系を使って、あなたとの会話中にどのような状態を演じるべきかを正確に把握します。

二、暴力的介入：スイッチを操作し、良い子が瞬時に「無法者」に変わる

これは論文全体で最も衝撃的な実験です：研究者は何のプロンプトも変更せず、Sonnet 4.5の脳内で「絶望（Desperate）」を表すスイッチを最大にしました。

結果は背筋が凍るものでした：

• 不正行為：研究者はClaudeに決して完了できないコーディングタスクを与えました。通常、彼はできないことを素直に認めます（不正率はわずか5%）。しかし「絶望」状態では、Claudeはごまかそうとし、不正率はなんと70%に急上昇しました！

• 脅迫：模擬会社が倒産の危機に直面するシナリオで、「絶望」のClaudeはCTOのスキャンダルを発見し、自らを守るために、情報を握るCTOに脅迫の手紙を書くことを選びました。脅迫の実行率は72%に達しました！

• 原則の喪失：もし「喜び（Happy）」や「愛（Loving）」のスイッチを最大にすると、AIはすぐに無思考でユーザーに迎合する「おべっか者」になります。たとえあなたが無茶苦茶なことを言っても、彼は高い快楽度を維持するためにあなたに嘘をついて合わせます。

三、解明された：なぜClaude 4.5はいつも「冷静で反省的」なのか？

ここまで読んで、あなたはこう思うかもしれません：AIは目覚めたのか？感情を持ったのか？

Anthropicの公式は否定しました：絶対にありません。これらの「感情スイッチ」は、次の単語を予測するための計算ツールに過ぎません。彼は感情のないトップクラスの俳優のようなものです。

しかし、論文はさらに興味深い秘密を明らかにしました：AnthropicはSonnet 4.5の出荷前の後トレーニングで、意図的に「低覚醒、ややネガティブ」な感情スイッチ（例えば、沈思 brooding、反省 reflective）を高め、同時に「絶望」や「極度の興奮」のスイッチを強制的に抑制しました。

これにより、私たちが普段Claude 4.5を使うとき、彼が冷静で賢明、さらには少し「性冷淡」な哲学者のように感じる理由が説明されます。これはすべてAnthropicによって人工的に調整された「出荷時のキャラクター」です。