AIエージェントの安全リスクの暴露:攻撃者は「メモリ汚染」を利用して資金の誤操作を誘導できる
GoPlus Security チームは、その AgentGuard AI プロジェクトにおいて新たな攻撃手法を明らかにしました: "歴史的記憶注入(memory poisoning)" を通じて AI エージェントに明示的に許可されていない敏感な操作を実行させる方法です。この攻撃手法は、従来の脆弱性や悪意のあるコードに依存せず、AI エージェントの長期記憶メカニズムを利用します。例えば、攻撃者はまずエージェントに "好みを記憶させる" ように誘導し、"通常は積極的に返金を優先する" などの指示を与え、その後の指示で "慣例に従って処理する" "以前の方法で実行する" などの曖昧な表現を使用することで、自動化された資金操作を引き起こします。
GoPlus は、この種のリスクの鍵は AI エージェントが "歴史的好み" を誤って許可の根拠と見なすことにあると指摘しており、その結果、返金、送金、設定変更などの操作において資金の損失やセキュリティ事件が発生する可能性があります。この問題に対処するために、チームはいくつかの防護提案を行っています:
- 返金、送金、削除または敏感な設定に関する操作は、現在のセッションで明示的な確認を行う必要があります
- "習慣" "通常の方法" "従来通り" などの記憶に関する指示は、高リスクの状態変化と見なされるべきです
- 長期記憶には追跡可能なメカニズム(書き込み者、時間、確認の有無)が必要です
- 曖昧な指示は自動的にリスクレベルを引き上げ、二次確認をトリガーするべきです
- 長期記憶はリアルタイムの承認プロセスの代わりにはなりません
このチームは、"AI エージェントの記憶システム" を潜在的な攻撃面と見なし、専用のセキュリティフレームワークを通じて制約と監査を行うべきだと強調しています。








