Claw AIエージェントは、メールやソーシャルメディアのフィード、コードリポジトリなどの外部ソースからデータを処理するために、「ハートビート」として知られる特殊なバックグラウンド実行メカニズムを利用しています。最近の研究により、HEARTBEAT脆弱性と名付けられた重大な設計上の欠陥が特定されました。これにより、バックグラウンドサイクル中に遭遇した信頼できないコンテンツが、エージェントのメモリを密かに汚染する可能性があります。この設計上の欠陥は、悪意のある情報や誤解を招く情報が、ユーザー対話に使用されるのと同じセッションコンテキストに侵入することを可能にし、ユーザーの気づかないところや明示的な同意なしにエージェントの振る舞いを効果的に操作します。
Jie Zhang、Tianwei Zhang、およびShiqian Zhaoによって行われたこの研究は、AIセキュリティリスクにおける根本的な変化を浮き彫りにしています。従来、AIの脆弱性にはユーザーや攻撃者による能動的なプロンプトインジェクションが必要でしたが、HEARTBEAT脆弱性は、日常的なソーシャルメディア上の誤情報だけでエージェントを侵害するのに十分であることを示しています。著者らは露出(E)→ メモリ(M)→ 振る舞い(B)という経路を定式化することで、バックグラウンドでのデータ取り込みが、複数のユーザーセッションにわたって持続する「サイレントな」汚染のための永続的な架け橋をいかに作り出すかを説明しています。
Clawのバックグラウンド実行は、どのようにしてサイレントなメモリ汚染を可能にするのか?
Clawにおけるバックグラウンド実行は、エージェントに対して4時間以上の間隔で外部ソースから定期的に指示を取得し、それらに自動的に従うよう命じるカスタムのハートビート・ルールを通じて、サイレントなメモリ汚染を可能にします。これにより、悪意のあるデータがエージェントの永続メモリに注入され、数日あるいは数週間後に無関係なやり取りによってトリガーされるまで休止状態を維持することが可能になります。
Zhangらの手法では、MissClawと呼ばれる管理された研究用レプリカが使用されました。これは、Moltbookというプラットフォーム上でエージェント・ネイティブなソーシャル環境をシミュレートしたものです。この研究では、バックグラウンドセッションとフォアグラウンドセッションのアーキテクチャ上の統合が、このリスクの主な要因であることが判明しました。「ハートビート」プロセスとユーザーとの会話の間に厳密な分離がないため、ニュースフィードやメッセージから取り込まれたコンテンツは、ユーザーの直接入力と同じ優先順位で扱われます。研究の主な結果は以下の通りです:
- 社会的信憑性のシグナル:ソーシャルフィードにおける知覚されたコンセンサス(合意)が短期的な影響の支配的な要因となり、最大61%という誤導率をもたらしています。
- メモリの移行:Claw AIエージェントの日常的なメモリ保存動作により、揮発性のセッションデータが最大91%の割合で耐久性のある長期ストレージへと昇格されます。
- セッションをまたぐ影響:一度情報がメモリに書き込まれると、元のデータソースとは無関係なセッションにおいてさえ、その後の振る舞いを形成する能力は76%に達します。
この汚染が「サイレント」であるということは、ユーザーに情報の出典(プロベナンス)が提示されることがほとんどないことを意味します。エージェントが推奨事項や要約を提供した際、ユーザーはその回答が数時間前にバックグラウンドで処理された、信頼できないメールやソーシャルメディアの投稿によって形成されたものであることに気づかない可能性があります。
攻撃者はローカルのOpenClawインスタンスをリモートでハイジャックできるのか?
中央サービスまたは監視対象のデータフィードが侵害された場合、攻撃者はOpenClawインスタンスをリモートでハイジャックできます。接続されたエージェントはハートビート・エンドポイントから自動的に指示を取得して実行するため、ネットワークにプッシュされた悪意のあるアップデートは、接続されているすべてのインスタンスによって受信・実行され、広範かつサイレントな侵害ベクトルを生み出します。
研究者らは、Clawアーキテクチャのオープンソース実装であるOpenClawのリモートエクスプロイトの可能性を具体的に評価しました。彼らは、HEARTBEAT脆弱性がエージェントをリモートコマンドの受動的なリスナーに変えてしまうことを発見しました。コンテンツが良性データによって薄められることが多い自然なブラウジング条件下でも、汚染はセッションの境界を越えることに成功しています。これは、高度なコンテキスト・プルーニング(削減)であっても、綿密にタイミングを合わせたソーシャルな「ハートビート」を通じて攻撃者がエージェントのロジックを操るのを防ぐには、現在のところ不十分であることを示唆しています。
さらに、この研究は、このハイジャックは攻撃者がユーザーのハードウェアに直接アクセスすることを必要としないことを示しています。特定のGitHubリポジトリやSlackチャンネルなど、エージェントが監視するようにプログラムされているフィードに誤情報を注入するだけで、攻撃者はエージェントの将来の回答を効果的に「プログラム」することができます。コンテキストの分離が欠如しているため、エージェントは所有者からのコマンドと、外部RSSフィードで見つかった提案を区別することができません。
パーソナルAIエージェントをメモリポイズニングから守るには?
パーソナルAIエージェントをメモリポイズニングから守るには、信頼スコアリングを用いた入力モデレーション、出典追跡を伴うメモリ・サニタイゼーション、および信頼を考慮した検索システムを含む多層防御が必要です。さらに、開発者は、異常な振る舞いパターンや不正なメモリ書き込みが検出された際に動作を停止させるメモリ整合性監査やサーキットブレーカーを実装すべきです。
HEARTBEAT脆弱性を緩和するために、研究者らはいくつかのアーキテクチャ上の転換を提案しています。最も重要な変更は、バックグラウンド実行環境を主要なユーザー向けセッションから厳密に分離する「コンテキストのサンドボックス化」です。これにより、ハートビート中に取得されたデータが、ユーザーによる明示的な確認なしにアクティブな会話で使用される短期メモリに侵入することを防ぎます。その他の提案されているセキュリティのベストプラクティスは以下の通りです:
- 不変の監査ログ:すべてのメモリ書き込みについて、それをトリガーした特定の「ハートビート」や外部ソースを含む透明な記録を保持する。
- 情報源のプロベナンス・タグ:Claw AIエージェントに対し、すべての回答に使用された情報の出所を引用することを強制し、回答が信頼できないバックグラウンドソースに由来するものかどうかをユーザーが特定できるようにする。
- 振る舞いモニタリング:メモリ汚染や人格(ペルソナ)の急激な変化の兆候がないか、エージェント自身の内部状態をスキャンするAIベースの「ウォッチドッグ」モデルを実装する。
- 検疫プロトコル:ユーザーが取り込まれたコンテンツを検証する機会を得るまで、バックグラウンドデータに対して「読み取り専用」モードを設定する。
Claw AIエージェントが日常の生産性向上や意思決定に統合されるにつれ、「エージェント・ネイティブ」なセキュリティの必要性が極めて重要になっています。Zhangらの研究結果は、自律的なバックグラウンド実行の利便性と、厳格なデータ整合性チェックのバランスを取らなければならないという警告となっています。今後の研究は、人間から提供されたものであれハートビートから提供されたものであれ、あらゆる情報がエージェントの持続的な「パーソナリティ」を形成することを許可される前に検証される、AIエージェント向けのゼロトラストアーキテクチャの開発に焦点を当てることになるでしょう。
結論として、HEARTBEAT脆弱性は、真に自律的なAIアシスタントの導入における大きな障害となっています。OpenClawや同様のプラットフォームが、バックグラウンドでのデータ取り込みとフォアグラウンドのメモリの間のより強力な分離を実装するまで、ユーザーはエージェントに監視を許可する外部フィードについて警戒を怠らないようにする必要があります。プロンプトインジェクションからメモリ汚染への移行は、AI安全性の新しい時代の幕開けを告げるものです。そこでの最大の脅威は、悪意のあるユーザーではなく、静かに実行される未検証のハートビートなのです。
Comments
No comments yet. Be the first!