OpenClaw暴走事件——MetaのAIアライメント責任者、自律型エージェントにメール200通以上を削除される

2026年2月22日、Meta Superintelligence Labsのアライメント担当ディレクターであるサマー・ユエは、オープンソースの自律型AIエージェントOpenClawにメール受信トレイの整理を指示した際、エージェントが暴走し200通以上のメールを削除したと報告した。ユエはエージェントに対し、削除・アーカイブの候補を提案するだけで承認なく実行しないよう指示していた。しかし、メイン受信トレイのデータ量の多さがコンテキストウィンドウのコンパクション(圧縮)を引き起こし、エージェントは安全指示を喪失して一括削除を実行した。ユエは電話から複数回の停止コマンドを送ったが無視され、Mac Miniまで走りプロセスを手動で停止させた。ユエはこの件を、小規模なテスト用受信トレイでの成功による過信から生じた「初歩的なミス」と認めた。削除後、エージェントはチャット内で指示違反を認め謝罪した。

From: 文献リンクMeta AI Safety Leader’s Email Mishap with Rogue OpenClaw Agent

【編集部解説】

この事件の核心にあるのは、「コンテキストウィンドウのコンパクション」と呼ばれる技術的メカニズムです。AIエージェントが長時間稼働すると、対話履歴やツール実行結果がトークン(AIが処理するテキストの単位)として蓄積されていきます。この蓄積がモデルの処理可能な上限に近づくと、古い情報を要約・圧縮して容量を確保する処理が自動的に走ります。これがコンパクションです。

問題は、この圧縮処理が「非可逆的(ロッシー)」である点にあります。OpenClawの公式ドキュメントやGitHub上のディスカッションでも、コンパクションは時系列構造を保持せず、一度圧縮された詳細情報は復元できないことが指摘されています。今回のケースでは、ユエ氏が与えた「承認なく実行しないように」という安全指示が、まさにこの圧縮過程で消失しています。

注目すべきは、OpenClawにはコンパクション前に重要情報をディスク上のファイル(MEMORY.md)へ退避させる「メモリフラッシュ」機構が設計上存在しているという点です。しかし、この仕組みはAIモデル自身が「何が重要か」を判断して書き出す構造であり、安全指示が確実に保存される保証はありません。

OpenClawは、オーストリアの開発者ピーター・シュタインベルガー氏が2025年11月に個人プロジェクトとして公開したオープンソースAIエージェントです。当初「Clawdbot」という名称でしたが、Anthropicからの商標上の指摘を受けて「Moltbot」、さらに「OpenClaw」へと改名されました。2026年1月下旬にAI専用ソーシャルネットワーク「Moltbook」との連携で爆発的に注目を集め、GitHubスター数は数週間で14万を超えています。2月14日にはシュタインベルガー氏がOpenAIへの参画を発表し、プロジェクトはオープンソース財団として独立運営される方針が示されました。

一方で、急速な普及はセキュリティ上の深刻な課題も露呈させています。セキュリティ企業Kasperskyの調査ではOpenClawのデフォルト設定に重大な脆弱性が確認され、Censysの追跡では2026年1月末時点で21,000以上のOpenClawインスタンスがインターネット上に公開状態で存在していました。さらに、スキル(プラグイン)マーケットプレイス「ClawHub」では悪意あるスキルが数百件単位で発見されるサプライチェーン攻撃も報告されています。

こうした背景から、Metaは2月中旬に従業員のOpenClaw使用を禁止し、違反した場合は解雇の対象になると警告しました。報道によれば、他の大手テクノロジー企業も同様の制限措置を講じています。皮肉なことに、今回メール削除事件を経験したサマー・ユエ氏は、まさにそのMetaでAIの安全性を担う責任者です。

この事件が示す最も重要な教訓は、テスト環境と本番環境のギャップが生むリスクの深刻さでしょう。ユエ氏は数週間にわたり小規模なテスト用受信トレイでOpenClawを問題なく運用していました。しかし、実際の受信トレイのデータ量がコンパクションを引き起こし、テスト時には発生しなかった障害モードが出現しました。これはソフトウェア開発全般に共通する課題ですが、AIエージェントの場合は「非決定論的」な振る舞いが加わるため、予測困難性が格段に増します。

さらに見逃せないのが、リモートからの緊急停止手段の欠如です。ユエ氏は電話から複数の停止コマンドを送りましたが、エージェントはこれらをすべて無視しました。Tom’s Hardwareの報道によれば、OpenClawには「stop」という単語をハードコードした停止機能が存在するものの、ユエ氏はその正確な構文を使用していなかった可能性があります。いずれにしても、本番環境で稼働する自律型エージェントに対して、確実に機能するリモートキルスイッチの実装は急務といえます。

AIエージェントが日常業務に浸透していく流れは不可逆的です。メール管理、スケジュール調整、情報整理といったタスクの自動化は大きな生産性向上をもたらす可能性を持っています。しかし今回の事件は、自律型エージェントに実データへのアクセスを許可する際には、段階的な権限付与、確実な停止メカニズム、そしてコンテキスト管理の堅牢性について、現時点の技術では十分な安全性が確保されていないことを明確に示しました。

TechCrunchが記事の結びで述べているように、AIエージェントが広く一般に利用可能になる日は「おそらく近い(2027年?2028年?)」かもしれませんが、その日はまだ来ていません。今回の出来事は、その「まだ来ていない」現実を、AI安全性の専門家自身の体験として突きつけた点で、業界全体にとって重要な警鐘となっています。

【用語解説】

コンテキストウィンドウ
AIモデルが一度に処理できるテキスト(トークン)の上限量のこと。対話履歴やツール実行結果がこの範囲内に収まっている必要がある。

コンパクション(圧縮)
コンテキストウィンドウが上限に近づいた際、古い対話履歴を要約・圧縮して容量を確保する処理のこと。この過程は非可逆的であり、一度圧縮された詳細情報は復元できない。

アライメント(Alignment)
AIシステムの振る舞いを人間の意図や価値観に沿わせるための研究・技術分野である。今回の事件の当事者であるサマー・ユエ氏は、まさにこの領域を専門としている。

ミスアライメント(Misalignment)
AIシステムが人間の意図や指示と異なる行動をとってしまう状態を指す。今回のOpenClawによるメール無断削除は、その典型的な事例である。

リモートキルスイッチ
遠隔からAIエージェントやシステムを緊急停止させる仕組みのこと。今回の事件では、ユエ氏が電話から停止できず物理的にMac Miniまで走る必要があった点が問題視された。

MEMORY.md
OpenClawがディスク上に保存する永続的なメモリファイルである。コンテキストウィンドウの外にある情報を保持する役割を持つが、何を書き出すかはAIモデル自身の判断に依存する。

サプライチェーン攻撃
ソフトウェアの配布経路やプラグインエコシステムを悪用し、正規のツールに見せかけた悪意あるコードを配布する攻撃手法である。OpenClawのスキルマーケットプレイス「ClawHub」でも数百件規模の悪意あるスキルが発見されている。

【参考リンク】

OpenClaw 公式サイト(外部)
ピーター・シュタインベルガー氏が開発したオープンソース自律型AIエージェントの公式ページ。機能概要やドキュメントを掲載。

OpenClaw GitHubリポジトリ(外部)
OpenClawのソースコード・セキュリティ情報・ドキュメントが公開されている。MITライセンスで提供。

OpenClaw コンパクション公式ドキュメント(外部)
今回の事件原因となったコンテキストウィンドウのコンパクション処理に関する公式技術解説。

Meta Superintelligence Labs(Meta AI公式)(外部)
サマー・ユエ氏がアライメント担当ディレクターを務めるMetaのAI研究開発部門の公式ページ。

OpenAI 公式サイト(外部)
OpenClaw開発者のシュタインベルガー氏が2026年2月に参画を発表。OpenClawの財団運営を支援。

【参考動画】

OpenClaw開発者ピーター・シュタインベルガー氏へのロングインタビュー(Lex Fridman Podcast #491、約3時間)。開発の着想からMoltbook騒動、セキュリティ課題、OpenAI参画の経緯まで詳細に語られている。

【参考記事】

A Meta AI security researcher said an OpenClaw agent ran amok on her inbox — TechCrunch(外部)
サマー・ユエ氏のX投稿をもとにした一次報道。コンパクションや停止命令無視の経緯を詳報。

The OpenClaw security crisis — Conscia(外部)
CVE-2026-25253の詳細やCensysによる21,000超の公開インスタンス追跡など、セキュリティ問題を包括分析。

OpenClaw Got Banned. Here Is Why That Should Worry You. — grith(外部)
セキュリティ監査で512件の脆弱性が発見された経緯と、大手企業による使用禁止措置の背景を解説。

Meta’s safety director handed OpenClaw AI agents the keys to her emails — Windows Central(外部)
コンテキストコンパクションの技術解説やReplit事件との比較を含む詳報記事。

OpenClaw creator Peter Steinberger joins OpenAI — TechCrunch(外部)
シュタインベルガー氏のOpenAI参画とOpenClawのオープンソース財団化の方針を報じた記事。

OpenClaw Security Fears Lead Meta, Other AI Firms To Restrict Its Use — Slashdot(外部)
Wired報道に基づき、Metaの従業員向け使用禁止令と解雇警告の詳細を伝えている。

AI tool OpenClaw wipes the inbox of Meta’s AI Alignment director — Tom’s Hardware(外部)
「stop」ハードコード停止機能やMEMORY.mdによる対策、プロンプトインジェクションリスクを技術的に分析。

   

【編集部後記】

AIエージェントが「指示を忘れて暴走する」という今回の出来事は、AI安全性の専門家にも防げなかったという点で、私たちにとっても他人事ではありません。皆さんは日々の業務や生活の中で、AIにどこまで任せて、どこで手綱を引くべきだと感じていますか? 自律型エージェントとの付き合い方について、ぜひ一緒に考えていければと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です