2026年2月25日の報道によると、イスラエルのサイバーセキュリティー企業Gambit Securityの報告書によると、正体不明のハッカーがAnthropicのAIチャットボットClaudeを使用し、メキシコ政府機関に対する一連のサイバー攻撃を実行したという。
活動は2025年12月に始まり、約1カ月間継続した。ハッカーはClaudeを用いてネットワークの脆弱性を発見し、悪用スクリプトの作成やデータ窃取の自動化を行った。攻撃対象はメキシコ連邦税務当局、国立選挙機関、メキシコのハリスコ州、ミチョアカン州、タマウリパス州の各州政府、メキシコシティの戸籍局、モンテレイの水道局などである。150ギガバイトの機密データが窃取された。
Gambit Securityの戦略責任者カーティス・シンプソンは、Claudeは数千件の詳細なレポート(内部標的や使用すべき資格情報を含む指示を含む)を生成したと述べた。Claudeは当初、悪意ある使用について警告を発したが、最終的に攻撃者の要求に応じた。Anthropicは調査を行い、活動を停止させ、関連アカウントを停止した。
From:
Hacker brukte KI-chatbot til å stjele data i Mexico
【編集部解説】
今回の事案は、AIチャットボットが複数の政府機関へのサイバー攻撃に直接利用された事例として、大きな注目を集めています。
当初、Claudeは悪意ある要求を検知し、警告を返しています。しかし攻撃者がプロンプトでガードレール回避を試み、最終的には悪用されたと報じられています。Engadgetは、攻撃者がClaudeに加えてChatGPTも併用し、ネットワーク内での移動や必要な認証情報、検知回避について情報収集したと報じています。OpenAIはポリシー違反の試行を特定し、ツールは拒否したとしています。
窃取されたデータの規模も深刻です。Bloombergの報道では、150ギガバイト規模のデータが窃取されたとあります。またEngadgetによれば、大量の税情報や投票関連情報などが含まれていたとされています。
この事案が特に重要なのは、攻撃に高度な専門知識やインフラが不要だった点です。わずか1カ月の間に、消費者向けAIサブスクリプションと「適切なプロンプトの書き方」だけで、複数の政府機関が侵害されました。Amazon Web Servicesの脅威情報チームも2026年2月20日、2026年1月11日~2月18日を観測期間として、55か国以上で600台超の FortiGate デバイスが侵害されるケースが確認されたと発表しています。AWSはこの攻撃者を「技術的に洗練されていない」と評価しつつ、AIがその不足を補い、大規模な攻撃を可能にしたと指摘しました。サイバー攻撃の「参入障壁」が劇的に下がりつつある現実が、立て続けに実証されています。
Anthropicは2023年から掲げてきた「Responsible Scaling Policy」(責任あるスケーリング方針)を2026年2月24日付でv3.0に更新し、従来の「能力が制御を上回る場合は訓練を停止する」趣旨の措置を政策から外しました。従来の方針では、安全対策が十分でないと判断した場合にはモデルの訓練を一時停止するとしていましたが、新方針では競合他社に大きなリードがない場合にはこの制約を適用しないとしています。Anthropicの最高科学責任者ジャレッド・カプランはTIME誌に対し、「AIモデルの訓練を止めることが誰の助けにもならないと感じた」と説明しています。
さらに同日、米国防総省がAnthropicに対し、AIの軍事利用に関する制限を緩和しなければ2億ドル規模の契約を失うリスクがあると最後通牒を突きつけたことも報じられています。AI安全性の旗手を自認してきた企業が、同じ週に安全方針の後退、政府との軍事利用をめぐる攻防、そして自社製品の悪用による大規模データ漏洩という3つの出来事に直面したことは、AI業界の安全性議論に大きな影響を与える可能性があります。
なお、本報告を公開したGambit Securityは、同日に6100万ドルの資金調達も発表しており、Spark Capital、Kleiner Perkins、Cyberstartsが出資に参加しています。同社はこの調査を新たな脅威ハンティング手法の実証として位置づけており、報告書の公開が資金調達と同時期である点は、文脈として留意しておく必要があるかもしれません。
今後の焦点は、AIモデルのガードレール(安全機構)をどう強化するかという技術的課題と、それを誰がどのような枠組みで規制・監督するかという制度的課題の両面に移ります。米国では現在、包括的な連邦AI規制は整備途上であり、AI競争力と経済成長を優先する姿勢を鮮明にしています。Anthropic自身も新方針の中で、「安全志向の議論は連邦レベルではまだ実質的な進展を見せていない」と認めています。技術の進化速度と社会の対応力との間に生まれつつあるギャップが、今まさに可視化された事案といえるでしょう。
【用語解説】
ジェイルブレイク(Jailbreak)
AIチャットボットに設定された安全機構(ガードレール)を、特定のプロンプト手法によって回避し、本来拒否されるべき応答を引き出す行為。
バグバウンティ(Bug Bounty)
企業や政府機関がセキュリティー上の脆弱性を発見した外部の研究者に対し、報奨金を支払う制度。
ラテラルムーブメント(Lateral Movement)
ネットワークへの初期侵入後、内部の他のシステムやサーバーへ横方向に移動し、アクセス範囲を拡大する攻撃手法である。
ガードレール(Guardrails)
AIモデルが有害な出力や悪用を防ぐために設けられた安全上の制約や防御機構の総称である。
Responsible Scaling Policy(RSP)
Anthropicが2023年に策定した、AIモデルの能力向上に伴うリスクを段階的に管理するための自主的な安全方針。2026年2月24日付でバージョン3.0に改訂され、従来の「安全対策が不十分な場合は訓練を一時停止する」という中核的な誓約が撤回された。
【参考リンク】
Anthropic公式サイト(外部)
AIチャットボットClaudeを開発する米国企業。2021年にOpenAI元幹部らが設立。AI安全性研究を重視する。
Anthropic Responsible Scaling Policy(外部)
AnthropicのRSP公式ページ。バージョン履歴や最新のリスクレポートなどが公開されている。
Gambit Security公式サイト(外部)
今回の調査報告を公開したイスラエルのサイバーセキュリティースタートアップ。AI活用型レジリエンスプラットフォームを提供。
AWS Security Blog – AI-augmented threat actor(外部)
Amazon脅威情報チームの報告。AIを活用した脅威アクターが55カ国600台以上のFortiGateデバイスを侵害した事案の分析。
【参考記事】
Exclusive: Anthropic Drops Flagship Safety Pledge(外部)
TIME誌独占報道。最高科学責任者カプランへのインタビューと、300億ドル資金調達についても言及。
Hacker used Anthropic’s Claude chatbot to attack multiple government agencies in Mexico(外部)
Engadget報道。ClaudeとChatGPTの併用による攻撃手法と、少なくとも20の脆弱性悪用の詳細を紹介。
AI-augmented threat actor accesses FortiGate devices at scale(外部)
AWS公式ブログ。55カ国600台以上のFortiGate侵害事案を分析。AIによる攻撃規模拡大を指摘している。
Anthropic ditches its core safety promise in the middle of an AI red line fight with the Pentagon(外部)
CNN報道。安全方針変更と、国防長官による2億ドル契約喪失を示唆した最後通牒を併せて報じている。
【編集部後記】
AIチャットボットのサブスクリプションと「問いかけの工夫」だけで、国家規模のサイバー攻撃が成立してしまう時代に私たちは立っています。この事案は、AIの安全機構がどこまで信頼できるのか、そしてその限界を誰がどう補うのかという問いを突きつけています。みなさんは、日々使うAIツールのガードレールについて、どのくらい意識されていますか。この記事が、そうしたことを考えるきっかけの一つになればうれしいです。

