Anthropic、Claude に選挙セーフガード最新版を実装──TurboVote 連携と影響工作への耐性評価を公開

Anthropicは2026年4月24日、AIモデルClaudeの選挙関連セーフガード最新版を発表した。

Opus 4.7とSonnet 4.6が政治的中立性で95%・96%、有害な要求300件と正当な要求300件、計600件のプロンプトを用いた利用規約遵守テストで100%・99.8%、影響工作への耐性評価で94%・90%の確率で適切に応答した。Claude.aiでは米国中間選挙に関する質問に対し、Democracy Worksが運営する超党派リソースTurboVoteへ誘導する選挙バナーを表示する。本年後半のブラジル選挙でも同様のバナーを導入する。AnthropicはThe Future of Free Speech、Foundation for American Innovation、Collective Intelligence Projectと協力している。

From: n update on our election safeguards

【編集部解説】

本発表は、2026年11月に予定されている米国中間選挙、そして同年中のブラジル選挙などを射程に置いた動きです。なぜ今なのか。背景にあるのは、生成AIが「投票所をどこで知るか」という基礎的な問いから、候補者の政策比較に至るまで、有権者の情報行動の入口として急速に定着しつつあるという現実です。検索エンジンに代わる「答えを返す機械」へと、人々の依存対象が移行する過渡期に、私たちは立ち会っています。

注目すべきはAnthropicのアプローチが、競合と一線を画している点です。Googleは2024年以降、Geminiに対し選挙関連の質問への回答そのものを制限する保守的な方針を採ってきました。これに対しAnthropicは「適切に答えられるなら民主主義に寄与し得る」というスタンスを取り、回答の質と中立性を技術的に担保する道を選んでいます。回答を避けることは安全ですが、情報アクセスの権利という観点からは別の問題を孕みます。どちらが正解かはまだ歴史が判定していません。

技術的に踏み込むと、Claudeの中立性は「キャラクター訓練」と呼ばれる、特定の価値観を反映する応答にモデルが報酬を得る仕組みと、Claude.ai上の全会話に注入されるシステムプロンプトの二段構えで実装されています。さらに評価手法とデータセットを公開している点は、第三者による再現と検証を可能にし、AIの透明性確保に向けた業界の規範形成に資するものといえるでしょう。

本発表でとくに重みを持つのが、Mythos PreviewとOpus 4.7を対象に、AIが自律的に影響工作を遂行できるかを初めて検証したという事実です。Mythos Previewは2026年4月7日に発表された、サイバーセキュリティ能力の高さから限定公開(Project Glasswing)に留め置かれたモデル。セーフガードを外した状態では、これら2つのモデルのみが半数超のタスクを完遂したという結果は、フロンティアモデルが「自律的な選挙介入エージェント」になり得る能力に到達しつつあることを示しています。人間の関与なしに、計画から実行まで一気通貫でキャンペーンを動かせるAIの登場は、選挙セキュリティの文脈で深刻な含意を持ちます。

潜在的なリスクとして、CETaS(チューリング研究所)などの専門機関が指摘するのが「データポイズニング攻撃」です。悪意ある行為者が、AIに取り込まれることを想定した誤情報を意図的にWeb上に公開し、チャットボットの回答そのものを汚染する手法です。Claudeのウェブ検索起動率の高さは「最新情報への接続」という利点である一方、検索結果の質に応答が左右される構造的脆弱性とも背中合わせです。

日本の読者にとっての意義もここに重なります。日本では2025年7月に参議院選挙が実施され、次の参議院選は2028年と先ですが、AIによる政治情報の媒介は国境を選びません。X(旧Twitter)上で日本語ディープフェイクが流通し、生成AIに日本の政治家について質問する有権者は確実に増えています。Anthropicがブラジルで展開する選挙バナーのモデルが、将来的に日本にどう適用されるかは、注視すべき論点です。

長期的に見れば、本件は「AIを民主主義インフラの一部としてどう設計するか」という議論の試金石となります。中立性スコアの公開、独立シンクタンクとの協働、利用規約の段階的な厳格化──Anthropicが示しているのは、AI企業が選挙という公共財に対して負うべき説明責任の一つの型です。完璧ではありません。中立性スコアが100%でない以上、誤った応答は確率的に発生します。それでも、評価指標を公開し、第三者の検証を歓迎する姿勢は、ブラックボックス化が進む業界の中で、信頼の基盤として機能し得るはずです。

【参考情報】

米国中間選挙(2026年)
4年に1度の大統領選の中間年に行われる連邦議会選挙のこと。下院全議席と上院の約3分の1、各州知事の一部などが改選される。投票日は2026年11月3日。

Claude(クロード)のコンスティチューション(constitution)
AnthropicがClaudeの挙動原則を文章化した内部文書。憲法のように、モデルが従うべき価値観と振る舞いを規定する。Anthropicが提唱する「Constitutional AI」と呼ばれる訓練手法の中核に位置する。

キャラクター訓練(character training)
モデルが特定の価値観や性格特性を反映した応答を生成した際に報酬を与え、望ましい振る舞いをモデル自体に内面化させる訓練手法。指示で振る舞いを縛るのではなく、性格として定着させる点に特徴がある。

システムプロンプト
ユーザーには見えない、AIへの指示文のこと。Claude.aiでは、政治的中立性に関する明示的な指示が、すべての会話の冒頭にこのかたちで注入されている。

影響工作(influence operations)
偽のペルソナ、捏造されたコンテンツ、欺瞞的な拡散などを通じて、世論や政治的結果を組織的に操作する試み。国家アクターによるものから、商業的なものまで規模はさまざまである。

Mythos Preview(マイトス・プレビュー)
Anthropicが2026年4月7日に発表したフロンティアモデルで、コードネームはCapybara。サイバーセキュリティ能力が突出して高いことから、一般公開せず限定的なパートナーのみに提供する「Project Glasswing」を通じてのみアクセス可能。

Project Glasswing(プロジェクト・グラスウィング)
Anthropicが立ち上げた、Mythos Previewを用いて世界の重要ソフトウェアの脆弱性を発見・修正するための業界連合。Microsoft、NVIDIA、Ciscoなど40以上の組織が参加し、合計1億ドル以上の利用クレジットが提供されている。

ディープフェイク(deepfake)
AIを用いて、実在する人物の顔や声を別の映像・音声に合成する技術、またはその生成物。2026年米国中間選挙では、政治家の発言を捏造した動画キャンペーンが既に確認されており、選挙整合性への深刻な脅威とされる。

データポイズニング攻撃(data poisoning attack)
AIモデルが学習や検索の対象とするWeb上のデータに、意図的に誤情報を流し込み、AIの応答そのものを汚染する攻撃手法。検索連動型AIが普及するほど、その脆弱性として深刻化している。

【参考リンク】

Anthropic 公式サイト(外部)
AI安全性研究を中核に据えた米国のAI企業。Claudeシリーズを開発・提供している。

Measuring political bias in Claude(外部)
政治的中立性の評価手法とオープンソース化したデータセットを解説した、本記事の前段にあたる投稿。

Claude(外部)
本記事で言及されているAnthropicのAIアシスタント。選挙関連の質問には選挙バナーが表示される。

political-neutrality-eval(Anthropic GitHub)(外部)
Anthropicが公開した政治的中立性評価のオープンソース実装。第三者の検証や再現が可能となっている。

Democracy Works 公式サイト(外部)
2010年設立の超党派・非営利団体。選挙担当者やプラットフォームと連携し有権者へ情報を届ける。

TurboVote 公式サイト(外部)
Democracy Worksが運営する有権者支援プラットフォーム。投票所案内やリマインダー機能を提供。

The Future of Free Speech(外部)
ヴァンダービルト大学に拠点を置く独立系シンクタンク。表現の自由を中核テーマに据える。

Foundation for American Innovation(外部)
シリコンバレーとワシントンD.C.を結ぶ中道右派系のテクノロジー政策シンクタンク。

The Collective Intelligence Project(外部)
集合的知性を活用したAIガバナンスを研究するR&Dラボ。Anthropicや台湾政府と連携。

Project Glasswing(Anthropic)(外部)
Mythos Previewを活用してサイバーセキュリティを強化する業界連合の発表記事。

【参考記事】

Anthropic Rolls Out Election Safeguards for Claude AI Ahead of US Midterms(Decrypt)(外部)
Opus 4.7とSonnet 4.6が中立性95〜96%、規約遵守99.8〜100%を記録したことを総括。

Anthropic highlights election safeguards on Claude ahead of US midterms(Seeking Alpha)(外部)
規約遵守99.8〜100%、ウェブ検索起動率92〜95%を投資家視点で報じた金融系メディア記事。

Measuring political bias in Claude(Anthropic 公式ブログ)(外部)
GPT-5(89%)、Llama 4(66%)、Gemini 2.5 Pro(97%)など横断的な中立性スコアを公開。

Why Anthropic won’t release its new Mythos AI model to the public(NBC News)(外部)
Mythos Previewの限定公開とProject Glasswing立ち上げ、1億ドル超の利用クレジットを詳報。

Claude Mythos: What Does Anthropic’s New Model Mean for the Future of Cybersecurity?(CETaS)(外部)
Mythos Previewの能力を独立分析。脆弱性99%以上が未パッチである点に注目。

From Deepfake Scams to Poisoned Chatbots: AI and Election Security in 2025(CETaS)(外部)
2026年世界各国の選挙に向けたAI影響工作とデータポイズニング攻撃の動向を整理。

Google still limits how Gemini answers political questions(TechCrunch)(外部)
Gemini が選挙質問への回答制限を継続。Claude、ChatGPTとの対応の違いを比較した記事。

【編集部後記】

選挙の前に、候補者や政策についてAIに質問したことはありますか。あるいは、これから試そうと考えていらっしゃるでしょうか。AIが中立的な情報源になり得るのか、それとも新たな情報の偏りを生むのか──その答えは、私たちユーザー自身がAIとどう対話し、得られた情報をどう検証するかによって、かたちづくられていく部分も大きいように感じます。Anthropicの取り組みは一つの実装例であり、完璧ではありません。みなさんがClaudeや他のAIと政治的トピックを話したとき、どんな印象を持たれたか、ぜひ聞かせていただけたら嬉しいです。