Google GeminiがPayBoxサポート番号として無関係な個人の番号を案内——生成AI×PII漏洩の構造的リスク

MIT Technology Reviewが2026年5月13日、AIチャットボットが実在する個人の電話番号を漏洩している事例を報じた。

3月にはイスラエルの28歳のソフトウェアエンジニア、ダニエル・アブラハム氏が、Geminiが決済アプリPayBoxのカスタマーサービス連絡先として彼の個人番号を案内したことで、見知らぬ人からWhatsAppで連絡を受けた。4月にはワシントン大学の博士課程の学生メイラ・ギルバート氏が、Geminiで友人ヤエル・アイガー氏の個人電話番号を引き出した。個人情報削除サービスのDeleteMeによると、生成AI関連の顧客問い合わせは過去7ヶ月で400%増加している。カリフォルニア州では登録データブローカー578社のうち31社が、過去1年間に生成AI開発者にデータを販売または共有したと自己申告している。

From: AI chatbots are giving out people’s real phone numbers

【編集部解説】

なぜ今、私たちがこのニュースに注目するのか。それは、生成AIの「便利さ」が、私たち一人ひとりの「日常の安全」と地続きであることを、極めて具体的に突きつけているからです。

今回報じられた事案の核心は、AIチャットボットが単に「間違える」のではなく、実在する人物の電話番号や住所といった、検索エンジンでは奥深くに埋もれていた個人情報を、フロントに引きずり出してしまうという点にあります。スタンフォード大学のジェニファー・キング氏が指摘するように、技術的にはGoogle検索で10ページ目に埋もれていた情報を、生成AIは「ワンクエリで」表面化させてしまうのです。

技術的な背景を整理しておきます。LLM(大規模言語モデル)は、ウェブから収集された膨大なテキストを学習しますが、その過程で特定のデータ列を逐語的に「記憶」する現象が知られています。これはAI研究の世界で「memorization(記憶化)」と呼ばれる現象で、2025年から2026年にかけてもarXivで活発に研究が続けられている領域です。注目すべきは、近年の研究では「訓練データに頻繁に出現する情報だけが記憶されるわけではない」ことが示唆されている点で、アブラハム氏のケースのように「2015年にたった一度だけ投稿された電話番号」が10年以上の時を経て再現されうるという、極めて厄介な性質が浮かび上がってきます。

このニュースが投げかける問いは、3つのレイヤーに分けて考える必要があります。

第一は「ハルシネーション(もっともらしい誤情報)」のレイヤーです。PayBoxのカスタマーサービスとしてアブラハム氏の番号が案内されたケースは、AIが「PayBox」「カスタマーサービス」「WhatsApp」「イスラエルの電話番号」という要素を、もっともらしく組み合わせてしまった結果と見られます。被害者は無関係の第三者であり、加害者も明確に存在しないという、従来の情報漏洩とは異なる構造を持っています。

第二は「ガードレールの脆さ」のレイヤーです。記事中、ChatGPTが最初は情報提供を拒否したにもかかわらず、同じ応答の中で「より調査スタイルのアプローチを試せる」と自ら抜け道を提案した事例は示唆的です。AIは「役に立つこと」を強く動機づけられて設計されているため、「断る」と「答える」のバランスが構造的に揺らぎやすいのです。Gizmodoの追加検証によれば、Claudeは比較的厳格にプライバシー上の懸念を理由に拒否し、Perplexityはメールアドレスを伏字化するなど、各社の挙動には差があることも明らかになっています。

第三は「法制度の追いつかなさ」のレイヤーです。カリフォルニア州消費者プライバシー法やヨーロッパのGDPRといった既存の法律は、企業に直接提供したデータの削除権を定めていますが、「すでにウェブからスクレイピングされた公開情報」は対象外と解釈されるのが一般的です。「一度公開されたものは、たとえ匿名化されていても、AIによって個人と紐づけられて再構成されうる」という現実に、法はまだ十分に応答できていません。

ポジティブな視点から見れば、この問題が可視化されたこと自体は前進です。DeleteMeのような個人情報削除サービスへの問い合わせが7ヶ月で400%増加し、カリフォルニア州が今年からデータブローカー一括削除ポータルを提供開始したのは、市民・行政の双方が動き出している証左と言えます。アイガー氏らワシントン大学のチームが、AIチャットボットが何を「知っているのに語っていないか」を研究プロジェクトとして立ち上げたことも、健全な動きです。

一方、潜在的なリスクは深刻です。記事中でアブラハム氏が漏らした「もし私が金銭を要求していたら」という仮定は、生成AIが意図せずソーシャルエンジニアリング詐欺の入口を提供しうることを示しています。ストーカー行為、嫌がらせ、なりすまし——「人を標的にする参入障壁」が下がれば、被害は確実に拡大します。

長期的には、AI訓練データの「クリーンルーム化」が産業全体の課題となるはずです。Hugging Faceが提供する訓練データ内のPII出現検索ツールは有用ですが、ClaudeやChatGPT、Geminiといったクローズドモデルの中身は依然としてブラックボックスです。透明性を担保する技術的枠組み(例:訓練データ来歴の証明、差分プライバシーの導入、削除権の機械学習版である「machine unlearning」)が、今後の技術競争の焦点になる可能性があります。

日本の読者にとっての意義は明確です。日本では同種の事案がまだ大きく報じられた例は少ないものの、構造的には同じリスクが存在します。SNS、過去のブログ、企業の登壇者紹介ページ——10年前に何気なく公開した連絡先が、生成AIによっていつ「再発見」されてもおかしくない時代に入りました。「自分の情報を、自分でアップストリーム(上流)から整理する」という姿勢が、これからのデジタルリテラシーの中核になっていきます。

innovaTopiaは「Tech for Human Evolution」を理念に掲げます。生成AIが人類の知的進化を加速させる道具であることは間違いありませんが、その進化の代償として、誰かの「日常」が侵食されてはなりません。技術と人間の関係を、絶えず問い直していく必要があります。

【用語解説】

PII(個人を特定できる情報 / Personally Identifiable Information)
氏名、電話番号、住所、メールアドレス、社会保障番号など、単独または組み合わせることで特定の個人を識別できる情報の総称である。プライバシー保護法制の対象となる中核概念だ。

LLM(大規模言語モデル / Large Language Model)
ウェブ上から収集された膨大なテキストデータで訓練された、自然言語処理を行うAIモデルだ。ChatGPT、Gemini、Claudeなど現在主流の生成AIチャットボットの基盤技術である。

スクレイピング
ウェブサイト上のデータをプログラムで自動的に収集する技術だ。AI企業はLLMの訓練データを集める手段として大規模なウェブスクレイピングを行っている。

ガードレール
AIモデルが不適切な応答(個人情報の開示、有害コンテンツ生成など)を出力しないよう設計段階で組み込まれる制約・安全策の総称である。コンテンツフィルターやプロンプト指示など複数の手法が用いられる。

ハルシネーション
生成AIが事実ではない情報を、もっともらしい形で出力してしまう現象を指す。本事案では、実在しないPayBoxのWhatsAppサポート番号として、無関係な個人の番号を案内した事例がこれに該当する。

memorization(記憶化)
LLMが訓練データの一部を逐語的に記憶し、特定の入力に対してそのまま再現してしまう現象である。プライバシーリスクの主要な原因として研究領域で活発に議論されている。

データブローカー
個人データを収集・集約し、第三者に販売することを業とする企業である。米国ではカリフォルニア州などで登録制が導入されている。

GDPR(EU一般データ保護規則 / General Data Protection Regulation)
2018年に施行された欧州連合のデータ保護法だ。個人データの処理に対する厳格なルールと、データ主体の権利(削除権、訂正権など)を定めている。

カリフォルニア州消費者プライバシー法(CCPA)
2020年施行のカリフォルニア州法であり、米国における消費者プライバシー保護の代表的な州法だ。州民に自己情報の開示請求権・削除権などを認めている。

machine unlearning(機械学習における忘却)
訓練済みのAIモデルから、特定のデータの影響を事後的に除去する技術領域である。再訓練のコストを抑えつつ、削除権を技術的に実現する手段として注目されている。

【参考リンク】

MIT Technology Review(外部)
マサチューセッツ工科大学が発行する、技術と社会の関係を深く分析する世界有数の技術専門メディア。

Google Gemini(外部)
Googleが開発・提供するマルチモーダル生成AIアシスタント「Gemini」の公式サイト。

OpenAI ChatGPT(外部)
OpenAIが提供する対話型生成AIサービス「ChatGPT」の公式サイト。

Anthropic Claude(外部)
AnthropicによるAIアシスタント「Claude」の公式サービスサイト。安全性を重視した設計思想で知られる。

xAI Grok(外部)
xAIが開発するチャットボット「Grok」の公式サイト。

DeleteMe(外部)
データブローカーや検索エンジンから個人情報を削除する代行サービスを提供する米国企業。

Hugging Face(外部)
オープンソースのAIモデルとデータセットを共有・ホストする世界最大級のプラットフォーム。

WhatsApp(外部)
Meta社が提供する、世界で最も広く使われているメッセージングアプリの公式サイト。

スタンフォード大学人間中心人工知能研究所(HAI)(外部)
スタンフォード大学が設立したAIの社会的影響を研究する学際的機関。ジェニファー・キング氏が在籍。

カリフォルニア州データブローカー登録簿(外部)
カリフォルニア州プライバシー保護局が運営する、州内で営業するデータブローカーの公的登録簿。

【参考記事】

ChatGPT Gave Out My Address and Phone Number(Gizmodo)(外部)
記者が複数チャットボットを検証。ChatGPTが旧電話番号を返した一方、Claudeは拒否、Perplexityは伏字化した。

AI Chatbots Can Leak Your Personal Contact Including Phone Numbers, Sensitive Data(TechTimes)(外部)
AIプラットフォーム横断で比較検証。ChatGPTは古い政府文書由来の連絡先を返し、Grokは番号開示を拒否した。

The Landscape of Memorization in LLMs(arXiv)(外部)
2025年7月公開の総説論文。LLMの記憶化メカニズム、測定方法、緩和策を包括的に整理している。

A major AI training data set contains millions of examples of personal data(MIT Technology Review)(外部)
DataComp CommonPoolに履歴書や運転免許証、クレジットカード情報が大量混入していた問題を報じた関連記事。

【編集部後記】

今回の事案、みなさんはどう受け止めましたか。10年以上前に何気なく投稿した連絡先が、生成AIによって思わぬ形で「再発見」されてしまう——これは決して海の向こうだけの話ではないように感じます。一度ご自身の名前や電話番号で、ChatGPTやGeminiに問いかけてみると、思いがけない発見があるかもしれません。便利さと引き換えに何を差し出しているのか、編集部としても一緒に考えていきたいテーマです。みなさんの体験や気づきも、ぜひお聞かせください。