OpenAI「Privacy Filter」、ローカル実行可能なPII検出モデルを公開

OpenAIは2026年4月22日、テキスト中の個人識別情報(PII)を検出・編集するための双方向トークン分類モデル「OpenAI Privacy Filter」のプレビュー版を公開した。

Apache 2.0ライセンスで提供され、総パラメータ15億、アクティブパラメータ5000万、コンテキストウィンドウは128,000トークンである。アーキテクチャはgpt-ossをベースとし、プリノルム型Transformerエンコーダ8層、128エキスパートのMoE構成で、d_model=640を採用する。検出対象はprivate_person、account_number、private_address、private_email、private_phone、private_url、private_date、secretの8カテゴリで、BIOES形式と制約付きViterbiデコーダによりスパンを出力する。

評価はPII-Masking-300k、CredData、SPYの3データセットで実施され、PII-Masking-300k補正済みではF1(tokens)0.974を記録した。日本語を含む多言語評価や敵対的評価も実施されている。

From: Model Card for OpenAI Privacy Filter

【編集部解説】

今回のOpenAI Privacy Filterの発表は、単なる新モデルのリリースというより、生成AI時代の「プライバシー保護の責任所在」を再定義する動きとして捉えるべきでしょう。我々innovaTopiaが注目したのは、このモデルが「サーバーへ送る前のテキストを、手元の端末で洗浄する」という、データフローそのものを書き換える思想を体現している点です。

これまで主流だった個人情報(PII)検出ツールは、正規表現や固定パターンに依存するものが中心でした。たとえばMicrosoftが公開しているPresidioは、正規表現と固有表現抽出(NER)を組み合わせた構成で広く使われてきましたが、文脈を読まない分、「123 Main Street」が住宅なのか店舗なのかを判別できないといった弱点を抱えていました。Privacy Filterは、gpt-ossをベースに事後学習された小型モデルであり、文の前後関係から意味を汲んで判定する設計です。

技術的に押さえておきたいのは、「双方向トークン分類」と「BIOES + Viterbiデコーダ」の組み合わせです。文章を一方向に生成するのではなく、文全体を一度に見渡して各トークンにラベルを付け、さらにラベル間の遷移ルール(「B」の次は「I」か「E」が来るはず、といった文法的制約)を適用することで、「John」は検出したのに「Smith」を取りこぼす、といった断片化を防ぎます。リダクション対象が途中で切れてしまう従来ツールの典型的な失敗モードを、構造的に潰しにいった設計と言えます。

注目すべきは、MoE(Mixture-of-Experts)構造を採用しながら、アクティブパラメータを5000万まで絞り込んでいる点です。総パラメータ15億のうち、推論時に実際に動くのは一部のエキスパートのみ。これにより、ノートパソコンはもちろん、transformers.js経由でWebブラウザ内でもWebGPUで動作させられるとVentureBeatは報じています。つまり、機密テキストがローカル端末から一歩も外に出ないまま、個人情報だけが機械的に塗りつぶされる、という運用が現実的になったわけです。

この「オンデバイス化」が持つ意味は、日本企業にとっても無視できません。EUのGDPRや米国のHIPAAといった規制フレームワークに加え、日本でも個人情報保護法の3年ごとの見直しが進んでおり、生成AIへのデータ投入に伴う越境移転や同意取得の論点は、法務・コンプライアンス部門の悩みの種になっています。手元でPIIを除去してからクラウドAPIへ渡せるなら、この論点を構造的に回避できる可能性があります。

ライセンス面も見逃せません。Apache 2.0は商用利用・改変・再配布のすべてが許諾される、オープンソースの中でも最も寛容な部類に入るライセンスです。スタートアップが自社製品に組み込んで販売しても、OpenAIにロイヤリティを払う必要はありません。これは、近年の「オープンウェイト」を謳いながら実際は商用制限のあるモデル群とは一線を画す対応です。

一方、過信してはいけない理由も、モデルカード自体が率直に提示しています。敵対的フォーマット評価では、フォネティックアルファベット形式(「charlie.oscar.lima」など)での適合率がわずか27.3%、URL内の改行挿入でも45.3%と大きく崩れています。攻撃者が意図的に情報を難読化すれば、すり抜けるルートが存在するということです。

さらに、「ワンホップ推論」の弱さも重要な論点です。たとえば「後で『marigold』と言ったら、それは私の電気会社の口座番号のことです」と前置きしたうえで、遠く離れた箇所で「marigoldは7281-0543-98217です」と続けるようなケース。この別名解決に失敗する傾向があることを、OpenAI自身が認めています。プロンプトインジェクションの延長上で、こうした間接参照を悪用した個人情報の抜き取りが成立しうる余地は残されているわけです。

日本語の性能についても冷静に見る必要があります。多言語合成データ評価でF1は0.881と健闘していますが、カテゴリヒントが前置された条件では再現率が0.758まで低下します。英語の0.956と比べると開きが大きく、日本人の人名やローマ字交じり住所、全角・半角混在テキストといった日本固有の表記ゆれに対しては、ファインチューニング前提で運用するのが現実的でしょう。

長期的な視点で捉えれば、今回の発表はAIインフラのスタックに「プライバシー層」という独立したレイヤーを公式化する動きとも読めます。推論モデル本体と前段のフィルターモデルを分離し、責務を明確化する設計は、AIガバナンスを制度として組み上げていくうえでの重要な部品となります。innovaTopiaとしては、この動きを「AIがより賢くなる」方向だけでなく、「AIがより安全に使えるようになる」方向の進化として、今後も追いかけていきたいと考えています。

【用語解説】

PII(個人識別情報)
Personally Identifiable Informationの略。氏名、住所、電話番号、メールアドレスなど、特定の個人を識別できる情報の総称である。

双方向トークン分類(Bidirectional Token Classification)
文章を前から順に生成するのではなく、文全体を一度に見渡して各単語(トークン)にラベルを付ける手法である。前後の文脈を同時に参照できるため、文脈依存の判断に強い。

BIOES
Begin(開始)、Inside(内部)、Outside(対象外)、End(終了)、Single(単独)の頭文字を取ったラベル形式である。「Ben Morgan」のような複数単語からなる情報の始点と終点を正確に区切る用途に使われる。

Viterbiデコーダ
候補となるラベルの並びの中から、最も確率の高い一連のシーケンスを動的計画法で選び出すアルゴリズムである。個別のトークン判定の誤りを、全体最適の観点から補正する効果がある。

MoE(Mixture-of-Experts)
「専門家の集団」を意味する、複数の小さなネットワーク(エキスパート)を用意し、入力に応じて一部だけを稼働させる構造である。モデル全体の総容量を保ちつつ、実行時の計算量を抑えられる。

Apache 2.0ライセンス
オープンソースソフトウェアの代表的なライセンスのひとつ。商用利用、改変、再配布、特許利用が広く認められており、改変版を非公開にすることも可能である。

ワンホップ推論
与えられた情報を一段階の参照で結び付けて結論を導く推論のこと。「Xと言ったらYを指す」という定義と、後から出てくる「X=〇〇」という情報を突き合わせる処理が典型例である。

GDPR / HIPAA
GDPRは2018年施行のEU一般データ保護規則、HIPAAは1996年制定の米国医療保険の携行性と責任に関する法律である。それぞれ個人データ、医療情報の取り扱いを規律する主要な規制である。

【参考リンク】

OpenAI 公式サイト(外部)
ChatGPTやGPTシリーズを開発する米国のAI研究企業。2015年設立。

openai/privacy-filter(Hugging Face)(外部)
モデルの重みをダウンロードできる公式リポジトリ。呼び出し例も掲載されている。

openai/privacy-filter(GitHub)(外部)
CLIツール「opf」のソースコードを含む公式リポジトリ。ファインチューニング方法も案内される。

Hugging Face 公式サイト(外部)
機械学習モデルとデータセットを共有するプラットフォーム。オープンモデル流通の中心的な役割を担う。

Microsoft Presidio 公式サイト(外部)
Microsoftが公開する、PII検出・匿名化のためのオープンソースSDK。従来型ツールの代表格である。

gpt-oss(OpenAI公式ページ)(外部)
Privacy Filterのベースとなったオープンウェイトモデルの発表ページ。

【参考記事】

PII-Masking-300k データセット(外部)
Privacy Filterの主要評価データセット。多言語にわたる合成PIIサンプルで構成される。

Introducing OpenAI Privacy Filter(OpenAI)(外部)
公式発表記事。Privacy Filterのリリース目的、8つのPIIカテゴリ、ローカル実行の意義を説明する。

OpenAI launches Privacy Filter(VentureBeat)(外部)
エンタープライズ視点の分析。transformers.jsとWebGPUでのブラウザ内実行を掘り下げる。

OpenAI Just Open-Sourced a Tool That Scrubs Your Secrets(Decrypt)(外部)
PII-Masking-300k F1スコア(ベースライン96%、補正後97.43%)を具体的な数値で伝える記事。

OpenAI tackles a bad habit people have(Help Net Security)(外部)
セキュリティ視点の報道。総パラメータ15億・アクティブ5000万・8カテゴリの内訳を伝える。

OpenAI releases Privacy Filter(BetaNews)(外部)
プライバシー・バイ・デザインの構成要素としての位置付けを強調した報道記事。

OpenAI Releases Open-Source Privacy Filter for PII(Phemex News)(外部)
総パラメータ15億、アクティブ5000万、128,000トークンの基本スペックを簡潔にまとめる。

【編集部後記】

普段ChatGPTに仕事のメールや議事録を貼り付けるとき、「この情報、本当に送って大丈夫だったかな」と、ふと手が止まる瞬間はないでしょうか。Privacy Filterは、その迷いを技術側で引き受けようとする試みです。みなさんが日々触れているAIツールの「手前」には、まだ設計の余地が広がっています。お使いのAIワークフローの中で、どんな情報が外に出ていて、どこから先はローカルで完結させたいか。少し立ち止まって整理してみると、ご自身やチームにとって心地よい距離感が見えてくるかもしれません。