Gboardの言語モデル(LM)は、プライバシー保護を重視しており、フェデレーテッドラーニング(FL)と差分プライバシー(DP)を用いてトレーニングされています。これにより、モバイル端末上での共同学習が可能となり、個々のユーザーデータのユニークな情報がモデルに記憶されることを防ぎます。GboardのNWP(次の単語予測)ニューラルネットワークLMは、30以上のオンデバイスLMを含み、7以上の言語と15以上の国で展開されており、小さなδの(ɛ, δ)-DP保証を満たしています。
Gboardでは、透明性、ユーザーコントロール、データの最小化、匿名化、監査可能性と検証性の原則が採用されています。FLを通じて、モデル改善に寄与する特定のアップデートのみが集約され、DPはサーバーで適用されています。
GboardのNWP LMはDP保証を有し、将来のモデルローンチにもDP保証が必要です。DPはFLで有効化され、モデルの事前トレーニングやクライアントの参加制限などのプラクティスが適用されます。ポルトガル語とスペイン語のモデルは、強力なプライバシー保証を持ってトレーニングされ、多くの国で展開されています。
プライバシーとユーティリティのバランスを取るために、システムアルゴリズムの共同設計や大規模な人口と多数のデバイスからの貢献の集約が行われています。DPモデルは、最悪のケースのDP保証よりも実際にはよりプライベートである可能性があり、Trusted Execution Environment(TEE)は検証可能なプライバシーを持つ大規模なモデルサイズの増加の機会を提供しています。大規模言語モデル(LLM)の最近の進歩は、プライベートトレーニングとの相互作用を再考するきっかけとなっています。
ニュース解説
Googleの研究チームは、Gboardの言語モデル(LM)のトレーニングにおいて、プライバシーを保護するための進歩を発表しました。これらのモデルは、ユーザーのタイピング体験を向上させるために、次の単語予測やスマートな文章の提案などに使用されています。特に注目されるのは、フェデレーテッドラーニング(FL)と差分プライバシー(DP)を組み合わせたトレーニング手法です。これにより、ユーザーデータを端末上で直接学習させることが可能となり、データのプライバシーを保護しながらモデルの性能を向上させることができます。
この技術の進歩は、ユーザーのプライバシー保護とモデルの性能向上の両立を目指しています。フェデレーテッドラーニングでは、複数の端末が共同でモデルを学習させることができ、個々のユーザーデータは端末上に留まるため、データのプライバシーが保護されます。一方、差分プライバシーは、モデルが個々のユーザーデータから特定の情報を学習することを防ぎます。これにより、ユーザーデータの匿名化が図られ、データの安全性が高まります。
Gboardの言語モデルは、30以上の言語で15以上の国に展開されており、これらのモデルはすべてフェデレーテッドラーニングと差分プライバシーによってトレーニングされています。これは、ユーザーレベルの差分プライバシーを実現している最大規模の展開例であり、特にポルトガル語とスペイン語のモデルは、強力なプライバシー保証(ε ≤ 1)を持っています。
この技術の進歩は、プライバシー保護とモデルの性能向上のバランスを取る上で重要な意味を持ちます。大規模なユーザーベースと多数のデバイスからの貢献を集約することで、プライバシーを保護しつつも高い性能を実現することが可能になります。また、Trusted Execution Environment(TEE)の活用により、モデルサイズの増加とプライバシーの検証可能性が向上する可能性があります。
この技術の進化は、将来の言語モデルの開発において、プライバシー保護の重要性がさらに高まることを示しています。ユーザーのプライバシーを守りながら、より高度な機能を提供する言語モデルの開発が期待されます。また、この技術は、プライバシー保護の観点から、他のアプリケーションやサービスにも応用可能であり、プライバシー保護技術の新たな標準を築く可能性を秘めています。
from Advances in private training for production on-device language models.