Microsoftは、顧客のAIアプリケーションにおける「幻覚」を検出する新しい安全システムを開発しました。このシステムは、Azure AI Studioツールを通じて、悪意のあるプロンプト攻撃やサポートされていない応答、いわゆる「幻覚」をリアルタイムでスクリーニングします。Microsoftの責任あるAIのチーフプロダクトオフィサー、Sarah Birdによると、このシステムはAzureの顧客がAIサービスを構築する際に、専門的な知識がなくても使用できるように設計されています。
この安全システムには、プロンプトシールド(Prompt Shields)、根拠検出(Groundedness Detection)、安全評価の3つの機能があり、それぞれがプロンプト注入や悪意のあるプロンプトのブロック、幻覚の検出とブロック、モデルの脆弱性評価を行います。これらは現在、Azure AIでプレビューとして利用可能です。さらに、モデルを安全な出力に導くための機能や、問題のあるユーザーを特定するためのプロンプト追跡機能も近日中に追加される予定です。
ユーザーがプロンプトを入力する際や、モデルがサードパーティのデータを処理する際に、この監視システムは禁止された単語のトリガーや隠されたプロンプトがないかを評価し、その後でモデルに応答を求めます。そして、モデルの応答をチェックして、文書やプロンプトにない情報を「幻覚」していないかを確認します。
Microsoftは、特にAzureを使用してAIモデルにアクセスする顧客が増える中、ソフトウェアの安全性とセキュリティを強化するためにAIに注力しています。また、強力なAIモデルの提供範囲を拡大するために、最近ではフランスのAI企業Mistralとの独占契約を結び、Mistral LargeモデルをAzureで提供することになりました。
【ニュース解説】
Microsoftが開発した新しい安全システムは、顧客が作成したAIアプリケーション内で発生する「幻覚」を検出することができます。このシステムは、Azure AI Studioツールを使用して、悪意のあるプロンプト攻撃やサポートされていない応答をリアルタイムで識別し、対処することが可能です。この技術は、AIの応答が不適切または意図しない結果を引き起こすことを防ぐために設計されています。
この安全システムには、プロンプトシールド、根拠検出、安全評価の3つの主要機能が含まれています。これらの機能は、AIモデルが不適切な指示に従うことを防ぎ、サポートされていない情報に基づく応答をブロックし、モデルの脆弱性を評価することができます。これにより、AIが生成するコンテンツの品質と安全性が向上します。
このシステムの導入により、AI技術の利用が拡大する中で生じる可能性のある問題、例えば、不適切なコンテンツの生成や偏見のある情報の拡散などを防ぐことができます。また、ユーザーが意図的にAIを悪用しようとする試みも防ぐことが可能になります。
しかし、このような安全システムの導入には、AIモデルが何を「不適切」と判断するかについての透明性や、表現の自由に対する潜在的な影響など、考慮すべき課題も存在します。Microsoftは、ユーザーがフィルタリングの設定を調整できるようにすることで、これらの懸念に対処しようとしています。
長期的には、このような安全システムの発展と普及が、AI技術の責任ある使用を促進し、AIによるイノベーションが社会にポジティブな影響をもたらすことを確実にするための重要なステップとなるでしょう。同時に、技術の進化に伴い、これらのシステムを継続的に更新し、新たな脅威や課題に対応する必要があります。
from Microsoft’s new safety system can catch hallucinations in its customers’ AI apps.