from AI agents help explain other AI systems.
MITの研究者たちは、人工知能(AI)を用いて複雑なニューラルネットワークを自動で説明する手法を開発しました。この手法では、自動解釈エージェント(AIA)と呼ばれるエージェントが、トレーニング済みネットワークの計算を直感的に説明し、仮説の形成や実験テスト、学習を通じて他のシステムの理解を深めます。また、新しいベンチマーク「FIND」が導入され、AIAsの能力を評価するために使用されています。
AIモデルの解釈の自動化は、AIシステムがブラックボックス化するにつれて重要になっています。FINDは、AIモデルの解釈の品質を評価する信頼性のある基準を提供し、AIAsは既存の手法を上回るものの、まだ完全には機能していないことが明らかになりました。この問題を解決するために、AIAsの探索を誘導する新たな手法が開発されています。
さらに、AIの解釈手法の外部評価が重要視される中、MITの研究者はAIAsと既存の手法の効果を評価する新しいプロトコルを開発しました。FINDを用いて、実世界のパフォーマンスに即した解釈手法の比較が可能になり、AIAsは高レベルの機能説明には成功していますが、ノイズや不規則な振る舞いを持つ関数の詳細を見落とすことがあります。AIAsの能力向上を目指し、ツールキットの開発が進行中であり、将来的にはシステムの監査や隠れたバイアスの診断などが自動化されることが期待されています。