Depth from focus/defocusは、画像のぼやけを利用して物体とカメラの距離を推定する技術で、コンピュータビジョンの分野で重要な役割を果たしています。これまでの手法には、テクスチャのない表面での失敗や、同じカメラ設定の必要性といった制約がありました。
日本の研究者たちは、モデルベースの手法と学習フレームワークを組み合わせることで、これらの問題を克服する新しい手法を開発しました。この手法は、入力された焦点スタック、カメラ設定、レンズのデフォーカスモデルを基に「コストボリューム」を構築し、異なるカメラ設定での深度推定を可能にします。
提案された手法は、従来の手法と比較して優れた性能を示し、ロボット工学、自動車、3D画像再構築、仮想現実など、深度推定が求められる多様なアプリケーションでの利用が期待されています。この技術の進展は、コンピュータビジョンシステムの能力向上に大きく貢献する可能性があります。
ニュース解説
画像のぼやけを手がかりにして物体とカメラの距離を推定する技術、いわゆる「焦点に基づく深度推定」は、コンピュータビジョンの分野で重要な役割を果たしています。これまでの手法では、テクスチャがない表面の存在や、学習とテスト時のカメラ設定の一致が必要という制約がありました。しかし、日本の研究チームが、これらの問題を解決するための革新的な手法を開発しました。この手法は、モデルベースの深度推定と学習フレームワークを組み合わせることで、これまでの課題を克服しています。
この新しい手法は、入力された焦点スタック(異なる焦点距離で撮影された一連の画像)、カメラ設定、レンズのデフォーカスモデルを基に「コストボリューム」を構築します。コストボリュームは、各ピクセルに対する潜在的な深度値と、焦点スタック内の画像間の一貫性に基づいて計算されたコスト値のセットを表します。この中間表現を用いることで、学習とテスト時のカメラ設定が異なる場合でも、深度推定が可能になります。
提案された手法は、エンコーダ・デコーダネットワークを使用して、粗から細へと段階的にシーンの深度を推定します。このプロセスでは、各段階で「コスト集約」を用いて、画像内の局所的な構造を適応的に学習します。この手法は、従来の焦点に基づく深度推定手法と比較して、複数の画像データセットにおいて優れた性能を示しました。また、研究チームのカメラで撮影された焦点スタックに対する追加実験も、この手法の有効性を示しています。
この技術の進展は、ロボット工学、自動運転車、3D画像再構築、仮想現実(VR)、拡張現実(AR)、監視など、深度推定が求められる多様なアプリケーションでの利用が期待されています。特に、異なるカメラ設定での深度推定が可能になることで、学習ベースの深度推定技術の適用範囲が拡大し、コンピュータビジョンシステムの能力向上に寄与することが期待されます。この技術の発展は、より高度なコンピュータビジョンシステムの実現に向けた重要な一歩と言えるでしょう。
from Innovations in depth from focus/defocus pave the way to more capable computer vision systems.