from AI Trends 2024: Computer Vision with Naila Murray – #665.
2024年のAIトレンドに関するシリーズの一環として、メタのAI研究ディレクターであるナイラ・マレーとの対話を紹介します。このエピソードでは、コンピュータビジョンの最新トレンドと開発について深掘りします。制御可能な生成、視覚プログラミング、3Dガウススプラッティング、そして特にビジョンとLLMを組み合わせたマルチモーダルモデルの進歩に焦点を当てています。さまざまなツールやオープンソースプロジェクトについても議論し、例えば「Segment Anything」(テキストプロンプト、クリック、バウンディングボックスを使用した汎用的なゼロショット画像セグメンテーションツール)や、「ControlNet」(安定した拡散モデルに条件付き制御を追加するツール)、そしてデータが少ない状況でも物体認識、セグメンテーション、深度推定を可能にする視覚エンコーディングモデル「DINOv2」などが紹介されています。最後に、ナイラはこの分野で最もエキサイティングな機会と今後数年間の予測について自身の見解を共有しています。