OpenAIのCTO、Mira Muratiは、Wall Street Journalの個人技術コラムニストJoanna Sternによるインタビューで、テキストからビデオへ変換するモデル「Sora」について語った。Soraは先月デモで公開され、数ヶ月以内に一般公開される可能性があるとMuratiは述べた。しかし、Soraの訓練に使用されたデータについての質問に対し、Muratiは「公開されているデータやライセンスされたデータを使用した」と答えたが、YouTube、Facebook、Instagramのビデオが使用されたかについては明確な回答を避けた。
OpenAIは2023年7月に発表された6年間のトレーニングデータ契約の一環としてShutterstockのコンテンツを使用していることを確認している。しかし、著作権に関連する訴訟、特にNew York Timesによって提起された訴訟に直面している中で、訓練データの詳細については言及を避けた。
OpenAIのCTO、Mira MuratiがWall Street Journalのインタビューで、テキストからビデオに変換する新モデル「Sora」について語りました。Soraは先月デモで公開され、数ヶ月以内に一般公開される見込みです。しかし、Soraの訓練に使用されたデータの詳細について質問された際、Muratiは「公開されているデータやライセンスされたデータを使用した」と回答しつつも、YouTube、Facebook、Instagramのビデオが使用されたかについては明確な回答を避けました。OpenAIはShutterstockのコンテンツを使用していることを確認していますが、著作権に関連する訴訟に直面しているため、訓練データの詳細については言及を避けたようです。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。