OpenAIは、著作権で保護されたデータを使用せずに優れたAIモデルを構築することは「不可能」と主張していましたが、公共ドメインのテキストから成る巨大なAIデータセットと「倫理的に作成された」大規模言語モデルがこの主張に反論しています。
フランス政府の支援を受けた研究グループが、公共ドメインのテキストのみで構成されたとされる最大のAIトレーニングデータセットをリリースしました。また、非営利団体Fairly Trainedは、著作権侵害なしで構築された大規模言語モデルに対して初の認証を与えました。このモデルは、ChatGPTの背後にある技術と同様の方法で構築されています。
Fairly Trainedは、自社が所有、ライセンスを受けている、または公共ドメインにあるデータを使用してAIモデルをトレーニングしたことを証明する企業に認証を提供しています。この非営利団体は、シカゴに拠点を置く法律技術コンサルティングスタートアップの273 Venturesが開発したKL3Mという大規模言語モデルに初の認証を与えました。KL3Mは、法律、金融、規制文書のキュレーションされたトレーニングデータセットを使用しています。
一方、研究者たちは「Common Corpus」と呼ばれる公共ドメインのコンテンツのみで構成された言語モデル用の最大の利用可能なAIデータセットをリリースしました。このデータセットは、OpenAIのGPT-3テキスト生成モデルをトレーニングするために使用されたデータとほぼ同じサイズで、オープンソースAIプラットフォームHugging Faceに投稿されています。
これらの取り組みは、著作権で保護された素材の許可なしに使用することを正当化する主張に懐疑的なAI界の一部を示しています。Fairly Trainedは、AIボイスモデルを提供する企業や「AIバンド」にも認証を与えており、合法的かつ倫理的に作成された大規模言語モデルが登場することは時間の問題だったとしています。
【ニュース解説】
OpenAIは以前、著作権で保護されたデータを使用せずには、優れたAIモデルを構築することが「不可能」と主張していました。しかし、最近の発表はこの見解に挑戦しています。フランス政府の支援を受けた研究グループが公共ドメインのテキストのみを使用して構成された大規模なAIトレーニングデータセットをリリースし、非営利団体Fairly Trainedは、著作権侵害なしで構築された大規模言語モデルに対して初の認証を与えました。これは、AI技術の発展において、著作権で保護されたコンテンツの無断使用を避ける新たな道が開かれたことを示しています。
この動きは、AIモデルのトレーニングにおける著作権問題に対する重要な対応策となります。著作権で保護された素材を無断で使用することは、法的な問題だけでなく、創作物の作者や権利者に対する倫理的な配慮にも反します。公共ドメインのデータや、適切な許可を得たデータを使用することで、AI開発者はこれらの問題を回避し、より公正な方法で技術を進化させることができます。
また、特定の分野に特化したデータセットを使用することで、AIモデルはその分野においてより高いパフォーマンスを発揮する可能性があります。例えば、法律、金融、規制文書のみを使用してトレーニングされたKL3Mモデルは、これらの分野におけるタスクに特化しており、関連するクライアントにとって価値の高いツールとなり得ます。
しかし、公共ドメインのデータのみを使用することには限界もあります。多くの公共ドメインのデータは古く、現代の言葉遣いやトピックを反映していない可能性があります。これは、AIモデルが現代的なコンテンツを生成する際に障害となることがあります。そのため、AI開発者は、現代的なデータを適切に取り入れる方法を模索する必要があります。
このような取り組みは、AI技術の発展において著作権という重要な問題に対処するための一歩となります。著作権で保護されたコンテンツの無断使用を避けることは、AI技術が社会に受け入れられ、広く利用されるための重要な要素です。また、このような倫理的なアプローチは、AI技術の将来的な規制にも影響を与える可能性があります。AI開発の透明性と公正性を高めることで、より信頼性の高い技術の発展が期待できます。
from Here's Proof You Can Train an AI Model Without Slurping Copyrighted Content.