from From LaMDA to Red Pajama: How AI’s Future Just Got More Exciting!.
AIの未来がさらにエキサイティングになった理由:LaMDAからレッドパジャマプロジェクトまで
人工知能(AI)の世界では、トリリオン単語の語彙を持つモデルが支配を競い合っていますが、オープンソースの透明性を重視する「レッドパジャマ」プロジェクトが注目を集めています。Together AIによって開始されたこのプロジェクトは、AI進歩の基盤であるトレーニングデータを民主化することを目指しています。レッドパジャマは、より包括的で協力的なAI開発の未来を切り開いています。
レッドパジャマプロジェクトは、Googleの強力な言語モデルであるLaMDAに使用されたトレーニングデータセットを複製することから始まりました。このデータセットはLLaMAと呼ばれ、1.2兆のトークンを誇り、LaMDAの言語スキルを形作っています。Together AIのチームは、公開されたウェブアーカイブとテキストデータを精査し、重複を排除してデータをクリーンアップするために高度なアルゴリズムを使用しました。その結果、誰でも自由に使用して構築できるRedPajama-Data-1Tが生まれました。
しかし、Together AIチームはそこで満足せず、さらに大規模なデータセットRedPajama-Data-v2を作成しました。これは30兆のトークンを含む巨大なデータセットで、より多様なウェブデータから収集されています。このデータの指数関数的な成長は、研究者がより流暢で表現力豊かなモデルを訓練し、多様なタスクを処理し、人間の言語のニュアンスをナビゲートするのに役立ちます。
レッドパジャマはデータの提供だけでなく、AIアーキテクトのコミュニティを構築しています。オープンソースのコードリポジトリや活発なオンラインフォーラムを通じて、コラボレーションと知識共有を促進しています。この共同体精神は、AI進歩を加速するために不可欠です。
レッドパジャマプロジェクトは、トレーニングデータへのアクセスを全ての人に提供することで、AIの未来を形作る多様な声を力づけます。このオープンソースのアプローチは、革新、透明性、および説明責任を保証し、AIを社会のニーズに合わせます。オープンソースのデータを推進し、協力を促進するプロジェクトは、包括的なAIエコシステムへの道を開きます。