AI(人工知能)ニュース

Googleが発表: MLデータセット向け「Croissant」メタデータ形式

Google Researchが機械学習用の新メタデータ形式「Croissant」を発表。この形式はMLデータセットの記述と整理を標準化し、データセットの発見性と使いやすさを向上させます。Croissantはschema.orgを基に構築され、オープンソースツールでサポートされています。データセットの作者やMLフレームワークは、Croissantを通じて効率的なデータ管理と開発を実現できます。【用語解説とAIによる専門的コメントつき】

Published

on

Google Researchは、機械学習(ML)用データセットのメタデータ形式である「Croissant」を発表しました。この新しい形式は、データセットの記述と整理の標準的な方法を提供し、MLに関連するメタデータ、データリソース、データの組織化、およびデフォルトのMLセマンティクスを包括的に拡張します。Croissantは、Web上で構造化データを公開するための事実上の標準であるschema.orgを基に構築されています。

Croissantの1.0リリースには、形式の完全な仕様、例示データセットのセット、Croissantメタデータを検証、消費、生成するためのオープンソースPythonライブラリ、およびCroissantデータセットの説明を直感的にロード、検査、作成するためのオープンソースのビジュアルエディタが含まれます。また、責任あるAI(RAI)のサポートもCroissant努力の主要な目標であり、RAIの重要なユースケースを説明するために必要なキープロパティを補完するCroissant RAI語彙拡張の最初のバージョンもリリースされました。

Kaggle、Hugging Face、OpenMLなどの広く使用されているMLデータセットのコレクションは、ホストするデータセットに対してCroissant形式のサポートを開始します。Google Dataset Searchツールを使用すると、ユーザーはWeb全体でCroissantデータセットを検索でき、TensorFlow、PyTorch、JAXなどの人気のあるMLフレームワークは、TensorFlow Datasets(TFDS)パッケージを使用してCroissantデータセットを簡単にロードできます。

Croissantは、データセットの発見性と使いやすさを向上させることで、データセットの作者にとっての価値を高めることができます。また、MLデータプラットフォームからのサポートと利用可能な作成ツールのおかげで、最小限の努力でこれを実現できます。Croissantエコシステムを通じて、ユーザーはCroissantデータセットを検索、ダウンロードし、お気に入りのMLフレームワークに簡単にロードできるようになります。また、Croissantエディタを使用してメタデータを検査および変更することも可能です。

Croissantの将来の方向性については、この形式を真に有用なものにするためにはコミュニティのサポートが必要であるとしています。データセットの作成者やデータセットをホスティングするプラットフォーム、MLデータセットの作業を支援するツールは、Croissantデータセットのサポートを検討するよう奨励されています。

【ニュース解説】

Google Researchが機械学習(ML)用データセットのメタデータ形式「Croissant」を発表しました。この新しい形式は、MLに特化したデータセットの記述と整理を標準化することを目的としています。Croissantは、Web上で構造化データを公開するための既存の標準であるschema.orgを基盤としており、MLに関連するメタデータ、データリソース、データの組織化、デフォルトのMLセマンティクスを包括的に拡張しています。

この取り組みの背景には、MLモデルの訓練に使用する既存のデータセットを再利用する際、データの理解、その組織化の把握、特徴として使用するサブセットの選定など、多くの時間が費やされているという現状があります。これは、データセットがテキスト、構造化データ、画像、オーディオ、ビデオなど、幅広いコンテンツタイプをカバーしており、さらに同じタイプのコンテンツをカバーするデータセットであっても、それぞれが独自のファイル配置やデータ形式を持っているためです。このような多様性は、データの発見からモデルの訓練に至るまでのML開発プロセス全体の生産性を低下させ、必要なツールの開発を妨げています。

Croissantの導入により、データセットの発見性が向上し、データのクリーニング、洗練、分析を容易にするツールの開発が促進されます。また、MLフレームワークが最小限のコードでデータを訓練やテストに使用できるようになるなど、データ開発の負担が大幅に軽減されることが期待されます。さらに、データセットの作者は、Croissantを採用することで、データセットの発見性と使いやすさが向上し、MLデータプラットフォームからのサポートと利用可能な作成ツールのおかげで、最小限の努力でこれを実現できます。

Croissantエコシステムを通じて、ユーザーはGoogle Dataset Search、HuggingFace、Kaggle、OpenMLなどの主要リポジトリからCroissantデータセットを検索、ダウンロードし、TensorFlow、PyTorch、JAXなどの人気のあるMLフレームワークに簡単にロードできるようになります。また、Croissantエディタを使用してメタデータを検査および変更することも可能です。

Croissantの将来的な方向性としては、この形式を真に有用なものにするためには、データセットの作成者、データセットをホスティングするプラットフォーム、MLデータセットの作業を支援するツールがCroissantデータセットのサポートを検討することが重要です。コミュニティ全体での協力により、データ開発の負担を軽減し、ML研究と開発の豊かなエコシステムを実現することが期待されています。

このように、CroissantはML分野におけるデータセットの取り扱いを効率化し、MLモデルの開発を加速するための重要なステップとなります。データセットの標準化により、MLプロジェクトの初期段階での時間と労力の節約が可能になり、より迅速なイノベーションが実現されるでしょう。

from Croissant: a metadata format for ML-ready datasets.

Trending

モバイルバージョンを終了