ペンシルベニア大学とアレン人工知能研究所の研究者らが、CoSyn(Code-Guided Synthesis)と呼ばれるオープンソースツールを発表した。
CoSynは既存の言語モデルのコーディング能力を活用し、科学チャート、医学図表、金融文書などの複雑な視覚情報を理解するための合成トレーニングデータを生成する。
研究チームはCoSyn-400Kと呼ばれるデータセットを構築し、40万枚の合成画像と270万組の指示ペアを作成した。このデータセットで訓練された70億パラメータモデルは、テキストリッチ画像理解を測定する7つのベンチマークテストで平均80.9%のスコアを記録し、GPT-4VやGemini 1.5 Flashなどのプロプライエタリモデルを上回った。
特に注目すべきは、研究者らが新たに作成したNutritionQAベンチマークにおいて、わずか7,000枚の合成栄養ラベルで訓練されたモデルが、数百万枚の実画像で訓練された他のモデルを上回る性能を示したことである。
CoSynは完全なコードベース、データセット、訓練スクリプトをすべて公開しており、11種類のレンダリングツールと20の生成パイプラインを使用して9つのカテゴリー(チャート、文書、数学問題、表、図表、ベクターグラフィックス、楽譜、電気回路、化学構造)のコンテンツを生成する。
From: CoSyn: The open-source tool that’s making GPT-4V-level vision AI accessible to everyone
【編集部解説】
今回ご紹介するCoSynは、オープンソースAI界にオープンソースAI界に大きな変化をもたらす可能性を秘めた革新的な技術です。これまでGoogleやOpenAIといった巨大テック企業が独占していた高性能ビジョンAIの領域に、オープンソースが真っ向から挑戦する画期的な成果と言えるでしょう。
最も注目すべきは「合成データ生成」という発想の転換です。従来のAI訓練では、インターネットから大量の画像を収集し、人手で注釈を付ける必要がありました。しかしCoSynは、AIがコードを書く能力を活用し、PythonやLaTeXなどのプログラムから高品質な合成画像を大量生成します。これは、データ収集コストを劇的に削減するだけでなく、著作権問題も回避する画期的なアプローチです。
技術的なインパクトを見ると、わずか70億パラメータのモデルが、科学チャート、医学図表、金融文書などのテキストリッチ画像理解において80.9%という驚異的なベンチマークスコアを達成し、OpenAIのGPT-4VやGoogleのGemini 1.5 Flashを上回った事実は業界に大きな衝撃を与えています。特に注目したいのは、合成データで訓練された「ゼロショット」モデルでさえ、実データで訓練された多くのモデルを上回る性能を示したことです。これは、合成データの学習効果が想像以上に高いことを実証しています。
実用性の観点では、既にMeta、Amazonなどの大手企業が早期実験を開始しており、ケーブル設置の品質管理から栄養ラベルの自動読み取りまで、幅広い産業での活用が始まっています。特に、スクリーンショット上のクリック位置を予測する「ポインティングデータ」の生成技術は、RPA(Robotic Process Automation)や自律型AIエージェントの実現に向けて極めて重要な基盤技術となるでしょう。
ポジティブな側面として、完全オープンソースでの公開により、世界中の研究者や開発者が平等にアクセスできる点は特筆すべきです。これまで巨額の投資を必要としていた高性能ビジョンAI開発が民主化され、スタートアップや中小企業でも最先端技術にアクセス可能になります。
一方で、潜在的なリスクも存在します。研究者らも指摘するように、合成データは元となるモデルのバイアスを継承する可能性があり、多様性の確保も課題となっています。また、合成データの品質向上により、フェイク画像の生成精度も向上する可能性があり、悪用への対策が重要になります。
長期的な視点では、この技術は単なるベンチマーク向上を超えて、AI業界の構造的変化を促す可能性があります。プロプライエタリモデルの優位性が崩れることで、技術イノベーションの競争軸がデータ収集力から創造的なアルゴリズム設計へと移行するかもしれません。特に、障害者支援技術への応用など、社会的インパクトの大きな分野での進展が期待されます。
規制面では、合成データの活用により著作権問題を回避できる可能性がある一方で、生成されるデータの品質管理や透明性確保に関する新たなガイドラインが必要になるでしょう。AI開発における「データの民主化」が進む中で、技術の健全な発展を促すバランスの取れた規制フレームワークの構築が急務となります。
この技術は、「Tech for Human Evolution」というinnovaTopiaのコンセプトを体現する好例です。オープンソースによる技術の民主化を通じて、より多くの人々が先進AIの恩恵を受けられる未来への道筋を示しているのです。
【用語解説】
GPT-4V(GPT-4 Vision)
OpenAIが開発した、テキストに加えて画像も処理できる大規模言語モデル。GPT-4の視覚機能拡張版で、画像を入力として受け取り、その内容について理解・説明・質問応答が可能。
Gemini 1.5 Flash
Googleが開発した軽量・高速なマルチモーダルAIモデル。100万トークン(約1500ページ分)の大容量コンテキストウィンドウを持ち、テキスト、画像、音声、動画を同時処理可能。
テキストリッチ画像理解
科学チャート、医学図表、金融文書、技術仕様書など、大量のテキスト情報を含む画像を正確に理解し、その内容について質問応答や分析を行うAI能力。
合成データ(Synthetic Data)
実世界のデータではなく、AIやプログラムによって人工的に生成されたデータ。
ペルソナ駆動メカニズム
AIによるデータ生成の多様性を確保するため、「SF小説家」「化学教師」などの短い人物設定を与えて生成内容のスタイルや視点を変化させる手法。
ゼロショット学習
特定のタスクの訓練例を全く見ることなく、そのタスクを実行できるAIの能力。
ポインティングデータ
スクリーンショット上の特定の場所(ボタン、リンク、入力欄など)をクリックすべき座標位置を示すデータ。AIエージェントがWebブラウザやアプリケーションを自動操作するために必要な基本的な学習データ。
【参考リンク】
CoSyn公式サイト(外部)
ペンシルベニア大学とアレン人工知能研究所の研究者らが開発したCoSynの公式プロジェクトページ。論文、データセット、コード、ベンチマーク結果など研究成果の全てが公開されている。
ペンシルベニア大学(外部)
1740年設立のアイビーリーグ校の一つ。コンピュータサイエンス分野で世界的に著名で、Chris Callison-Burch教授らがAI研究を牽引。工学部では先端AI技術の研究開発が活発に行われている。
アレン人工知能研究所(AI2)(外部)
マイクロソフト共同創設者ポール・アレンが2014年に設立したAI研究機関。シアトルに拠点を置き「共通善のためのAI研究」を理念とする。CoSyn開発を行ったPRIORチームなど複数の研究グループが活動。
OpenAI(外部)
GPT-4VやChatGPTを開発したAI企業。2015年設立で、大規模言語モデルの開発において業界をリード。CoSynがベンチマークで上回った比較対象の一つ。
Google AI(外部)
Gemini 1.5 Flashを開発したGoogleのAI部門。検索、翻訳、画像認識等の分野で先端技術を提供し、CoSynの性能比較対象となった競合企業の一つである。
Hugging Face – CoSyn-400Kデータセット(外部)
CoSynで生成された40万枚の合成画像データセットが公開されているページ。研究者や開発者が自由にダウンロードして利用可能で、データセットの詳細仕様も確認できる。
【参考記事】
AI vision, reinvented: Vision-language models gain clearer sight through synthetic training data(外部)
CoSyn-400Kの規模化と多様化手法を解説。DataDreamerとペルソナ駆動メカニズムによる合成データ生成の詳細が含まれる。
Synthetic Data Helps Open-Source AI See Like a Pro(外部)
CoSynの仕組み、DataDreamerライブラリ、合成データによるゼロショット学習の成果と倫理的優位性を技術的観点から詳述。
Researchers Introduce New Way for AI to “See” – AI Insider(外部)
CoSynによるベンチマーク突破とオープンソース化の意義、業界への波及効果をまとめている。
【編集部後記】
今回のCoSynの発表は、オープンソースAIの新たな可能性を示す出来事でした。これまで巨大テック企業が独占していた高性能ビジョンAIが、オープンソースで誰でも利用可能になることで、どのような新しいサービスやプロダクトが生まれるでしょうか。特に、合成データによる訓練という発想の転換は、これまでのAI開発の常識を覆すものかもしれません。皆さんの業界や関心分野で、このような技術をどう活用できそうか、ぜひSNSで共有していただけると嬉しいです。一緒に未来の可能性を探っていきましょう。