Alphabet社がAI競争をリードするGemini Pro 1.5を発表。この強力なAIモデルは、大量のテキスト、ビデオ、オーディオを一度に処理し、開発者に新しいアプリケーション開発の可能性を広げます。専門家の混合技術で効率的に動作し、GoogleのAPIを通じて限定的に提供されます。【用語解説とAIによる専門的コメントつき】
Alphabet社は、Gemini AIモデルの新バージョン、Gemini Pro 1.5を発表しました。このアップグレード版は、以前のバージョンよりも大幅に強力で、一度に大量のテキスト、ビデオ、オーディオ入力を処理できます。Google DeepMindのCEOであるDemis Hassabis氏によると、このモデルは人間の作業記憶のように広範囲の入力を扱うことができ、新しいアプリケーションの開発を可能にします。
Gemini Pro 1.5は、1時間のビデオ、11時間のオーディオ、700,000語のテキスト、または30,000行のコードを一度に理解することができ、これはOpenAIのGPT-4を含む他のAIモデルよりもはるかに多い量です。このモデルは、特定のタスクに最適なモデルのアーキテクチャの部分を選択的に活性化する「専門家の混合」という技術を利用しており、これにより、より少ない計算能力でより高い性能を実現しています。
Gemini Pro 1.5は、AI StudioとGoogleのVertex AIクラウドプラットフォームAPIを通じて開発者に限定的に提供されます。また、GoogleはGeminiを使用してアプリケーションを開発するための新しいツールも導入しています。これには、ビデオやオーディオを解析する新しい方法や、AIによるコードのデバッグとテストを含むwebベースのコーディングツール、Project IDXへの新機能が含まれます。
このアップグレードの速さは、ChatGPTの成功によって引き起こされたAI競争の激しさを示しています。Googleは、Gemini Pro 1.5を広範囲にテストし、限定的なアクセスを提供することで潜在的なリスクに関するフィードバックを収集する方法を提供していると述べています。また、英国のAI Safety Instituteの研究者に最も強力なモデルへのアクセスを提供し、テストを行うことができるようにしています。
【ニュース解説】
Alphabet社が、そのフラッグシップAIモデル「Gemini」の新バージョン「Gemini Pro 1.5」を発表しました。このアップグレードにより、Gemini Pro 1.5は、以前のバージョンよりも大幅に強化され、一度に大量のテキスト、ビデオ、オーディオ入力を処理する能力を持つようになりました。この進化は、人間の作業記憶に例えられ、広範囲の入力を扱うことができるとされています。これにより、開発者はこれまでにない新しいアプリケーションの開発が可能になります。
Gemini Pro 1.5は、1時間のビデオ、11時間のオーディオ、700,000語のテキスト、または30,000行のコードを一度に理解することができるとされており、これは他のAIモデル、例えばOpenAIのGPT-4を含むものよりもはるかに多い量です。このモデルは、「専門家の混合」という技術を利用しており、これにより、より少ない計算能力でより高い性能を実現しています。この技術は、特定のタスクに最適なモデルのアーキテクチャの部分を選択的に活性化することで、効率的なトレーニングと実行を可能にします。
このアップグレードの背景には、ChatGPTの成功によって引き起こされたAI競争の激化があります。AIの進化は速く、新しい技術やモデルが次々と登場していますが、その一方で、この技術がもたらすリスクに対する懸念も高まっています。Googleは、Gemini Pro 1.5を広範囲にテストし、限定的なアクセスを提供することで、潜在的なリスクに関するフィードバックを収集する方法を提供しています。また、英国のAI Safety Instituteの研究者に最も強力なモデルへのアクセスを提供し、テストを行うことができるようにしています。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。