【ダイジェスト】
Alphabet社は、Gemini AIモデルの新バージョン、Gemini Pro 1.5を発表しました。このアップグレード版は、以前のバージョンよりも大幅に強力で、一度に大量のテキスト、ビデオ、オーディオ入力を処理できます。Google DeepMindのCEOであるDemis Hassabis氏によると、このモデルは人間の作業記憶のように広範囲の入力を扱うことができ、新しいアプリケーションの開発を可能にします。
Gemini Pro 1.5は、1時間のビデオ、11時間のオーディオ、700,000語のテキスト、または30,000行のコードを一度に理解することができ、これはOpenAIのGPT-4を含む他のAIモデルよりもはるかに多い量です。このモデルは、特定のタスクに最適なモデルのアーキテクチャの部分を選択的に活性化する「専門家の混合」という技術を利用しており、これにより、より少ない計算能力でより高い性能を実現しています。
Gemini Pro 1.5は、AI StudioとGoogleのVertex AIクラウドプラットフォームAPIを通じて開発者に限定的に提供されます。また、GoogleはGeminiを使用してアプリケーションを開発するための新しいツールも導入しています。これには、ビデオやオーディオを解析する新しい方法や、AIによるコードのデバッグとテストを含むwebベースのコーディングツール、Project IDXへの新機能が含まれます。
このアップグレードの速さは、ChatGPTの成功によって引き起こされたAI競争の激しさを示しています。Googleは、Gemini Pro 1.5を広範囲にテストし、限定的なアクセスを提供することで潜在的なリスクに関するフィードバックを収集する方法を提供していると述べています。また、英国のAI Safety Instituteの研究者に最も強力なモデルへのアクセスを提供し、テストを行うことができるようにしています。
【ニュース解説】
Alphabet社が、そのフラッグシップAIモデル「Gemini」の新バージョン「Gemini Pro 1.5」を発表しました。このアップグレードにより、Gemini Pro 1.5は、以前のバージョンよりも大幅に強化され、一度に大量のテキスト、ビデオ、オーディオ入力を処理する能力を持つようになりました。この進化は、人間の作業記憶に例えられ、広範囲の入力を扱うことができるとされています。これにより、開発者はこれまでにない新しいアプリケーションの開発が可能になります。
Gemini Pro 1.5は、1時間のビデオ、11時間のオーディオ、700,000語のテキスト、または30,000行のコードを一度に理解することができるとされており、これは他のAIモデル、例えばOpenAIのGPT-4を含むものよりもはるかに多い量です。このモデルは、「専門家の混合」という技術を利用しており、これにより、より少ない計算能力でより高い性能を実現しています。この技術は、特定のタスクに最適なモデルのアーキテクチャの部分を選択的に活性化することで、効率的なトレーニングと実行を可能にします。
このアップグレードの背景には、ChatGPTの成功によって引き起こされたAI競争の激化があります。AIの進化は速く、新しい技術やモデルが次々と登場していますが、その一方で、この技術がもたらすリスクに対する懸念も高まっています。Googleは、Gemini Pro 1.5を広範囲にテストし、限定的なアクセスを提供することで、潜在的なリスクに関するフィードバックを収集する方法を提供しています。また、英国のAI Safety Instituteの研究者に最も強力なモデルへのアクセスを提供し、テストを行うことができるようにしています。
この技術の進化は、開発者が新しいアプリケーションを開発するための可能性を広げる一方で、AIの倫理的な使用やプライバシーの保護、誤情報の拡散など、多くの課題に直面しています。AIの発展は、社会に多大な影響を与えるため、技術の進歩と同時に、これらの課題に対する解決策を見つけることが重要です。
from Google’s Flagship Gemini AI Model Gets a Major Upgrade.