Googleは、Gemini 1.5 Proのアップデートにより、このモデルが音声ファイルを聞く機能を獲得したと発表しました。この機能により、Gemini 1.5 Proは、収益通話やビデオの音声などから情報を抽出できるようになり、書かれたトランスクリプトを参照する必要がなくなります。このアップデートは、Google Nextイベント中に公開され、Gemini 1.5 Proが初めて一般公開されることも発表されました。このモデルは、GoogleのAIアプリケーション構築プラットフォームであるVertex AIを通じて利用可能になります。Gemini 1.5 Proは、Geminiファミリーの中間モデルとされており、最も大きくて強力なモデルであるGemini Ultraの性能をすでに上回っています。Googleによると、Gemini 1.5 Proは複雑な指示を理解でき、モデルの微調整の必要性を排除します。
Gemini 1.5 Proは、Vertex AIへのアクセスがない人々には利用できません。現在、ほとんどの人々がGemini言語モデルに触れるのは、Geminiチャットボットを通じてです。Gemini UltraはGemini Advancedチャットボットを動かしており、長いコマンドも理解できる強力なモデルですが、Gemini 1.5 Proほどの速さはありません。
また、GoogleはImagen 2というテキストから画像を生成するモデルもアップデートしています。このモデルは、Geminiの画像生成機能を支えるもので、ユーザーが画像から要素を追加または削除できるinpaintingとoutpainting機能を追加しました。さらに、Imagenモデルを通じて作成されたすべての画像に、SynthIDというデジタル透かし機能を利用可能にしました。SynthIDは、検出ツールを通じて見るとその出所を示す透かしを画像に加えますが、視聴者には見えません。
Googleは、AIの応答をGoogle検索で裏付けることにより、最新の情報で答える方法も公開プレビューしています。これは、大規模言語モデルが生成する応答に常に当てはまるわけではありません。例えば、Googleは意図的にGeminiが2024年の米国選挙に関連する質問に答えないようにしています。
【ニュース解説】
GoogleがGemini 1.5 Proのアップデートを発表し、このモデルに音声ファイルを聞く機能が追加されました。これにより、Gemini 1.5 Proは、収益通話やビデオの音声などから情報を抽出できるようになり、書かれたトランスクリプトを参照する必要がなくなります。この技術の進化は、AIの理解能力と応用範囲の拡大を示しています。
このアップデートにより、Gemini 1.5 Proは、従来のテキストベースの情報処理に加えて、音声情報の処理も可能になりました。これは、例えば、企業の収益報告会議の音声記録から直接情報を抽出したり、ビデオコンテンツの内容をテキスト化することなく分析することが可能になることを意味します。このように、音声データから直接情報を得られることで、情報処理の効率が大幅に向上します。
しかし、この技術の進歩には潜在的なリスクも伴います。例えば、プライバシーの侵害や、音声データの不正使用などの問題が考えられます。そのため、このような技術の使用には、適切な規制やガイドラインが必要になるでしょう。
また、GoogleはImagen 2のアップデートも発表しました。これにより、画像から要素を追加または削除する機能が追加され、画像生成技術の応用範囲がさらに広がります。さらに、画像に透かしを加えることで、画像の出所を特定できるようになり、デジタルコンテンツの管理と保護が強化されます。
これらの技術の進化は、AIの応用範囲を大きく広げ、多くの分野での利用が期待されます。しかし、その一方で、プライバシー保護やデータの安全性など、新たな課題も浮かび上がっています。今後、これらの技術が社会に与える影響と、それに伴う規制や倫理的な議論が、さらに重要になってくるでしょう。
from Google’s Gemini 1.5 Pro can now hear.