Gemini 3.5 Live Translate登場――70言語以上の同時音声翻訳を実現

Googleは2026年6月9日、最新のオーディオモデルGemini 3.5 Live Translateを発表した。70以上の言語を自動検出し、音声から音声へほぼリアルタイムで翻訳する。話者の抑揚やペース、ピッチを保ち、音声を連続生成して話者から数秒の遅れで出力される。

同日より、開発者向けにGemini Live APIとGoogle AI Studioでパブリックプレビュー、選定されたGoogle Workspace法人顧客向けに今月からGoogle Meetでプライベートプレビュー、Android・iOSのGoogle Translateで一般提供が順次開始される。Agora、Fishjam、LiveKit、Pipecat、Vision Agentsと統合され、Grab、CJ ENM、LiveKitがテストやフィードバックを行った。

Grabのユーザーは月間1000万件超の音声通話を行う。Google Meetは従来の5言語から70以上の言語、2000以上の言語の組み合わせに対応する。生成音声にはSynthIDの電子透かしが施される。

From: Fluid, natural voice translation with Gemini 3.5 Live Translate

【編集部解説】

「言葉の壁」は、人類が文明を築いて以来ずっと付き合ってきた、最も古くて手強い障壁のひとつです。Googleが今回発表した Gemini 3.5 Live Translate は、その壁の高さを一段、確実に下げてくる技術だと言えるでしょう。

技術的に最も重要なのは「連続生成」という設計思想です。従来の翻訳システムは、話者が一区切り話し終えるのを待ってから翻訳に取りかかる「ターン制」が一般的でした。これに対し本モデルは、音声がストリーミングされるそばから処理を始め、話者から数秒遅れを保ちながら訳し続けます。「文脈を待てば品質が上がるが、待てば会話のテンポが崩れる」という、同時通訳者が常に背負っているジレンマを、機械が肩代わりし始めたわけです。

注目したいのは Google Meet での数字の変化です。Meetの音声翻訳は、つい最近まで英語との相互翻訳が中心で、対応言語も5つにとどまっていました。それが70以上の言語、1会議あたり2000を超える言語の組み合わせへと跳ね上がります。

この「2000以上」という数字には、見た目の派手さ以上の意味があります。従来のMeetの音声翻訳は、英語との相互翻訳に限定されていました。つまり、英語を介さない言語どうしの直接のやり取りは想定されていなかったのです。新方式は70以上の言語、1会議あたり2000を超える組み合わせへと広がり、言語間を直接つなぎます。英語話者が1人もいない会議でこそ、この変更の真価が効いてきます。なお、内部処理が必ず英語を経由していたのかどうかは、Googleの公式発表からは確認できません。

実用面でのインパクトは広範です。配車サービスのGrabは、ドライバーと旅行者の送迎時のやり取りでテストを進めており、同社のユーザーは月間1000万件超の音声通話を行っています。会議、授業、放送、観光案内まで、これまで通訳者や専用機材を必要としていた場面が、手元のスマートフォンとイヤホンに置き換わっていく可能性があります。

一方で、冷静に見ておくべき点もあります。Gadget Hacksなどが鋭く指摘しているように、「自然さ」や「声の保持」といった性能の根拠は、現時点ではGoogle自身の発表に依拠しています。独立した第三者によるベンチマークや検証は、まだ確認できていません。Googleは2025年12月にWMT25という翻訳ベンチマークでの優秀な成績に言及していますが、これは「書かれたテキスト」の翻訳品質を測るものであり、騒がしい環境やライブ音声、複数話者の重なりをどう捌くかは別の指標として捉える必要があります。実際、Googleのモデルカード自身も、声の不安定化や複数話者が高速で切り替わる場面、非母語アクセントでの言語検出などに課題が残ると認めています。

リスクと責任の側面では、生成音声すべてに電子透かしSynthIDが埋め込まれている点は評価できます。本人そっくりの声で偽の発言を生成する「ボイスフェイク」が懸念される時代に、AI生成音声を検出可能にしておく設計は、誤情報対策の最低限の備えと言えるでしょう。ただし、透かしの有無を一般利用者が日常的に確認できるわけではなく、悪用の抑止力としてどこまで機能するかは今後の運用次第です。

長期的に見れば、この技術が問いかけるのは「外国語を学ぶ意味」そのものかもしれません。即時翻訳が当たり前になった世界で、語学学習は不要になるのか。それとも、相手の言語や文化を理解しようとする営みの価値は、むしろ際立っていくのか。言語の壁が消えた先で人と人がどう向き合うのかという問いこそがこのニュースの本質だと考えています。

【用語解説】

音声→音声翻訳(スピーチ・トゥ・スピーチ翻訳)
ある言語で話された音声を文字に起こして読ませるのではなく、別の言語の「音声」として直接出力する翻訳方式。3.5 Live Translateは話者の抑揚やピッチを保ったまま訳す点が特徴。

電子透かし(SynthID)
Google DeepMindが開発したAI生成コンテンツに知覚できない印を埋め込む技術。音声出力に直接織り込むことでその音声がAIによる生成物だと後から判別できるようにし、なりすましや誤情報の拡散を防ぐ狙いがある。

WMT25
機械翻訳の品質を競う国際的なベンチマーク。ただし測定対象は「書かれたテキスト」であり、ライブ音声の翻訳品質とは区別して捉える必要がある。

CJ ENM
韓国の大手メディア・エンターテインメント企業。3.5 Live Translateに好意的なフィードバックを寄せた企業の1社として記事に登場する。

【参考リンク】

Gemini Live API(開発者向けドキュメント)（外部）
3.5 Live Translateを開発者が利用するための公式技術文書。実装方法やパラメータが解説されている。

Google AI Studio（外部）
ブラウザ上でGeminiモデルを試せるGoogleの開発者向け環境。3.5 Live Translateもここで試用できる。

Google 翻訳(Translate)（外部）
Googleの翻訳サービス。Android・iOSアプリで3.5 Live Translateによるライブ翻訳が提供される。

Google Meet（外部）
Googleのビデオ会議サービス。法人向けに3.5 Live Translateの音声翻訳が導入される。

Grab（外部）
東南アジア中心の配車・デリバリーサービス。本モデルをドライバーと利用者間の通話でテストしている。

Agora（外部）
リアルタイム音声・映像通信の基盤を提供する開発者向けプラットフォーム。Gemini Live APIと統合されている。

LiveKit（外部）
リアルタイム通信向けのオープンソース基盤を提供する企業。Gemini Live APIとの統合パートナーである。

Pipecat（外部）
音声AIアプリ構築用のオープンソースフレームワーク。Gemini Live APIと統合されている。

SynthID(Google DeepMind)（外部）
AI生成コンテンツに電子透かしを施すGoogle DeepMindの技術。生成音声の検出可能性を担保する。

Gemini Cookbook(GitHub)（外部）
Gemini Live APIのサンプルコードやデモが公開されている公式リポジトリである。

【参考記事】

Gemini 3.5 Live Translate rolling out to Google Meet and Translate(9to5Google)（外部）
70以上の言語、2000以上の言語の組み合わせ、従来5言語からの拡大、SynthIDなどを数値とともに整理した報道。

Google Meet Live Translation Update: 70+ Languages With Gemini 3.5(Gadget Hacks)（外部）
従来の翻訳構造を指摘し、独立検証の不在やWMT25がテキスト指標である点にも言及した記事。

Google Releases Gemini 3.5 Live Translate(MarkTechPost)（外部）
単一オーディオモデルである点や、ストリーミング処理と従来ターン制の設計上の違いを技術的に整理した記事。

How Google built real-time language translation for Meet(Google Workspace)（外部）
Meet音声翻訳の従来言語と開発経緯を伝える公式記事。本記事の対応言語数の精緻化に参照した。

Learn about Speech Translation(Google Meet ヘルプ)（外部）
Meetの音声翻訳が英語と複数言語の間で提供されてきた従来仕様を示す公式ヘルプ。対応言語の精緻化に参照した。

Google unveils Gemini 3.5 Live Translate for real-time speech(Investing.com)（外部）
70言語、Meetの5言語から70言語超への拡大、2000以上の組み合わせ、SynthIDなどの主要数値をまとめた報道。

Google’s Gemini 3.5 Live Translate enables realistic translation(SiliconANGLE)（外部）
自動言語検出による事前設定不要の利点や、過去の同種試みが専用ハードを要した点との対比を論じた記事。

【関連記事】

Google翻訳、Gemini搭載でライブ音声翻訳と文脈理解を実現（内部）本記事の前日譚。Gemini 2.5世代でのライブ音声翻訳とヘッドホン開放を伝えた、進化の出発点となる一本。

GeminiアプリでAI生成動画を検証可能に。GoogleがSynthID透かし技術で真贋判定を実現（内部）本記事で触れたSynthID電子透かしの仕組みと真贋判定を、動画を例に詳しく解説した関連記事。

Gemini 3.5 Flash発表｜Shopify・Salesforce・Macquarie Bankも導入、AI業界の階層が崩れる（内部）同じGemini 3.5世代の基盤モデル記事。今回のオーディオモデルが属するファミリー全体の動向を把握できる。

【編集部後記】

言葉の壁が数秒の遅れにまで縮むとき、私たちのコミュニケーションはどう変わっていくのでしょうか。海外の人と話すとき、あなたなら通訳に任せるのか、たどたどしくても自分の言葉で伝えるのか、どちらを選ぶでしょう。

便利さの先で、語学を学ぶ意味や相手の文化に触れる楽しみがどう変わるのか、ぜひ一緒に考えてみたいと思います。実際に使用した、または使用したいと考えた際の実感や違和感を、ぜひSNSで聞かせていただけたら嬉しいです。