DiffusionGemma登場——Googleが拓くテキスト生成「最大4倍速」の新潮流

Googleは2026年6月10日、実験的なオープンモデル DiffusionGemma を発表しました。テキスト拡散の手法を用い、専用GPU上で最大4倍高速なテキスト生成を実現します。

Apache 2.0 ライセンスで公開され、推論時に3.8Bパラメーターのみを活性化する26B総パラメーターのMixture of Expertsモデルです。256トークンのキャンバスを並列で処理し、量子化時は18GB VRAMに収まります。性能はNVIDIA H100 1基で毎秒1000トークン以上、NVIDIA GeForce RTX 5090で700トークン以上とされます。著者はブレンダン・オドナヒューとセバスチャン・フレナーハグ。重みはHugging Faceで公開され、MLX、vLLM、Hugging Face Transformersに対応します。出力品質は標準のGemma 4より低いと記載されています。

From: DiffusionGemma: 4x faster text generation

【編集部解説】

なぜ今、私たちがこのニュースに注目するのか。それは DiffusionGemma が「AIをどこで動かすか」という主導権の話だからです。これまで高速・高品質な生成AIは、事実上クラウドの専有物でした。今回の発表は、その前提を手元のGPUへと引き戻す試みとして読めます。

まず技術の核心を整理します。現在主流の大規模言語モデルは「自己回帰型」と呼ばれ、文章を左から右へ一語ずつ予測していきます。DiffusionGemma が採用する「テキスト拡散」は発想が逆で、256トークンぶんの空白のキャンバスをいきなり置き、ランダムな状態から複数回かけて全体を一気に磨き上げます。画像生成AIがノイズから絵を立ち上げるのと同じ理屈を、文章に持ち込んだものです。

この差が効くのは「ローカルかつ低並列」の条件下です。より正確には、単一のアクセラレーター上での低〜中程度のバッチ処理で優位が最も強く出ます。クラウドでは何千ものリクエストをまとめて処理できるため自己回帰型でもGPUを使い切れますが、個人が少数の処理だけを手元で動かすとGPUは次の一語を待つ待機時間ばかりが増えます。DiffusionGemma はまとめて処理することで、その遊んでいる演算能力を埋める。記事中の「タイプライターから印刷機へ」という比喩は、この構造転換を的確に言い表しています。

注目すべきは、速さがそのまま新しい使い方を開く点です。全トークンが互いを参照できる「双方向アテンション」により、文章の途中への挿入、コードの穴埋め、さらにはアミノ酸配列や数式グラフのような前後関係が双方向に絡む対象を扱いやすくなります。実際、自己回帰型が苦手とする数独でも、ファインチューニングによって未調整時のほぼ0%から正答率が大きく改善し、必要なステップ数も減少したと報告されています（Google開発者ガイドによる数値で、Unsloth などのツールで再現できます）。「順番に書く」制約から解放されることの意味が、ここに端的に表れています。

ハードウェアの敷居が下がった意義も見逃せません。総パラメーターは26B（260億／公式モデルカードの厳密値は25.2B）ながら推論時に動くのは3.8B（38億）のみというMoE構成のおかげで、量子化すれば18GBのVRAMに収まります。これは GeForce RTX 5090 や 4090 といった高性能な民生用GPUの射程内です。なお、占有メモリを「18GB」とする情報源と、対象GPUの搭載枠を指して「24GB」とする情報源があり、本稿は元記事の表記に従っています。クラウドに送れない機密データを手元で完結させたい開発者にとって、実用的な選択肢が一つ増えたことになります。

一方で、innovaTopia として誇張を避けるために強調しておきたいのは、Google自身が認めるトレードオフです。出力品質は標準の Gemma 4 より低く、高品質が必要な本番用途には引き続き自己回帰型 Gemma 4 が推奨されています。「4倍速い」という見出しも、あくまで専用GPU上の低並列環境という条件付きであり、高負荷のクラウド運用ではむしろコストが増える場合があると明記されています。万能の置き換えではなく、用途を選ぶ道具だという理解が欠かせません。

この発表をより大きな文脈に置くと、潮目の変化が見えてきます。商用の拡散型言語モデルとしては Inception の Mercury が2025年に先行し、Gemini Diffusion の研究もありました。そこへ Google が Apache 2.0 ライセンスでオープンに重みを公開した意味は小さくありません。誰でも改造・配布できる形で拡散型の実用モデルが市場に降りてきたことで、この方式の研究と応用は一段と加速するはずです。

長期的な視点では、生成AIの競争軸が「賢さ」だけでなく「速さと体験」へ広がる前触れと捉えられます。リアルタイムに自己修正しながら文章やコードを描くインタラクションは、私たちがAIと向き合う作法そのものを変えていく可能性があります。実験的モデルという位置づけながら、その先に何が立ち上がるのか。innovaTopia として引き続き見届けたいテーマです。

【用語解説】

テキスト拡散（text diffusion）
ノイズだらけの状態から少しずつ整えて完成形に近づける「拡散」の考え方を、画像生成から文章生成へ転用した手法。ランダムなトークンの集まりを反復的に磨き、最終的な文章へ収束させる。

自己回帰型（autoregressive）モデル
現在主流の言語モデルの方式。文章を左から右へ一語ずつ、直前までの内容をもとに予測していく。GPT や Gemini などもこの系統に属する。

Mixture of Experts（MoE）
複数の専門化したサブネットワーク（エキスパート）を並べ、入力に応じて必要なものだけを稼働させる構造。DiffusionGemma は総計26Bでも推論時は3.8Bのみ動くため、メモリ消費を抑えられる。

トークン
AIが文章を処理する際の最小単位。単語や単語の一部に相当する。生成速度は「毎秒何トークン」で測られる。

双方向アテンション（bi-directional attention）
生成中の全トークンが互いを参照し合える仕組み。一方向に進む自己回帰型と異なり、文中への挿入やコードの穴埋めなど前後関係が双方向に絡む処理に強い。

量子化（quantization）
モデルの数値表現を低い精度に圧縮し、必要メモリと計算量を減らす技術。これにより民生用GPUでの動作が現実的になる。

VRAM
GPUが搭載するメモリ。生成AIをローカルで動かせるかは、この容量で大きく左右される。DiffusionGemma は量子化時に18GBに収まる。

NVFP4
NVIDIAが推進する4ビット浮動小数点形式。メモリ使用量を抑えつつ高速実行を狙う低精度演算形式で、精度への影響はモデルやタスクによって異なる。

Apache 2.0 ライセンス
商用利用や改変、再配布を広く認める寛容なオープンソースライセンス。DiffusionGemma の重みはこの条件で公開されている。

【参考リンク】

DiffusionGemma — Google DeepMind（外部）
開発元Google DeepMindの公式モデルページ。性能や設計思想、開発者ガイドへの導線がまとまっている。

DiffusionGemma: The Developer Guide（外部）
内部機構と導入方法を解説した公式の開発者向けガイド。本文で触れた技術詳細の一次情報源だ。

DiffusionGemma model overview（外部）
仕様や対応機能を網羅した公式ドキュメント。256Kコンテキストや画像入力対応などの記載がある。

google/diffusiongemma-26B-A4B-it（Hugging Face）（外部）
モデルの重みが公開されている公式リポジトリ。実際にダウンロードして試せる一次配布元である。

Gemma 4 — Google AI for Developers（外部）
DiffusionGemma の土台となったオープンモデル群Gemma 4の公式概要ページである。

NVIDIA Accelerates DiffusionGemma for Local AI（外部）
最適化を担ったNVIDIAの公式解説。RTXやDGX Sparkでの動作に関する記述がある。

【参考動画】

【参考記事】

Google’s new open model DiffusionGemma generates text from noise（the-decoder）（外部）
拡散方式の仕組みを整理。Gemini Diffusionが当時1,479トークン/秒を示した文脈も補足する。

Google AI Releases DiffusionGemma, a 26B MoE Open Model（MarkTechPost）（外部）
H100で1000、RTX 5090で700トークン/秒超の数値を明示。256Kや140言語対応にも触れる。

DiffusionGemma: Google’s Open AI That Generates Text 4x Faster（外部）
数独の正答率がほぼ0%から80%へ、ステップが48超から12へ減ったと数値で報じる。

Google open-sources speedy DiffusionGemma text diffusion model（外部）
画像拡散との対比で平易に解説。MoEとデータ圧縮で民生GPUでも動く理由を整理する。

NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI（外部）
最適化の当事者による解説。クラウド不要で動く点や各ツールの初日対応を強調する。

【編集部後記】

AIが「速くなる」というと、つい性能競争の話に聞こえます。けれど DiffusionGemma が問いかけているのは、その力を「どこで、誰の手元で動かすか」という話なのかもしれません。クラウドに預けず、自分のGPUの中でAIが文章を一気に描いて自ら直していく——そんな体験を、みなさんならどう使ってみたいでしょうか。手元で完結するAIに惹かれる方も、品質とのトレードオフに慎重な方も、それぞれの感触をぜひ聞かせてください。私たちも一緒に確かめていきたいと思っています。