Google ResearchとGoogle DeepMindが共同で行った研究により、GoogleのAIモデル「Med-Gemini」の能力が拡張されたことが明らかになった。この研究では、Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenicの3つのモデルが紹介されている。Med-Gemini-2Dは従来の2D医療画像を学習し、Med-Gemini-3Dは3D医療データを解析し、Med-Gemini-Polygenicはゲノムデータを用いて健康結果を予測する。Med-Gemini-2Dは胸部X線レポート生成で以前の結果を1%から12%上回り、胸部X線の視覚的質問応答、分類、放射線学的視覚的質問応答で以前の基準を17の20のタスクで上回った。Med-Gemini-3Dは3Dスキャンを読み取り、画像に関する質問に答えることができ、3D CTスキャンのレポートを生成する最初のLLMとされたが、クリニカルに受け入れられるレポートは53%にとどまった。Med-Gemini-Polygenicは、ゲノムデータを使用して健康結果を予測する最初のモデルであり、標準の線形ポリジェニックリスクスコアベースのアプローチを上回り、訓練されていない遺伝的に関連する疾患にも一般化する能力を持つと報告された。
Google ResearchとGoogle DeepMindが共同で行った最新の研究により、GoogleのAIモデル「Med-Gemini」シリーズの能力が大幅に拡張されたことが明らかになりました。この研究では、特にMed-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenicの3つのモデルが紹介されています。
Med-Gemini-3Dは、3D医療データを解析する能力を持ち、特に3D CTスキャンの読み取りや、それに関する質問への回答が可能です。このモデルは3D CTスキャンのレポートを生成する最初のLLM(Large Language Model)とされていますが、クリニカルに受け入れられるレポートの割合は53%にとどまり、さらなる研究が必要であるとされています。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。