OpenAI o1-previewが救急医を上回る診断精度67.1%、ハーバード大研究がScience誌掲載

ハーバード大学主導でスタンフォード大学の協力者が参加した研究チームが、OpenAIの「o1 preview」が臨床現場における診断能力テストで人間の医師に匹敵あるいは凌駕したとする論文を、Science誌に発表した。

研究ではボストンの病院における76件の救急室症例を、来院時の初期トリアージ、医師との初回接触、一般病棟または集中治療室への入院時の3段階で評価した。判定者を伏せた2名の医師による評価の結果、o1 previewは各段階で専門医に匹敵あるいは上回り、特に情報が最も少ない初期トリアージで優れた成績を示した。The New England Journal of Medicine誌に掲載されたMassachusetts General Hospitalの症例を用いた評価でも卓越した成績を収め、抗生物質使用や終末期ケアを含むマネジメント推論業務でも、従来のAIモデルおよびGoogle検索を用いた人間を上回った。著者らは前向き臨床試験の必要性を指摘した。

From: AI Outperforms Doctors in Emergency Room Tasks, New Harvard Study Shows

【編集部解説】

本研究の正式な論文タイトルは「Performance of a large language model on the reasoning tasks of a physician」で、Science誌に2026年4月30日付で掲載されました(arXivプレプリント時点では「Superhuman performance of…」というタイトルでしたが、Science誌掲載時に”Superhuman”の語が外されています)。Harvard Magazineの記事には記載されていない具体的な数値が論文および他メディアの報道で明らかになっており、その具体性こそがこのニュースの衝撃度を理解する鍵となります。

ボストンのBeth Israel Deaconess Medical Centerにおける76件の救急外来症例で、o1-previewが初期トリアージ段階で「正確またはそれに近い」診断に至った割合は67.1%でした。これに対し、エリート医療機関から招かれた専門医2名の正答率はそれぞれ55.3%と50.0%にとどまっています(出典:Science誌、Gizmodo、Prism News)。情報量が増える後段では、AIは82%、医師は70〜79%となり、この差は統計的に有意ではなくなりました。つまり「情報が乏しい初期段階ほどAIの優位性が際立つ」という、人間の医師にとってはやや皮肉な結果が示されたわけです。

特筆すべきはThe New England Journal of Medicineに掲載された臨床病理カンファレンス(CPC)症例143件での評価です。o1-previewは有用な鑑別診断を97.9%の症例で提示し、臨床推論プロセスの「完璧スコア」を98%で達成しました。同条件で主治医クラスの医師が完璧スコアに達した割合は35%です(出典:Science誌)。

なお、本論文の筆頭著者はピーター・G・ブロデュア氏(Beth Israel Deaconess Medical Center臨床フェロー)で、Microsoft主席科学責任者のエリック・ホーヴィッツ氏も共著者として名を連ねています。Microsoft、Stanford、Harvardという「研究と産業の最前線」が連携した点も、この研究の特異性を示しています。

ここで歴史的な文脈に触れさせてください。本研究はLedleyとLustedが1959年にScience誌で発表した「医学診断の推論基盤」論文を参照点としており、医療AIは実に65年以上にわたって「医師レベルの推論」を追い求めてきたことになります。バックリー氏が「ほぼ最適な診断に達している」と述べた背景には、この長い研究史への敬意が込められています。

技術的に重要なのは、o1-previewが「reasoning model(推論モデル)」と呼ばれる新世代のLLMである点です。従来のGPT-4が一気に答えを出力するのに対し、推論モデルは内部で思考の連鎖(Chain of Thought)を展開し、段階的に推論を組み立てます。この思考様式の変化が、複雑で曖昧な臨床判断において質的な飛躍をもたらしたと解釈できます。

研究者らが特に画期的だと位置付けているのが「マネジメント推論」での成績です。これは抗生物質の選択や終末期ケアの意思決定など、客観的事実だけでなく患者の文脈や価値観を含めた判断を要する領域で、ブロデュア氏は診断推論よりも複雑な業務だと説明しています。AIがこの領域でGoogle検索を使う医師を上回ったという事実は、医療における「判断」そのものの本質を問い直す材料となるでしょう。

一方で、研究者ら自身が留保事項を強調している点も見逃せません。本研究はテキスト情報のみを用いた評価であり、画像、聴診音、患者の表情や声色、心電図波形といった、実際の診療で医師が活用するマルチモーダル情報は含まれていません。さらに、リアルタイムの診療ではなく、過去症例の遡及的レビューに過ぎないという制約もあります。ロッドマン氏は「数日から数週間にわたる入院患者のデータを与えれば、性能は落ちるだろう」と率直に述べています。

規制動向も急速に変化しています。米FDAは2026年1月6日に臨床意思決定支援(CDS)ソフトウェアに関するガイダンスを更新し、AI製品に対する規制を緩和する方向に舵を切りました。一方、EUのAI Actでは医療AIは「高リスクAIシステム」に分類され、人間による監督が義務付けられています。日本では2025年に成立したAI推進法、3省2ガイドライン、薬機法のSaMD規制、そして2026年度診療報酬改定における「ICT、AI、IoT等の利活用の推進」明記など、複数の制度が並走している状況です。

このニュースが日本の医療現場に与える示唆は重大です。日本は世界最速で進む高齢化と地域偏在する医師不足という構造的課題を抱えています。救急トリアージや稀少疾患の鑑別においてAIが「セカンドオピニオン」として機能する未来は、単なる効率化を超えた、医療アクセスの公平性を高める可能性を秘めているのではないでしょうか。

ただし、ロッドマン氏が懸念する「AI医師企業」が医師を排除する方向に進めば、医療の本質である人間同士の信頼関係が損なわれかねません。マンライ氏が語った「人は最終的に、生死に関わる決断を人間に導いてもらいたいと願う」という言葉には、技術と人間性の境界線をどこに引くかという根源的な問いが含まれています。

innovaTopia編集部は、この研究を「AIが医師を超えた」というセンセーショナルな見出しで消費するのではなく、「人類が65年かけて追求してきた診断推論の地平に、新しい協働者が現れた」と捉えたいと考えます。技術と人間がどう手を組むのか——その設計こそが、これから10年の医療を決定づける課題となるはずです。

【用語解説】

o1-preview
OpenAIが2024年9月12日に公開した、同社初の「推論(reasoning)」特化型大規模言語モデル。応答前に長い内部思考の連鎖を生成し、複雑な問題を段階的に解くことを得意とする。後継のo1モデルは2024年12月5日に登場した。

推論モデル(Reasoning Model)
Chain of Thought(思考の連鎖)を訓練段階から組み込んだ新世代のLLM。一気に回答を出力する従来モデルと異なり、内部で段階的に推論を展開してから結論を出すため、数学・コーディング・医療診断など複雑な推論を要するタスクで高い性能を発揮する。

大規模言語モデル(LLM:Large Language Model)
膨大なテキストデータで事前学習された、巨大なパラメータ数を持つAIモデル。文章生成・質問応答・翻訳など幅広い言語タスクをこなす。OpenAIのGPTシリーズ、GoogleのGeminiシリーズ、MetaのLlamaシリーズが代表例である。

トリアージ(Triage)
救急医療の現場で、限られた医療資源を効率的に配分するため、患者の緊急度・重症度に応じて治療優先順位を決定するプロセス。情報が乏しく時間的制約が厳しいなかで的確な判断を求められる、最も難度の高い臨床業務の一つだ。

マネジメント推論(Management Reasoning)
診断にとどまらず、抗生物質の選択、検査の進め方、終末期ケアの方針決定など、患者の治療管理全般に関わる判断プロセス。客観的な事実だけでなく、患者の文脈や価値観といった主観的要因の考慮を必要とする、高度な臨床判断領域である。

鑑別診断(Differential Diagnosis)
症状や検査結果から考えられる複数の疾患候補を挙げ、それぞれの可能性を比較検討して最終診断に絞り込むプロセス。希少疾患や複雑な症例ほど、鑑別の網羅性と的確性が問われる。

臨床病理カンファレンス(CPC:Clinicopathological Conference)
診断が困難であった症例について、臨床医が症状や検査所見から鑑別診断を議論し、最終的に病理学的診断と照合する形式の症例検討会。The New England Journal of Medicineには長年にわたりCPC症例が掲載されており、医師の診断能力評価のベンチマークとして用いられてきた。

電子カルテ(EHR:Electronic Health Record)
患者の診療記録を電子化したシステム。バイタルサイン、検査結果、看護師の記録、医師のメモなど多様な情報が統合されているが、ノイズや無関係な情報も多く、必要な情報の抽出には熟練を要する。

クリニカル・ビネット(Clinical Vignette)
医学教育や試験で用いられる、実症例を簡略化した臨床症例記述。患者の主訴・病歴・身体所見・検査結果などが提示され、診断や治療方針の判断能力を評価する。

Bond Score
鑑別診断および臨床推論の質を0〜5(6段階)で評価する、医学教育分野で検証されたスコアリング手法。鑑別診断の妥当性、検査計画の論理性などを定量的に測定する。

SaMD(Software as a Medical Device)
単独のソフトウェアとして医療機器の機能を果たすプログラムのこと。日本では薬機法、米国ではFDA、EUではMDR(医療機器規則)による規制対象となる。

3省2ガイドライン
日本における医療情報システム取扱いの指針。厚生労働省「医療情報システムの安全管理に関するガイドライン」と、経済産業省・総務省の「医療情報を取り扱う情報システム・サービスの提供事業者における安全管理ガイドライン」の総称である。

EU AI Act
2024年8月に発効したEUのAI規制法。医療AIを「高リスクAIシステム」と分類し、データガバナンス、透明性、バイアス軽減、人間による監督などの義務を課している。2026年に完全施行を迎えた。

【参考リンク】

OpenAI 公式サイト(外部)
ChatGPT、GPT-4、o1シリーズなどを開発する米国のAI研究企業。本研究で評価対象となったo1-previewの開発元である。

OpenAI o1 紹介ページ(外部)
o1-previewの公式発表ページ。推論能力に特化した同社初のモデルとしての特徴と、性能が解説されている。

Science誌掲載論文(原典)(外部)
本ニュースで報じられた論文のScience誌における原典。65年以上にわたる医療AI研究の到達点を示している。

arXiv プレプリント版(外部)
査読前のプレプリント版。著者一覧・実験詳細を一次情報として確認可能である。

Harvard Medical School 公式サイト(外部)
本研究を主導したハーバード大学医学部の公式サイト。マンライ氏、ロッドマン氏らが所属する。

Beth Israel Deaconess Medical Center 公式サイト(外部)
本研究の救急外来症例データを提供したボストンの大学病院。HMSの教育関連病院でもある。

Stanford University School of Medicine 公式サイト(外部)
共同研究機関として参加したスタンフォード大学医学部の公式サイト。

Massachusetts General Hospital 公式サイト(外部)
研究で使用されたCPC症例の出典先となった、米国屈指の総合病院である。

Science誌公式サイト(外部)
本論文が掲載された、AAAS発行の世界トップクラスの査読付き科学誌である。

The New England Journal of Medicine 公式サイト(外部)
研究のベンチマーク症例の出典である、世界で最も権威のある医学雑誌の一つ。

米国食品医薬品局(FDA)公式サイト(外部)
2026年1月6日に臨床意思決定支援ソフトウェアに関する新ガイダンスを発出した。

厚生労働省保健医療分野AI開発加速コンソーシアム(外部)
日本における医療AI開発推進のための官民連携の場である。

【参考記事】

Performance of a large language model on the reasoning tasks of a physician(Science|AAAS|論文原典)(外部)
本ニュースの源流となるScience誌掲載論文の原典。5つの実験と実環境比較を通じてLLMが既存の臨床推論ベンチマークを凌駕したと結論付けた。

AI is starting to beat doctors at making correct diagnoses(Science|AAAS)(外部)
o1の救急外来初期トリアージ正答率67%、臨床推論完璧スコアo1=98%対主治医=35%という劇的な差を体系的に詳説している。

AI Just Beat Doctors at Diagnosing ER Patients. Don’t Get All Excited(Gizmodo)(外部)
o1の67.1%、専門医55.3%・50.0%、Nature掲載ベースライン44.5%という具体数値で批判的検証を行っている。

Harvard study finds AI can outdo doctors on some diagnostic tasks(Prism News)(外部)
論文タイトル、著者一覧、NEJM CPC症例143件、1959年Ledley論文との接続など歴史的・技術的背景を最も詳細に報じる。

An AI model beat ER doctors at diagnosing patients, in a new study(NPR)(外部)
ループス患者の実例を交え、テキスト評価の限界や入院患者への適用困難など研究者の留保事項を丁寧に伝える。

AI outperforms doctors in Harvard trial of emergency triage diagnoses(nsaneforums)(外部)
後段でo1=82%、専門医=70〜79%と差が統計的有意でなくなる重要な詳細を簡潔に整理している。

Large language models demonstrate strong performance in physicians’ clinical reasoning tasks(EurekAlert!)(外部)
AAAS公式プレスリリース。全6実験で人間性能に匹敵または上回ったという研究の核心を一次情報として整理している。

【編集部後記】

もしあなたが救急外来に運ばれたとき、診断にAIが関わることをどう感じるでしょうか。安心と感じる方もいれば、戸惑う方もいるはずです。私たち編集部もまだ答えを持っていません。ただ、AIが「医師の代わり」ではなく「医師のセカンドオピニオン」として機能する未来は、すでに始まっています。皆さんなら、自分や大切な人の医療に、AIをどう関わらせたいと思いますか。ぜひSNSなどで、皆さんの感じたことを聞かせてください。