HealthBench Professional発表——ChatGPT for Cliniciansが医師を超えたスコアを記録、OpenAIの医療AI戦略が加速

OpenAIは2026年4月22日、大規模言語モデルを臨床医の実際のチャットタスクで評価するオープンベンチマーク「HealthBench Professional」を発表した。ベンチマークは525タスクで構成され、ケア相談、文書作成・記録、医療リサーチの3つのユースケースをカバーする。

データは50カ国・26診療科にわたる190名の医師が作成し、15,079件の候補から選定された。困難な例は候補プールに対して約3.5倍に増量されている。評価の結果、ChatGPT for Clinicians上のGPT-5.4が総合スコア59.0を記録し、人間の医師(43.7)、GPT-5.4単体(48.1)、Claude Opus 4.7(46.2)、Gemini 3.1 Pro(47.0)、Grok 4.20(43.8)を上回った。

From: 文献リンクHealthBench Professional: Evaluating Large Language Models on Real Clinician Chats

【編集部解説】

OpenAIが今回発表したのは、プロダクトベンチマークの両方だ。HealthBench Professionalは、ChatGPT for Cliniciansと同時にリリースされた「評価基準」であり、その構造を理解することがこのニュースを正しく読み解く鍵になります。

重要な前提として、このベンチマークはOpenAI自身が設計し、自社モデルで評価した点に注意が必要です。The Decoderをはじめ複数の海外メディアも「OpenAI built the benchmark and tested its own models on it」と明確に指摘しており、openai.comのページでも率直に認めています。ただしOpenAIは、データとコードをオープンに公開しており、StanfordのMedHELMやMedMarksといった独立した評価でも自社モデルがトップに位置することを根拠として挙げています。評価結果を額面通りに受け取るのではなく、独立した第三者による再現検証を待つ姿勢が、私たちには必要でしょう。

「AIが医師を超えた」という見出しが各所で踊っていますが、これも文脈が重要です。人間の医師(43.7点)には時間制限もなくWebアクセスも許可されており、条件としては手厚い設定でした。それでもChatGPT for Clinicians(59.0点)が上回ったことは事実ですが、論文自体も「ベンチマークスコアは意図的に困難な条件下での測定であり、実臨床での平均的なパフォーマンスの代理指標ではない」と明記しています。スコア45%程度でも、日常的な臨床では高い性能を発揮し得るとされています。

技術的に特筆すべきは、単なる「賢いモデル」ではなくハーネス(ChatGPT for Cliniciansというシステム全体)の優位性が確認された点です。ベースのGPT-5.4(48.1点)に対し、ハーネスを組み合わせた場合は59.0点と約11点の差が生じました。この差は主に文書作成・記録領域(64.1 vs 34.6)で顕著であり、査読済み論文からのリアルタイム引用検索や、繰り返しタスクのテンプレート化(「スキル」機能)といったワークフロー統合の効果が数字として現れています。

ヘルスケア市場への参入という観点では、OpenAIが2026年の約4ヶ月間で消費者向け(ChatGPT Health)、個人臨床医向け(ChatGPT for Clinicians)、病院・企業向け(ChatGPT for Healthcare)という三層構造を一気に構築したことは、戦略的に見て極めて速いペースです。競合するAnthropicやGoogle、Microsoftも同分野に参入していますが、アメリカ医師会の2026年調査では米国医師の72%がすでにAIを臨床で使用しており(前年比48%から急増)、先行者優位の重要性は高まるばかりです。

一方でリスクも無視できません。2026年2月にMount Sinai(ラマスワミーら)がNature Medicineに発表したとされる独立評価では、ChatGPT Healthが重篤な緊急症例の52%を過小評価(undertriage)し、軽症例の35%を過大評価(overtriage)したという結果が報告されています。内部評価と独立評価の乖離は、AI全般に共通の課題です。さらに今回のChatGPT for Cliniciansは米国の認定資格保有者限定でスタートしており、日本を含むその他の国での展開は今後の課題として残されています。

規制の観点では、AIが臨床業務を補助するツールである以上、FDA(米国食品医薬品局)や各国の医療機器規制当局がこのカテゴリーをどう扱うかが今後の焦点になります。OpenAIはベンチマークをオープン公開することで業界標準の策定を主導しようとしており、これ自体が規制議論への先手とも読み取れます。

長期的な視点では、論文の「Future work」で述べられているように、次のフロンティアは数時間・数日に及ぶ複雑タスク——慢性疾患の管理支援やゲノムデータ解析——における評価です。今回のHealthBench Professionalは「チャット」という比較的短い対話を対象としていますが、AIが診療の深部にまで入り込む未来を見据えた布石として位置づけられます。医師を「置き換える」のではなく「増強する」という方向性が今は強調されていますが、その境界線がどこに引かれるのかは、技術だけでなく社会・倫理・規制の議論によって定まっていくでしょう。

【用語解説】

HealthBench Professional
OpenAIが2026年4月に公開した、臨床医向けAI評価のオープンベンチマーク。ケア相談・文書作成・医療リサーチの3領域で構成される525タスクを医師が作成し、3段階の審査を経て採点される。自社製品の評価に自社ベンチマークを用いている点が批判的に議論されている。

ルーブリック評価
各タスクに対して医師が個別に作成した採点基準(rubric)をもとに回答を評価する方式。各基準には−10〜+10の点値が設定されており、望ましくない回答にはマイナス点が課される。単純な正誤判定ではなく、回答の質を多面的に評価できる。

レッドチーミング(Red Teaming)
AIシステムの弱点や失敗モードを意図的に探り出すためのアドバーサリアル(敵対的)テスト手法。HealthBench Professionalでは約3分の1の例が医師によるレッドチーミングで構成されており、モデルの安全性と堅牢性を評価するために活用された。

CMEクレジット(継続医学教育クレジット)
医師が免許を維持するために米国で義務付けられている継続的な医学教育の単位。ChatGPT for Cliniciansでは、臨床的な文献レビューを実施することでCMEクレジットが自動的に付与される機能が搭載されている。

HIPAA(医療保険の相互運用性と説明責任に関する法律)
米国の医療情報プライバシーを規定する連邦法。患者の個人医療情報(PHI)の取り扱いに厳格な基準を設けており、医療AIツールがHIPAAに準拠するには業務提携契約(BAA)の締結が必要となる。

LLM(大規模言語モデル)
Large Language Modelの略。膨大なテキストデータで学習された大規模なAIモデルで、GPT-5.4やClaude Opus 4.7などが代表例。自然言語の理解・生成に優れ、医療分野ではケアの推論や文書作成支援への応用が進んでいる。

【参考リンク】

OpenAI 公式サイト(外部)
ChatGPTやGPT-5.4などのAIモデルを開発・提供する米国のAI企業。2026年にChatGPT Health、ChatGPT for Healthcare、ChatGPT for Cliniciansを相次いでリリース。

ChatGPT for Clinicians 発表ページ(OpenAI公式)(外部)
ChatGPT for Cliniciansの公式発表ページ。製品の特徴、HealthBench Professionalの概要、GPT-5.4の評価結果などが英語で説明されている。

HealthBench Professional 論文PDF(OpenAI公式)(外部)
設計・データ収集・スコアリング手法・評価結果を詳述した学術論文。525タスクの構成や医師ベースラインとの比較データが掲載されている。

アメリカ医師会(AMA)(外部)
米国最大の医師団体。2026年調査で米国医師の72%がAIを臨床で活用していることを報告。ChatGPT for Clinicians発表でOpenAIが引用した。

【参考記事】

OpenAI says its new ChatGPT for Clinicians outperforms doctors on clinical tasks even when they have unlimited time and web access(外部)
The Decoder。GPT-5.4が59.0点、人間医師が43.7点を記録。OpenAI自身がベンチマークを設計・評価した方法論上の問題点を明示的に指摘している。

OpenAI’s Healthcare Strategy in 2026: The Complete Breakdown(外部)
iatroX。OpenAIが約4ヶ月で構築した三層構造を体系的に解説。Mount SinaiのNature Medicine掲載独立評価についても報告している。

OpenAI launches free ChatGPT for U.S. Clinicians(外部)
GPT-5.4の59.0点を報告。AMAの2026年調査(医師のAI使用率72%、前年48%から増加)の数値を引用しており市場動向の把握に有用だ。

OpenAI launches ChatGPT for Clinicians, a free AI tool for physicians, NPs and pharmacists(外部)
Fierce Healthcare。ChatGPT for CliniciansがAbridge、OpenEvidenceなど既存競合とどう差別化されるかを分析した医療専門メディアの報道。

OpenAI says its ChatGPT for Doctors outperforms Humans in Clinical Tasks(外部)
Decrypt。自社ベンチマークで自社製品を評価した点への注意を前面に出しつつ、各モデルのスコアを整理して報告している。

【編集部後記】

「AIが医師を超えた」というニュースを、みなさんはどう受け取りましたか?私たちも最初は驚きましたが、読み込むほど「そのベンチマーク、誰が作ったの?」という問いが浮かびました。

技術の進化と、それを測る物差しの信頼性。この二つを同時に問い続けることが、これからのAI時代を生き抜くヒントになるかもしれません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です