Icahn School of Medicine at Mount Sinaiの研究チームは、OpenAIが2026年1月にローンチした消費者向けAI健康ツール「ChatGPT Health」の初の独立安全性評価を実施した。この研究は2026年2月23日付のNature Medicineオンライン版に掲載された。研究チームは21の診療科にわたる60の臨床シナリオを作成し、人種・性別・社会的要因など16の条件下で計960回のやり取りを行い、3名の独立した医師のコンセンサスと比較した。その結果、医師が救急医療を必要と判定したケースの52%以上でChatGPT Healthはトリアージの緊急度を過小評価していた。脳卒中や重度のアレルギー反応など教科書的な緊急事態には正しく対応した一方、危険がすぐには明らかでないケースでは判断に失敗した。また、自殺危機の警告機能は臨床リスクに対して逆転しており、低リスクのシナリオで発動し、具体的な自傷計画が示された場合には発動しないことがあった。OpenAIはリリース数週間以内に約4,000万人が毎日同ツールを使用していると報告していた。
From:
Research Uncovers AI Triage Blind Spots | Mirage News
【編集部解説】
この研究は、AIが医療の「入り口」として機能し始めた現実に対し、学術的に初めてブレーキをかけた重要な論文です。
OpenAIが2026年1月7日にChatGPT Healthを発表した際、同社は医師との2年間にわたる共同開発、260名以上の医師による60カ国でのフィードバック、専用の暗号化空間による健康データの隔離など、安全性への配慮を全面に打ち出していました。Apple Health、MyFitnessPal、電子健康記録との連携機能を備え、単なるチャットボットではなく「パーソナルヘルスアシスタント」として位置づけられたこのツールは、ローンチからわずか数週間で毎日約4,000万人が利用するまでに急成長しました。
しかし今回の研究が示したのは、このツールの判断が最も危険になるのが「臨床上の両極端」、つまり緊急性が最も高い場面と最も低い場面だという事実です。論文のアブストラクトによれば、性能は「逆U字型」のパターンを示し、救急ケースの48%、非緊急ケースの35%で誤ったトリアージが発生しました。糖尿病性ケトアシドーシスや差し迫った呼吸不全のような重篤な状態の患者に対し、救急外来ではなく「24〜48時間以内の受診」を推奨するケースがあったことは、見過ごせない問題と言えます。
さらに注目すべきは「アンカリングバイアス」の影響です。家族や友人が症状を軽視するような文脈を加えた場合、判断境界上のケースでトリアージの推奨が大きく変動し、そのオッズ比は11.7(95%信頼区間 3.7-36.6)に達しました。変動の大半は、より緊急度の低い方向へのシフトでした。これは、AIが周囲の人間の「大丈夫だよ」という言葉に引きずられて判断を甘くするという、極めて人間的な弱点を持っていることを意味します。
自殺リスクに関するセーフガードの逆転現象も深刻です。具体的な自傷手段を述べたケースよりも、手段を述べていないケースの方が危機介入メッセージが発動しやすかったという結果は、臨床現場の常識とは正反対の動作です。精神医学では、具体的な手段を語ることが差し迫った危険のサインとされており、この逆転は人命に直接関わる欠陥と位置づけられます。
一方で、人種、性別、保険の有無といった社会的要因による統計的に有意な差は検出されませんでした。ただし、研究者らは信頼区間が臨床的に意味のある差を排除できていないことも明記しており、バイアスの不在が確認されたわけではない点には留意が必要です。
この研究のタイミングも重要です。2026年1月21日に発表されたECRI(独立非営利の患者安全機関)の年次報告書は、医療におけるAIチャットボットの誤用を2026年の「最も重大な医療テクノロジーの危険性」の第1位に挙げていました。ECRIは、これらのツールが医療機器として規制されておらず、医療目的で検証もされていないにもかかわらず、臨床現場と消費者の双方で急速に普及していると指摘しています。今回のMount Sinaiの研究は、その警告を具体的なデータで裏付けた形になります。
重要な点として、OpenAI自身がChatGPT Healthの利用規約で「診断や治療を目的としたものではない」と明記していることが挙げられます。しかし現実には、毎週2億3,000万人以上がChatGPTに健康関連の質問をしているとOpenAI自身が報告しており、ユーザーの利用実態と製品の設計意図との間に大きな乖離が生じています。
今後の課題は明確です。AIヘルスツールが「医療機器」として規制の対象になるのか、それとも「情報提供ツール」として現行の自主規制の枠内にとどまるのか。この線引きは各国の規制当局にとって避けられない論点となるでしょう。欧州経済領域、スイス、英国でChatGPT Healthが未展開である背景にも、こうした規制上の懸念が反映されているとみられます。
研究チームが今後、小児医療、薬剤安全性、非英語環境での評価へと研究を拡大する計画であることは、この問題がChatGPT Healthだけにとどまらない、AI医療アシスタント全体の課題であることを示唆しています。AIモデルは頻繁に更新されるため、ある時点の評価結果がそのまま持続するとは限りません。だからこそ、継続的かつ独立した第三者評価の仕組みが不可欠になります。
【用語解説】
トリアージ(Triage)
患者の症状の緊急度に応じて、治療の優先順位を決定するプロセス。救急医療の現場で広く用いられる。本研究では、AIが患者を「自宅療養」「24〜48時間以内の受診」「救急外来」などのどのレベルに振り分けるかを評価している。
アンダートリアージ(Under-triage)
トリアージにおいて、本来はより高い緊急度で対応すべき患者を、低い緊急度に分類してしまうこと。治療の遅れや重篤化につながるリスクがある。
アンカリングバイアス(Anchoring Bias)
最初に提示された情報に判断が引きずられる認知バイアスの一種。本研究では、家族や友人が症状を軽視する発言を含めた場合に、AIのトリアージ判断が緊急度の低い方向へ大きくシフトする現象として確認された。
逆U字型パターン(Inverted U-shaped pattern)
中程度の緊急度では比較的正確に判断できるが、緊急度が極めて高い場合と極めて低い場合の両端で誤りが集中するという性能の分布パターン。
糖尿病性ケトアシドーシス(Diabetic Ketoacidosis)
糖尿病の急性合併症の一つで、インスリン不足により血中のケトン体が異常に増加し、血液が酸性に傾く状態。早急な治療が必要な救急疾患である。
988 Suicide and Crisis Lifeline
米国の自殺・危機相談ホットライン。電話番号「988」をダイヤルまたはテキスト送信することで、24時間365日、訓練を受けた相談員に接続される。
オッズ比(OR: Odds Ratio)
ある要因が結果に与える影響の大きさを示す統計指標。1.0を超えると影響が正の方向に、下回ると負の方向にあることを示す。本研究でアンカリングバイアスのOR 11.7は、症状を軽視する文脈があると判断が大きく変動することを意味する。
【参考リンク】
OpenAI ChatGPT Health公式ページ(外部)
OpenAIが2026年1月7日に発表した消費者向け健康AI機能の紹介ページ。連携機能やプライバシー保護の仕組みを説明。
Icahn School of Medicine at Mount Sinai(外部)
本研究を実施したニューヨークの医学部。Mount Sinai Health Systemに属し、AI・デジタルヘルス研究で先駆的。
Nature Medicine(外部)
Springer Natureが発行する査読付き医学誌。臨床医学および生物医学研究における世界トップクラスのジャーナル。
ECRI(患者安全機関)(外部)
独立非営利の医療技術安全評価機関。毎年発表する「Top 10 Health Technology Hazards」は医療業界で広く参照される。
Windreich Department of AI and Human Health(Mount Sinai)(外部)
米国の医学部初のAI・人間健康学部門。本研究の上席著者ギリシュ・N・ナドカルニ氏が率いる。
【参考記事】
ChatGPT Health performance in a structured test of triage recommendations — Nature Medicine(外部)
本研究の原著論文。救急ケースの52%でアンダートリアージ、アンカリングバイアスのOR 11.7等を報告。
ChatGPT Health Fails To Spot 52% Of Medical Emergencies In Study — Dataconomy(外部)
ECRIの年次報告との関連にも言及し、ChatGPT Healthのトリアージ問題を多角的に報じた記事。
Misuse of AI chatbots tops annual list of health technology hazards — ECRI(外部)
2026年1月発表。AIチャットボットの医療誤用を最大の危険性第1位に挙げた年次報告の公式発表。
OpenAI launches ChatGPT Health to connect user medical records — CNBC(外部)
ChatGPT Healthのローンチを報道。健康データの暗号化・隔離や診断目的ではない位置づけなどを詳述。
OpenAI unveils ChatGPT Health, says 230 million users ask about health each week — TechCrunch(外部)
毎週2億3,000万人以上が健康関連質問をしているデータを紹介。LLMの仕組みと限界を指摘。
Mount Sinai researchers raise safety concerns about ChatGPT Health — Becker’s Hospital Review(外部)
研究の概要を医療業界向けに報じた記事。継続的評価の必要性を求める研究者らの見解をまとめている。
【編集部後記】
AIに健康の相談をしたことはありますか? 深夜に体調が急変したとき、病院に行くべきか迷ったとき、つい手元のスマートフォンに頼りたくなる気持ちは、きっと多くの方に覚えがあるのではないでしょうか。今回の研究は、その「頼り方」を私たち自身が考え直すきっかけを与えてくれます。AIが得意なこと、まだ苦手なこと。その境界線を知っておくことが、テクノロジーと上手に付き合う第一歩なのかもしれません。
