概要
Harvard医科大学とBeth Israel Deaconess Medical Centerの研究チームが科学誌Scienceに発表した研究で、OpenAIの推論モデル「o1」が実際の救急患者の診断において熟練した内科医2名を上回る精度を示したことが明らかになった。この研究ではボストンの救急病院で実際に診察した76名の患者を対象に、AIモデルと医師の診断を比較。特筆すべきは、AIが整形されたデータセットではなく、電子カルテから生のまま抽出した未加工の実臨床データを使用して評価された点にある。
初期トリアージ段階での診断精度は、o1モデルが67%(正確または非常に近い診断)を達成したのに対し、比較対象の医師1は55%、医師2は50%にとどまった。主任著者のArjun Manrai氏は「あらゆるベンチマークでAIモデルをテストしたが、過去のモデルと医師の両方を上回った」と述べている。
研究の背景と意義
この研究が注目を集める理由のひとつは、従来の医療AIの評価手法を超えた試みにある。共著者のPeter Brodeur氏は「以前はモデルを多肢選択問題で評価していたが、今や常に100%近いスコアを出しており、ベンチマークはすでに天井に達している」と指摘した。この「天井問題」はStanford AIインデックス2026でも裏付けられており、「Humanity’s Last Exam」ベンチマークでは2025年の8.8%から38.3%へと急速に精度が向上し、Claude Opus 4.6のようなトップモデルでは50%を超えている。AIの能力進化のペースは、評価指標自体が追いつかないほど速くなっていることを示している。
医療AI全体の文脈でも進歩は著しい。Stanford AIインデックス2026によると、AI駆動の創薬に関する論文は2年間で2倍以上に増加し、医療画像とテキストを組み合わせたマルチモーダルな生物医学AIに関する論文数は2年前比で2.7倍に達している。
限界と批判的見解
研究チームは成果の重要性を認めつつも、「AIが実際の生死に関わる判断を下す準備ができているとは主張しない」と明示し、実際の患者ケアにおける前向き試験の必要性を訴えている。また研究では、AIモデルが不必要な検査を提案し患者に害を与える可能性があることも指摘されている。さらに別の研究では、治療に消極的だった医師の67%がAIの提案を受けて方針を変更したことが報告されており、医師の判断に対するAIの過度な影響力への懸念も浮上している。
救急医のKristen Panthagani氏はこの比較設計に疑問を呈し、内科医は適切な比較対象ではないと批判した。救急医は最終診断を推測するのではなく、生命を脅かす状態の識別を優先するためだという。AIの高い診断精度が即座に臨床現場への導入を意味するわけではなく、適切な評価枠組みとガバナンスの整備が今後の課題となっている。