AIエージェントはPhD科学者の半分しか正解できない——Stanford AI Index 2026が示す能力の壁

概要

スタンフォード大学の人間中心AI研究所（Stanford HAI）が2026年4月13日に公開した「AI Index Report 2026」は、AIエージェントの科学的タスク処理能力に関する包括的な評価をまとめたレポートで、Nature誌でも取り上げられた。その中心的な発見として、複数ステップを要する複雑な科学的ワークフローにおいて、GPT・Claude・Geminiを含む最先端AIエージェントのスコアは、博士号（PhD）を持つ人間科学者の約半分にとどまるという結果が示された。自律的に作業を進めるAIエージェントへの期待が業界全体で高まる中、このレポートはその能力に対して冷静な疑問符を突きつける形となった。

ベンチマークが示す「凸凹のフロンティア」

レポートが明らかにしたのは、AIの能力が一様ではなく「ジャギー（凸凹）なフロンティア」を形成しているという実態だ。狭い専門タスクではAIが顕著な進歩を見せている一方で、複雑な推論と検証を要する科学的作業では依然として大きな差が残る。

具体的なベンチマーク結果を見ると、AIエージェントが独自に科学的調査を設計・実行するDiscoveryWorldでは、難易度の高いタスクで最良のAIシステムが完了できるのはおよそ20%に過ぎないのに対し、人間の科学者は約70%をクリアする。また、天体物理学の論文再現を試みるReplicationBenchでは最高スコアでも20%を下回り、科学論文レベルの複雑な作業はほとんど手に負えないことが浮き彫りになった。さらに特徴的な例として、アナログ時計の読み取り（ClockBench）では人間の90.1%に対しAIは50.1%という結果が出ており、抽象的な数学や競技プログラミングでは人間を凌駕するモデルが、一見単純な知覚タスクで大きく失敗するという逆説が示された。

一方で化学分野（ChemBench）では平均的な人間化学者を上回るという結果もあり、AIの強みが狭く限定的なことも改めて確認された。

なぜ複雑なタスクで失敗するのか

複雑な科学タスクでAIエージェントが苦手とする理由として、レポートは主に三つの問題点を指摘する。第一に、複数の推論ステップを連続して正確に実行することの難しさだ。実験設計から文献調査、データ解析、結果検証まで六つ以上のステップが絡み合うタスクでは、途中の一つのミスが全体の失敗につながるが、現状のAIエージェントはこの連鎖を安定して維持できない。第二に、自身の誤りに気づく能力の欠如だ。AIはしばしば誤った結論を高い確信度で提示し、それを確認・修正する判断力を持たない。第三に、判断と検証を必要とする複合的なタスクへの対応力の低さだ。これらの弱点は、AIが「教科書の知識を答える」ことと「科学的手法で新発見を行う」ことの間にある本質的な溝を示している。

ScienceAgentBenchはこの問題をより精密に測るために設計されたベンチマークの一例で、生物情報学・計算化学・地理情報科学・心理神経科学の4分野にわたる44本の査読済み論文から抽出した102タスクで構成される。エージェントはPythonプログラムをゼロから生成し、実際の科学的データを処理することが求められる。

AIが科学に与える影響とその限界

レポートが描き出すのは複雑な二面性だ。AIツールを活用した科学者はそうでない科学者と比較して論文出版数が3倍、被引用数が約5倍に増加し、プロジェクトリーダーへの昇進も1.37年早まるというデータがある一方で、研究テーマが既存の知識体系の周辺に収束していく「科学の焦点縮小」という副作用も報告されている。つまり、AIは個々の研究者の生産性を高めるが、科学全体の多様性や探索範囲を狭める可能性があるという逆説だ。

自然科学の論文でAIに言及しているものはまだ全体の6〜9%程度にとどまり、AIが科学研究を根本的に変革するという予測は、少なくとも現時点ではデータに裏付けられていない。AIエージェントを使って研究を丸ごと自動化するというビジョンは、現在の技術の限界から見て時期尚早であり、有効な活用法は今のところ「優秀な研究者とAIツールのペアリング」という補完的な形にとどまる、とレポートは結論づけている。

概要#

ベンチマークが示す「凸凹のフロンティア」#

なぜ複雑なタスクで失敗するのか#

AIが科学に与える影響とその限界#

概要

ベンチマークが示す「凸凹のフロンティア」

なぜ複雑なタスクで失敗するのか

AIが科学に与える影響とその限界