概要

RubyコミッターのYusuke Endoh氏が、Claude Codeを対象とした13言語にわたる大規模ベンチマーク(計600回以上の実行)の結果を公開した。簡略化したGit実装をAIエージェントに開発させるという手法で、言語ごとのコストと速度を比較した結果、動的言語が静的型付け言語を大きく上回ることが示された。

最も優秀だったのはRuby(1回あたり$0.36、73.1秒)で、Python($0.38、74.6秒)、JavaScript($0.39、81.1秒)が続いた。これら3言語はいずれも全テストを安定してパスし、40回の実行を通じて分散も小さかった。一方、静的型付け言語は動的言語と比べて「1.4〜2.6倍遅くコスト高」であることが確認された。

ベンチマークの設計と技術的詳細

ベンチマークはv1・v2の2フェーズで構成され、各言語20回ずつ実行された。言語レベルの差異を正確に測定するためカスタムハッシュアルゴリズムを採用し、実装規模は約200行程度のプロトタイピングスケールとして設計された。

静的型付け言語の中ではGoが平均$0.50と比較的コンパクトだったが、標準偏差37秒と分散が大きかった。Rustは平均$0.54で最も広いスプレッドを示し(標準偏差54.8秒)、全言語中テスト失敗が2件のみと品質面では健闘した。Cは最もコストが高く平均$0.74で、生成コード量もRubyの219行に対し517行と大幅に多かった。

型チェッカーの影響

注目すべきは、型チェッカーを追加した場合にさらなる速度低下が観測された点だ。PythonにMyPyを適用すると1.6〜1.7倍、RubyにSteepを適用すると2.0〜3.2倍の速度低下が生じた。TypeScriptとJavaScriptの比較でも、$0.62対$0.39と大きな差が出ており、厳密な型チェックがAIエージェントの試行錯誤コストを著しく増加させることが示唆された。

考察と限界

Endoh氏は自身の限界も率直に認めており、約200行規模のプロトタイピングコードに基づく結果であること、自身がRubyコミッターであることによる潜在的バイアス、そして大規模コードベースでは静的型付けの利点が逆に有利に働く可能性を指摘している。AIコーディングエージェントが主流になりつつある現在、言語選択の基準として「型の厳密さ」が必ずしも効率につながらないという新たな視点を提供する研究として注目される。