概要
Googleは、LLM(大規模言語モデル)を活用して統合テストの失敗を自動的に診断するシステム「Auto-Diagnose」を発表した。同システムは、テスト失敗時の非構造化ログを解析し、障害の根本原因を特定した上で、開発者にとって分かりやすいサマリーを生成する。Googleの社内コードレビュープラットフォームである「Critique」に統合されており、開発ワークフローの中でリアルタイムに診断結果を提供できる点が特徴だ。
2万2,962人の開発者によるコード変更を対象に実運用されており、5万2,635件にのぼる固有の失敗テストへの適用実績を持つ。71件の実際の障害を対象とした手動評価では、根本原因の特定精度が90.14%に達しており、実用レベルの高い精度を示している。
技術的な仕組みと評価結果
Auto-Diagnoseは、テスト失敗時に生成される複雑なログデータをLLMに入力し、重要なログ行を抽出・要約することで根本原因を特定する。Critiqueへの統合により、開発者はコードレビューの画面上で診断結果を直接確認でき、障害調査に費やす時間を大幅に削減できる。
ユーザー満足度の面でも高い評価を得ており、「役に立たない(Not helpful)」と評価された割合はわずか5.8%に留まった。また、Critique上で診断結果を投稿する370のツールの中で14位にランクインしており、実際の開発現場における信頼性の高さが裏付けられている。
意義と今後の展望
本研究は、LLMが複雑なテキストデータの診断タスクに有効であることを実運用規模で実証した点で意義深い。従来、統合テストの失敗原因の特定は開発者にとって時間と労力を要する作業であったが、Auto-Diagnoseはその負担を大幅に軽減する可能性を示している。AI診断ツールをコードレビューフローに直接組み込むことで、開発者の採用障壁を下げつつ高い精度を維持するというアプローチは、大規模なソフトウェア開発組織における生産性向上の新たなモデルとなり得る。