概要

MITのComputer Science and Artificial Intelligence Laboratory(CSAIL)の研究チームは、マックス・プランク研究所などとの共同研究により、AIモデルを訓練中に圧縮する新手法「CompreSSM」を開発した。従来のモデル圧縮は訓練完了後に実施する「剪定(pruning)」や、大規模モデルの知識を小型モデルへ移転する「知識蒸留」が主流だったが、どちらも全訓練コストを負担したうえで追加の処理が必要だった。CompreSSMはこの課題を根本的に覆し、訓練を進めながら不要な成分を逐次除去することで、計算コストそのものを削減する。

技術的な仕組み

CompreSSMは制御理論の数学的手法を応用し、Hankel特異値という指標を用いて状態空間モデル(SSM)の各成分の重要度を評価する。研究チームは、訓練開始からわずか10%の段階で成分の重要度ランキングが安定することを実証した。これにより、残り90%の訓練ステップでは不要成分を除去した小型モデルで学習を続けられるため、大幅な高速化が可能になる。また研究チームは、訓練中に成分の重要度が滑らかに変化することを数学的に証明しており、早期の圧縮判断に理論的な裏付けを与えている。

ベンチマーク結果

CIFAR-10画像分類タスクでは、圧縮モデルが精度をほぼ維持しながら1.5倍の高速訓練を達成した。さらに注目すべきは精度面で、元モデルの約1/4のサイズに圧縮したモデルが85.7%の精度を記録したのに対し、最初から同サイズで訓練したモデルは81.8%にとどまった。Mambaアーキテクチャへの適用では、128次元から12次元への圧縮でも性能を維持しつつ、約4倍の訓練高速化を実現している。既存手法との比較でも、Hankelニュークリアノルム正則化より40倍高速で、知識蒸留より高い精度を示した。

適用範囲と今後の展望

現時点でCompreSSMは、言語処理・音声生成・ロボティクスなどで活用される状態空間モデルを対象とし、多入力多出力(MIMO)モデルで特に効果を発揮する。一方、単一入力・単一出力モデルへの適用効果は限定的である。今後の研究の方向性としては、線形注意機構で用いられる行列値動的システムへの拡張や、Transformerアーキテクチャへの応用が見据えられている。大規模AIモデルの訓練に伴うエネルギー・計算コストが社会的課題となる中、訓練プロセス自体を効率化するCompreSSMのアプローチは、持続可能なAI開発に向けた重要な一歩として注目される。