概要

Caltech発のAIスタートアップPrismMLが、1ビット量子化の大規模言語モデル「Bonsai 8B」を発表した。同モデルはわずか1.15GBのメモリで動作し、通常の8Bパラメータモデルと競合するパフォーマンスを実現する。標準的なフルプレシジョンモデルと比較して「14倍小型・8倍高速・5倍省エネルギー」を達成しており、「従来モデル比10倍以上のインテリジェンス密度」を誇るという。Apache 2.0ライセンスで公開されており、Bonsai 8B、4B、1.7Bの3バリアントが用意されている。

技術的アプローチ

Bonsai 8Bの核心となる技術は、従来の16ビットや32ビット浮動小数点数の重みを使わず、「各重みを符号({−1, +1})のみで表現し、重みのグループごとに共有スケールファクターを保持する」という極端な量子化手法だ。CEOのBabak Hassibi氏は「推論能力を損なわずにネットワークを圧縮するための数学理論の開発に数年を費やした」と述べており、従来の低ビット量子化で問題となっていた命令追従の不正確さや推論の不安定さを克服したとしている。

エッジデバイスへの実用展開

Bonsai 8BはAppleデバイス上でMLXを通じてネイティブ動作し、NvidiaのGPUではllama.cppを介して実行できる。ターゲット用途としてはオンデバイスアプリケーション、ロボティクス、エンタープライズシステムが挙げられており、クラウドへの依存を不要とするAIの民主化を目指している。1ビットLLMはネットワーク帯域やサーバーコストを削減し、プライバシーの観点からも優れたオフライン推論を実現する可能性を持つ。