Moonshot AI、1兆パラメータのKimi K2.6をオープンソース公開 — SWE-Bench ProでGPT-5.4を超える性能
概要 中国のAIスタートアップMoonshot AIは、新たな大規模言語モデル「Kimi K2.6」をHugging Face上でオープンソース公開した。本モデルはMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数1兆個ながらトークンごとにアクティブになるのは32Bに絞られており、推論コストの効率化と高い表現力を両立している。ライセンスはModified MIT Licenseで提供され、vLLM・SGLang・KTransformersといった代表的な推論フレームワークに対応している。 ベンチマーク性能 Kimi K2.6はエージェント型タスクに特化したベンチマークで突出した成績を示している。ソフトウェアエンジニアリング評価のSWE-Bench Proでは58.6を記録し、OpenAIのGPT-5.4(57.7)を上回った。また、ツール利用を含むHumanity’s Last Examでは54.0を達成し、GPT-5.4(52.1)をはじめ比較対象の全モデルをリードする。コーディング能力を測るLiveCodeBenchでも89.6となり、Claude Opus 4.6(88.8)を僅差で超えている。 アーキテクチャとエージェントスウォーム機能 モデルは384エキスパートを持ち、推論時には8エキスパートと1つの共有エキスパートが選択される構造を採る。コンテキスト長は256Kトークンで、400MパラメータのMoonViTビジョンエンコーダーによるネイティブなマルチモーダル処理にも対応している。 特に注目されるのがエージェントスウォーム機能の大幅な拡張だ。前バージョンK2.5の制約を超え、最大300のサブエージェントが4,000ステップにわたって協調動作できるようになった。さらに、ドキュメントを構造・スタイルのパターンを保持した再利用可能な「Skills」に変換する仕組みも備わっており、繰り返し発生するワークフローの自動化を効率化する。 実タスクでの性能実証 Moonshot AIは自律コーディングの実証事例として、金融マッチングエンジンの最適化タスクを公開した。Kimi K2.6は13時間にわたる自律実行を通じて、中間スループットを185%、パフォーマンススループットを133%向上させることに成功しており、長時間・多段階の現実的なエンジニアリングタスクにおける有効性を示している。 今後の展望 Kimi K2.6の公開は、大規模MoEモデルのオープンソース化という流れをさらに加速させるものであり、高コストな独自クローズドモデルと競合する性能を持つモデルを誰でも自由に利用・改良できる環境の整備が進んでいる。エージェント的なタスク実行能力に強みを持つ本モデルが、ソフトウェア開発自動化や長時間タスクのオーケストレーションといった分野でどのように活用されるか注目される。