概要

AlibabaのQwenチームは、強化学習における報酬配分を改善する新アルゴリズム「FIPO(Future-KL Influenced Policy Optimization)」を開発した。このアルゴリズムは、推論モデルの「思考チェーン」が一定の長さで頭打ちになるという既存手法の根本的な限界に対処するもので、Qwen2.5-32Bモデルでの検証において応答長を約4,000トークンから10,000トークン以上に拡張し、数学ベンチマークの精度も大幅に向上させた。

FIPOのしくみ

従来のGRPOなどの強化学習手法では、生成されたシーケンス内のすべてのトークンに対して同一の報酬が付与されるため、モデルがより深い推論を行うインセンティブが生まれにくかった。FIPOはこの問題を「先読み」アプローチで解決する。具体的には、あるトークンを生成した後にモデルの挙動がどのように変化するかを追跡し、後続トークンにわたる累積的な確率変化を計算することで、生産的な推論チェーンを開始するトークンには大きな報酬を、行き詰まりにつながるトークンには小さな報酬を配分する。

また、従来の一部手法が必要とする補助的な価値モデルを使用しない設計となっており、事前学習データによる汚染を回避しながらも同等の性能を維持している。

ベンチマーク結果と特記すべき挙動

Qwen2.5-32Bでの実験では、以下の改善が確認された。

  • 応答長: 約4,000トークンから10,000トークン以上へ拡張
  • AIME 2024精度: 50%から56%に向上(訓練中のピーク時には58%を記録)
  • AIME 2025精度: 38%から43%に向上

特筆すべきは、FIPOで訓練されたモデルが自発的に「検証行動」を獲得した点だ。異なる解法を切り替えながら答えを相互確認する挙動はOpenAIのoシリーズモデルの特徴と類似しているが、FIPOでは純粋な強化学習によって達成されている。

今後の展望と課題

現時点での検証は数学問題の単一データセットおよびlong chain-of-thought事前学習なしのベースモデルに限定されており、コーディングなど他の領域への汎化については未検討の状態だ。Qwenチームはシステムをオープンソース化する計画を示しており、補助的な価値モデルなしで推論性能を高めるこのアプローチが広く活用されることが期待される。