Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

2026/4/24 23:482026/4/25 0:04

S Mukherjee 著 · 18 Dec 2025 · 被引用数: 29・NeurIPS 2026・University of Illinois

Reinforcement learning (RL) yields substantial improvements in large language models (LLMs) downstream task performance and alignment with human values. Surprisingly, such large gains result from...

https://arxiv.org/abs/2505.11711

NeurIPS

https://neurips.cc/virtual/2025/loc/san-diego/poster/120324

Focus

公開されている代表的なチェックポイントにおける、SFT 段階と RL 段階の累積勾配の比較

RL では更新されるパラメータ数が大幅に少ない可能性がある

RLがSFTよりも事前学習済みモデルの能力をよく保持するという、下記の知見を指示する

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation...

Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities...

https://arxiv.org/abs/2501.17161

Keyword

Parameter update sparsity

RL微調整で、全パラメータのうち一部だけが実質的に更新される現象。

更新スパース性の定義

は非ゼロ要素の数を数える

注意：

更新量がスパースであっても、微調整後のモデルがスパースであることを意味しない

💡

例：

とする。

全部の要素が非ゼロなので、密なベクトル

微調整後に、になったとする。

このとき差分は、になる。

つまり、変わったのは 1 要素だけである。この差分はスパースと言える。

ただし微調整後の自体は、なので、依然として密である。

Accumulated gradients（累積勾配）

各学習ステップで計算される勾配、またはそれを学習中に累積したもの

「どのパラメータに学習信号が来たか」を見る量

SFTとRLの更新密度の比較に使われる。

本論文では、学習中にどれくらい広く勾配・更新信号が発生したかを見るための補助的な観察に用いられる

💡

なぜ累積勾配の更新を見るの？パラメータの更新だけでよくない？

非ゼロ勾配を受け取るものの最終的には相殺されたケースを特定するため

一度は更新されたが最終的にはサブネットワーク外にある重み

PRIME では、72% のパラメータは一度も更新されず、8%は勾配が互いに打ち消し合い、20%は一貫して更新されるサブネットワークを構成している

その重みは accumulated gradients / training dynamics 上は動いたと言える一方で、最終的なparameter update（パラメータ更新）としては変わっていない

Gradient cancellation

途中で非ゼロ勾配を受けるが、正負の更新が打ち消し合い、最終的には差分が残りにくい現象。

Sparse subnetwork

RLによって更新される小さなパラメータ集合。

論文では全体の5〜30%程度とされる。

異なる RL アルゴリズムにおけるパラメータ更新スパース性

すべてのモデルで、RL後も少なくとも 68.5%、多くの場合はそれ以上のパラメータが変化しないまま
※ 数値精度の限界を考慮して、2つの bfloat16 値の絶対差がを超えない場合、それらを等しいものとして扱う

bfloat16 tolerance

bfloat16の数値誤差を考慮して、微小差分を同一とみなす許容誤差。

本論文では主にが使われる

Subnetwork finetuning

最終的に更新されたサブネットワークだけを再度微調整する実験設定。

フル微調整モデルに近い性能とパラメータ値を再現できる。

💡

活用例

更新すべきパラメータ集合を次のアブレーション研究で更新候補として使い回す

毎回フルモデルを更新して比較する代わりに、前回見つかった共通サブネットワークだけを更新する
共通サブネットワーク + 少し追加の候補だけを更新する
共通サブネットワークを除いた部分だけを更新して性能低下を見る

更新対象パラメータを探索するコストの節約

実行コストが高いRL手法（PPO）を実行する前にコストの低いRL手法で先に動きやすいパラメータ候補を見つけておく

通常のPPOでは、全パラメータに対して勾配を計算し、 optimizer state も持ち、どのパラメータが本当に効くかを結果的に学習中に発見する
しかし DPO で先に候補を見つけておけば、PPO では最初から、「このあたりだけ動かせば十分かも」という制約付きで学習できる

コストの高い方法ではその候補周辺だけを更新する

Lottery Ticket Hypothesis

大きなニューラルネットワークの中には、元の巨大モデル全体を使わなくても、単独で学習すれば同程度の性能を出せる「小さな当たりサブネットワーク」が埋まっているという仮説。

大きなネットワークの中に、単独で学習しても性能を出せる小さなサブネットワークが存在する

本論文はこれを RL微調整の文脈へ拡張している。

Low-rank update

更新が低次元部分空間に制約されること。

本論文では、RL の更新は低ランクではなく、スパースだがほぼフルランクとされる。

Full-rank update

更新行列が表現可能な空間をほぼ広く張っていること。

少数パラメータの更新でも、表現空間としては広い可能性を示す

RLの更新は低ランク部分空間に収まっているのではなく、パラメータ行列が表現できる部分空間のほぼ全体を張るようなパラメータの一部に局在している

RL finetuning

LLMの事前学習後に、強化学習で性能やアラインメントを改善する微調整。

PPO

RLHFの代表的な方策最適化アルゴリズム。

GRPO

DeepSeek系で使われるRLアルゴリズム。

DPO

報酬モデルを明示せず、選好データから直接方策を最適化する手法。

off-policy 的な比較対象として使われる。

論文では、Open-Instruct を用いて実装し、評価フレームワークとしてolmes.2 を用いる

olmes.2：

正式には OLMES = Open Language Model Evaluation System で、Allen Institute for AI が公開している、LLM を再現可能に評価するための仕組み

https://github.com/allenai/olmes/

PRIME

Process Reinforcement through Implicit Rewards

本論文で重要な実験対象で、72%未更新、8%相殺、20%一貫更新という分析に使われる

ORPO / KTO / SimPO

DPO系の選好最適化アルゴリズム。

いずれも更新スパース性の検証対象。

Learning from In-distribution

現在のモデルの方策分布に近い分布から得られたデータで学習すること

本論文では更新スパース性の主要因とされる。

RLのデータサンプリング方法	そのデータが現在の方策に近いか	理由
on-policy RL	基本的に in-distribution になりやすい	学習中の現在の方策 πθ\pi_\thetaπθ からサンプルを生成して学習するので、基本的には in-distribution になりやすい
off-policy RL	in-distribution の場合も out-of-distribution の場合もある	固定された外部データ、過去のモデルの生成、別モデルの出力、人間データなどを使うので、必ずしも in-distribution ではない

たとえばDPOのような off-policy は、RLの前に同じデータでSFTしておくと、モデルはそのデータ分布にすでに適応している。するとDPO時点では、データは現在の方策に近くなり、off-policyだがin-distributionに近いRLになる

逆に、SFT なしでいきなり現在の方策から遠い選好データに対してDPOを行うと、off-policyかつout-of-distributionになりやすく、その場合は論文では密な更新が起きたと報告されている

On-policy RL

学習中の現在の方策からサンプルを生成して学習する RL。PPO、GRPO、PRIME など。

in-distribution 学習になりやすい。

Off-policy RL

固定された外部データ、過去のモデルの生成、別モデルの出力、人間データなどを使うので、必ずしもin-distributionになるとは限らない。

ただし、そのデータが現在の方策分布に十分近ければ、off-policyでもin-distribution 的に振る舞うことがある

DPOやKTOの文脈で出てくる。

RFT / RAFT++

リジェクションサンプリングを用いた微調整（Rejection-sampling fine-tuning）

ベースモデル、または現在のモデルに複数回答を生成させる

正解判定器、報酬モデル、ルールなどで良い回答だけを残す

残した回答を教師データとしてSFTする

RAFT++ は反復的な RFT

Rejection sampling

生成候補の中から良いサンプルを選んで学習に使う手法。

in-distribution な SFT/RFT の要素として重要。

in-distribution データでの SFT でもスパース更新が起きることを示す対照実験としてリジェクションサンプリング微調整を実施。

out-of-distribution データで学習する→密な更新になる可能性が示された

Qwen/Qwen2.5-Math-7B に対してリジェクションサンプリングされた in-distribution データで SFT を行うと約 90.0% の更新スパース性が得られた

Out-of-distribution data

現在の方策分布から離れたデータ。

SFTや一部DPOで密な更新を生みやすい。

KL-divergence regularization（KL正則化）

方策が参照モデルから離れすぎないための正則化。方策の変化を制約する

本論文では、直観に反して、KL正則化の更新スパース性への影響は限定的とされる。

Reference policy / Reference model（参照モデル）

KL 正則化で比較対象となる基準モデル。

通常は事前学習済みモデルやSFTモデルを採用する。

Gradient clipping

勾配や更新量を制限して学習を安定化する手法。

こちらもKL正則化と同様に、直観に反して、スパース性の主因ではないとされる。

Update sparsity

微調整前後で変化しなかったパラメータの割合

DeepSeek v3 base：8Kステップを超える大規模学習を行っているにもかかわらず、86.0% の更新スパース性
同一モデルファミリー内では、より大きなモデルほど高いスパース性を示す傾向が観察された

更新スパース性が自然に生じることを示唆している

これらのモデルがいずれもスパース性を促す正則化手法や制約を用いず、フル微調整によって学習されているため

論文では bfloat16 の数値精度も考慮して測定

RL におけるパラメータ更新が、モデルの各層や個々のパラメータ行列（例：Q、K、V 射影）にどのように分布しているか

LayerNorm層だけは例外的にほとんど、あるいはまったく更新されない

比較的には、V, O, MLPが更新されやすい

LayerNorm（Layer Normalization）

Transformer内の正規化層。バッチサイズに依存せず、サンプルごとに特徴量（チャネル）方向で正規化を行う

本論文ではほとんど更新されない例外的なコンポーネントとして重要。

Subnetwork overlap

異なるシード、データ、アルゴリズムで得られたサブネットワーク同士の重なり。

サブネットワークが偶然ではなく、再利用可能な構造かを見るための指標

💡

片側重なり（片方のサブネットワークを基準にして、もう片方がどれだけその中身をカバーしているか）

で更新されたパラメータのうち、にも含まれているものの割合

で更新されたパラメータのうち、にも含まれているものの割合

および：同じベースモデルから出発して、異なる条件でRL微調整したときにそれぞれ更新されたパラメータのインデックス集合
：共通するサブネットワークの大きさ
および：モデルのスパース性
および：観測された重なり

たとえば、

が 100個の更新パラメータを持つ

と共通するものが60個ある

なら、

つまり「の 60% が にも含まれている」 という意味。

観測された重なり

初期化が変わっても、得られるサブネットワークはランダムベースラインを大きく上回る、かなりの重なりを示す

Random guessing baseline

ランダムに同じ数のパラメータを選んだ場合との比較基準。

サブネットワーク重なりの有意性を見るために用意されたベースライン。

「A が B にどれだけ含まれるか」と「B が A にどれだけ含まれるか」は別物

「片側」と呼ぶのは、分母をにするかにするかで値が変わるから。たとえばのサイズが大きい場合、は高くても、逆向きのは低くなることがある

Overview

✅

WHAT（これは何？）

大規模言語モデルに対する強化学習ベースの微調整において、全パラメータを更新可能にしているにもかかわらず、実際には全体の約 5〜30%程度から成るスパースなサブネットワークのみが実質的に更新される、という現象を実証的に示した研究

著者らはこの現象を RLによって誘発されるパラメータ更新スパース性 と位置づけ、PPO、GRPO、DPO、PRIMEなど複数のRLアルゴリズムおよび複数のLLMファミリーを観測している

さらに、更新されたサブネットワークのみを微調整しても、フル微調整モデルと同等の性能およびほぼ同一のパラメータ値が再現されることを示している

DPOおよびPRIMEで学習したとのテストセット性能。サブネットワークのみを学習したは、フル微調整したよりも高い性能を達成し得る。Lvl. はMATH500の難易度レベルを示す。

WHY（提案手法の価値は？）

本研究の価値はLLMのRL微調整における「どのパラメータが実際に学習に寄与しているのか」という問題に対し、経験的かつ定量的な証拠を与えた点にある

従来、RLによるポストトレーニングでは全パラメータを更新することが一般的であったが、本研究は、実際には大部分のパラメータが不活性なままであり、少数の一貫したサブネットワークが主要な役割を担っている可能性を示した

これにより、RL微調整の計算効率化、パラメータ凍結戦略、サブネットワーク再利用、より効率的な RL学習手法の設計に向けた実証的基盤を提供している

サブネットワーク微調整とフル微調整でDPOを学習した際の訓練損失。サブネットワークを単独で学習した場合、訓練損失は一貫して低くなる

Frozen parameters

学習中に更新しないよう固定されたパラメータ。

サブネットワーク外のパラメータを凍結しても性能が保たれる点が重要。

WHERE（技術のキモはどこ？）

本研究の核心は、RL微調整における更新が単に「少数の層」や「低ランク部分空間」に集中しているのではなく、ほぼすべてのパラメータ行列にわたってスパースに分布しつつ、その更新行列は多くの場合ほぼフルランクである、という点にある

RL微調整後の各モデルにおける更新行列の平均ランク。最大可能ランクに対する割合 → ほぼフルランク

すなわち、RL は少数のパラメータしか更新しない一方で、その更新はLoRAのような低ランク制約とは異なり、各行列が表現し得る空間の広い範囲に影響を及ぼし得る

LoRA

低ランク部分空間に更新を制約する、効率的なパラメータ微調整手法。

本論文のスパース更新は、LoRAのような低ランク更新とは異なり、スパースだがフルランクに近い

また、このスパース性の主因として、方策分布に近いin-distributionデータで学習していることが示唆され、KL正則化や勾配クリッピングの影響は限定的であると分析されている