事前訓練されたTransformerにおける 創発的モジュール性 : Emergent Modularity in Pre-trained Transformers
Title
Emergent Modularity in Pre-trained Transformers
Z Zhang著・30 Oct 2023・ACL2023・Tsinghua University・Renmin University of China
Code
Modularity-Analysis
thunlp • Updated Feb 16, 2025
Keyword
Mixture-of-Experts(MoE)
- ニューロンをエキスパートに分割し、入力に応じて異なるエキスパートを活性化させることで、モデルの容量を拡大し、モジュール性を実現する仕組み
- 入力に応じて選択的に活性化されるニューロンのグループのこと
Sparse MoE
- 通常、計算効率を維持しながらTransformerのモデル容量を拡大する目的で用いられる
- 与えられた入力に対して、条件付きでエキスパートのサブセットを選択して入力を処理し、これらのエキスパートの出力を組み合わせて最終的な出力を生成する
- 一方、モジュール型Transformerを実装する目的でも用いられる
- エキスパートネットワークのモジュール化を確実にするために、事前学習中に追加の制約を明示的に設計する
モジュール性
- システムが独立した機能を持つ小さな構成要素(モジュール)に分割され、それぞれのモジュールが特定の役割を担い、相互に連携することでシステム全体として複雑な機能を実現する性質
- 以下のような特徴を持つ構造
- 機能の分割、専門化、相互作用、独立性、再利用性など
Overview
WHAT(これは何?)
- 事前学習されたTransformerにおいて機能的に特化したニューロンが自然とモジュール構造を形成していることを検証し、人間の脳との類似性から、モジュール性の2つの主要な特徴を考察した論文
- ニューロンの機能的特殊化
- 各ニューロンは主に特定の機能に特化する
- 機能に基づくニューロンのグループ化
- 同じ機能を持つニューロンは局所的な領域に集まっており、各機能は特定の領域に依存する
WHY(研究の価値は?)
- 先行研究
- FFN層のニューロンから、概念、事実、タスク能力などの様々な符号化された情報が発見されている
- 本研究の方針
- FFN層のニューロンがモジュール構造を形成するためにどのように組織化されているかを研究し、新しい解釈の視点を提供したい
- MoE構造を分析することがTransformerのモジュール構造を分析する上での有望なアプローチと考える
- 本研究の発見
- 事前学習済みTransformerにモジュール性分析を拡張し、モジュール性の出現を実証した
- 特定の機能に特化したニューロンが集まる機能的エキスパートが存在する
- 機能的エキスパートの活性化を妨げると、対応する機能に大きな影響を与える
- 事前学習中にモジュール性がどのように出現するかを研究し、モジュール構造がニューロンの安定化よりも早い初期段階で安定することを発見した
- Transformerは、まず粗いモジュール構造を構築し、その後で細かいニューロン機能を学習することを示唆
- 将来の研究への影響
- 事前学習済みTransformerのモジュール性の出現の実証は、MoE構造の合理性を実証した
- 事前学習済みTransformerのモジュール構造の発見により、異なるアーキテクチャ同士でも、モジュールの組み合わせに基づいたモデルフュージョンの可能性を示唆
- 従来、異なるアーキテクチャ同士の場合、重み平均によるモデルフュージョンが不可能だった
- 脳領域とTransformerモジュールの関連性の探求
- 現在、事前学習済みTransformerは脳信号の予測に強力な能力を示している
WHERE(研究のキモはどこ?)
Transformerパラメータの約3分の2を占めるFeed Forward Network(FFN)= 2層MLPのニューロンを研究
- 単一のFFN方程式
- :重み行列
- :バイアスベクトル
- :入力と出力の次元
- :中間隠れ状態の次元
- :活性化関数
- 単一のFFN方程式を以下に書き換える(バイアスは省略)
- :ニューロンのインデックス
- :のi番目の行。ニューロンへの入力の重み
- :のi番目の列。ニューロンからの出力の重み
- ニューロン:行ベクトルと列ベクトルで指定
- :ニューロンの活性化
- FFN内のニューロン数は中間隠れ次元に等しい
- Sparse MoEは複数のFFNからなるFFNの変種
- MoE層は複数のエキスパート(FFN)で構成されている
- MoE層の出力は、全てのエキスパートの出力の重み付き和に当たる
- :エキスパートのインデックス(FFNの集合なので、単一のFFNより次元が一つ増える)
- :ゲーティング重み。非負で、のスケーリング係数に当たる
- エキスパートの数(E)を増やすと、それに比例して重み行列 と の数が増加する
Transformerにおけるニューロンとエキスパートの機能性を分析する新しい枠組みを提案
- ニューロンが、各サブ機能のパターンを捉える能力を評価する
Semantic Function 意味機能
- 入力テキストの意味を理解する能力
- 各語義について100文をランダムに選択
- 単語の語義のペアについて、一方の語義を持つ文を正例、もう一方の語義を持つ文を負例としてラベル付けしたデータセットを用意
- 例:bankの二つの語義(銀行, 土手)に対しそれぞれ文を用意し、一方を正例、もう一方を負例とする
- 意味的サブ機能
- 単語の2つの語義を二値分類する
Knowledge Function 知識機能
- 事実的知識を記憶する能力
- Wikidataからサンプリングしたfactual triples 事実トリプル(「主語(Subject)、述語(Predicate)、目的語(Object)」の3つの要素で構成される、事実を表す構造)を正例として用意し、さらに、それらの主語または目的語エンティティをランダムに置き換えた負例も用意
- 知識サブ機能
- トリプルが正しいかどうかを二値(真理値)で識別する
Task Function タスク機能
- 下流タスクを実行する能力
- 文章がポジティブまたはネガティブな感情を含んでいるか、2つの文が互いに言い換えの関係にあるか、前提と結論が論理的に矛盾しないか、文法的に正しいかなど、複数の分類データセットを用意
- タスクサブ機能
- それぞれのタスクについて二値分類する
- サブ機能のデータセット
- :入力シーケンス
- :ラベル
- シーケンスに対するニューロンの活性化
- :の隠れ状態
- :の長さ
- ニューロン活性化とラベルのペア
エキスパートが特定のサブ機能をどれだけ得意とするかを数値化する
- に基づいて、ニューロンの予測性としてニューロン活性化の平均精度(AP)を計算する
エキスパートにおける機能分布の研究(§4)
評価設定
Transformerモデルにおけるモジュール性の発見と、その出現過程の理解を深めるため、2つのMoEモデルを用意した
特定の機能に特化したニューロンをエキスパートに分割し、Transformerで広く使用されているMixture-of-Experts(MoE)としてグループ化
- Transformerには数千のニューロンが存在するため、可能なすべての構造を検討するのは非現実的なので
- ほとんどのMoEモデルは人間の脳と同様にスパース活性化されている
- 事前分割MoE(Pre-partitioned MoE)
- 事前学習前にMoEによってFFN層を拡張する
- 例:Switch Transformer
- 事後分割MoE(Post-partitioned MoE)
- 事前学習済みの通常のTransformerのFFN層を、エキスパートに分割することで、MoEモデルに変換
- ニューロン間の内部相関を発見することで通常のTransformerには暗黙的なMoE構造があることを示しているため、同じ方法を使用して通常のTransformerをMoE化 (Zhang et al.(2022b))
- 注意:MoE化されたT5は元のT5と同一である
- pre-MoEとpost-MoEの両方のTransformerは、特定の優れた機能を持つニューロンを一部のエキスパートに集中的に分配する強い傾向があることを発見
- MoE構造は事前学習済みTransformerのモジュール性を反映している
Experiments
§4 機能的エキスパートの実験
事前学習されたTransformerモデルにおけるニューロンの機能的エキスパートの分析
各層のニューロンの予測性(図1左の折れ線グラフ)

- 各層において、サブ機能ごとのニューロンの最高予測性を計算し、その後各機能における全サブ機能の平均最高予測性を算出する
- 比較のため、ランダム初期化モデルも合わせて評価する
- 事前学習済みニューロンの平均最高予測性は、ランダム初期化ニューロンのものと比べて著しく高い
- ニューロンが事前学習からこれらの機能を学習していると解釈できる
- タスク機能の最高予測性は層が上がるにつれて増加しますが、意味機能と知識機能の最高予測性は層間でほとんど変化しない
- タスク機能が意味機能や知識機能よりも難しい可能性があり、より上位の層がタスク機能の学習に適していると解釈できる
各層における分布
ニューロンが特化した機能を持つかどうかを検証する
- 各層において、各サブ機能における上位kニューロンを特定し、サブ機能ニューロンとする
- その後2つのサブ機能ニューロン集合間のニューロンの重複を計算する
- 重複スコア
- とは考慮される2つのサブ機能のニューロン集合
- :指示関数(indicator function)。ニューロンが集合に属する場合に1を返し、そうでない場合に0を返す
- 重複スコアが高い場合、2つのサブ機能どちらにおいても優れたニューロン群が存在する、と解釈できる→ニューロンの多機能性
- 異なるサブ機能間の分布類似度を測定するために、2つの機能間の平均重複スコアを算出(図1右のヒートマップ)
- 同じ機能の分布類似度が高い場合、その機能に特化したニューロンのグループが存在する、と解釈できる
- 異なる機能間の分布類似度が高い場合、1つのニューロンが複数の機能を実行できる、と解釈できる

結果の解釈
- 事前学習済みモデルでは、同一機能の分布類似度が異なる機能間の類似度よりも著しく高く、これは特定の機能に優れたニューロン群が存在すること
- 事前学習後には機能特化したニューロン群が自然発生的に出現する
- 1つのニューロンが異なる複数のサブ機能を持つ可能性がある
- 例:知識機能とタスク機能間の平均重複スコアもランダムモデルより著しく高く、知識とタスクの両サブ機能に優れたニューロンが存在する
§5 MoE構造の分析・実験
エキスパートにおける分布
特定の機能に特化したニューロンが機能エキスパートと呼ばれる一部のエキスパートに集中しているかどうかを検証
- 仮にエキスパートが機能的に特化していない場合、サブ機能ニューロンはエキスパート間にランダムに分布するはず
- 統計的仮説検定を実施
- 1層に個のニューロン、各エキスパートに個のニューロン、各サブ機能に個のサブ機能ニューロン、特定の機能に個のサブ機能があると仮定
- 帰無仮説:
- 各サブ機能のサブ機能ニューロンがエキスパート間で独立にランダムに分布している
- つまり、各エキスパートにおけるサブ機能ニューロンの数がパラメータ、、の超幾何分布に従うと仮定する
- 超幾何分布:個の有限の母集団のなかに特定の要素が個あるとすると、そこから個を非復元抽出する際に、特定の要素が抽出される回数の確率分布
- 超幾何分布は、取り出した個のアイテムの中に、特定のアイテムがいくつ含まれているかという確率を示す分布
- が大きいほど、出現確率が高くなる
- 超幾何分布に従うと仮定した場合、出現頻度が閾値△△以上であれば(p値が〇〇未満であれば)、帰無仮説が棄却される可能性が高くなる
- 各エキスパートの超幾何分布の和のp値を計算し、p値が0.001未満の場合に帰無仮説を棄却
- 実際の出現頻度が、超幾何分布から期待される頻度よりも著しく高い場合、ランダム分布という仮定に矛盾が生じるため
- 対立仮説:
- エキスパートにおけるすべてのサブ機能ニューロンの数の合計をとしたとき、エキスパートが偶然に期待される値よりも大きなを持つ
- : 各エキスパートがどれだけ特定の機能に特化しているかを示す指標
- 機能エキスパートの割合とモジュール化度
- :機能エキスパートの数
- :エキスパートの総数
- :エキスパート内の機能ニューロンの割合
- :一様分布下での機能ニューロンの割合の期待値
- 機能エキスパートが存在しない場合、全体の度合いは0となり、それ以外の場合は全機能エキスパートの平均度合いとなる
実験結果
- MoE分割を行った事前学習済みモデルの機能エキスパートの割合は、ランダム分割より高い
- MoE構造における機能エキスパートのモジュール化度は、ランダム分割より著しく高い
- pre-MoEとpost-MoEの両方のエキスパートが、特定の機能に優れたニューロンを集中的に含む傾向が強いことを示している
エキスパートが対応する機能にとって重要であることを示す
摂動実験(T5)
モデル性能に対するエキスパートの因果的効果を評価する
- 特定の機能に対応するエキスパートの活性化に変更(摂動)を加える
- 仮に特定のエキスパートに対する摂動がモデルの性能を大きく低下させた場合、そのエキスパートがモデルの機能にとって重要と言える
- pre-MoEモデル:各層で1つのエキスパートのみを選択
- ゲーティング関数を摂動させることで、意図的に誤ったエキスパートを選択させる
- 特定のエキスパートが特定の機能にどれだけ貢献しているかを評価する
結果の解釈
- 高い予測能力を持つエキスパートは、モデルの性能にとって非常に重要
- エキスパート内のニューロンは、独立して機能するのではなく、互いに協調して機能している
- 摂動の割合が6%を超えると、個々のニューロンを摂動するよりも、より大きな性能低下を引き起こす
- pre-MoEモデルにおいて、特定のタスクに機能的なエキスパートを選択しないと、全体的な性能が低下する
摂動実験(Switch Transformer)
各エキスパートが特定の機能にどれだけ貢献しているかを検証する
- post-MoEモデル:各層ですべてのエキスパートを選択する
- 特定のタスクにおいて、非機能エキスパートを除去して、機能エキスパートのみを残し、異なるデータセットでモデルを訓練する
- 特定のエキスパートの活性化値を摂動させることで、そのエキスパートの影響を評価
- 具体的には、ターゲットとするエキスパートのニューロンの活性化値にランダムなノイズを加える
- No Function:特定のタスクにおいて機能的でないエキスパートのみを選択
- Function:特定のタスクにおいて機能的なエキスパートのみを選択
結果の解釈
- 機能的なエキスパートを回避すると全体的な性能が低下し、機能的なエキスパートのみを選択すると元のモデルよりも高い性能が得られる

Transformerモデルの機能的なエキスパートの割合とモジュール化の度合いは、学習の初期段階で急速に高い水準に達し、その後は比較的安定した状態を保つ(図3)
- Switch Transformerにおける機能的エキスパートの割合は約20Kステップで大きく変動し、その安定化はT5よりも遅くなる
- Switch Transformerにおけるモジュール構造の出現が、予想外にもT5よりも困難であることを示唆
- Switch Transformerが、選択されなかったエキスパートの勾配を省略することで、T5よりも最適化が困難になっている可能性
§6 事前学習中のモジュール性の出現の研究
機能的エキスパートの出現パターン
T5とSwitch Transformerのベースバージョンをゼロから事前学習させ、学習が進むにつれて、エキスパートとニューロンの機能分布がどの程度変化しなくなる(安定化する)かを示す
- Spearmanの順位相関係数を用いて、隣接するチェックポイント間のエキスパートまたはニューロンの予測性がどれだけ類似しているかを測定している
- ランダムパーティショニング(ニューロンをランダムにグループ化してエキスパートを形成する)についても測定
- より高い類似性は、変化のペースが遅いことを示し、したがって安定化の度合いが高いことを意味する
- すべてのサブ機能とすべてのレイヤーにわたる平均安定化スコアの曲線(図4)

結果の解釈
- 事前学習の過程で、エキスパートとニューロンの両方が徐々に安定化した
- エキスパートの安定化は、ニューロンの安定化(全訓練ステップの約75%)とランダムパーティショニングの安定化の両方よりも顕著に速い
- 事前学習の内部メカニズムは、coarse-to-fine(粗から細へ)で進む
- つまり、Transformerはまず粗いモジュール構造を構築し、その後、細かいニューロンの機能を学習する
Focus
(左図)各層におけるニューロンの予測能力
(右図)各層における異なる機能間の分布の類似性
