なぜLLMは最初のトークンに注目するのか? Why do LLMs attend to the first token?

F Barbero 著 · 3 Apr 2025 · ICLR 2025・University of Oxford・National University of Singapore・Google DeepMind
 

Focus

No sink(左:シンクなし)は、2番目のトークンの入力表現に加えられた小さな変化(赤い部分)が、モデルのより深い層に進むにつれて、他の埋め込み全体へ変化が急速に広がっていく Sink(右:シンクあり)は、他のトークンからの注意をシンクトークンに惹きつけるため、摂動を受けた情報が全体へ広がるのを制限している

Keyword

アテンション・シンク Attention sinks
  • アテンションヘッド内で大部分の注意を引き付けるトークン(ただし、意味的な重要性は限定的である)を指す
    • Xiao et al. (2024) で最初に使用された用語
    • スライディングウィンドウ注意を計算する際に、性能を維持するためにこのようなトークンを保持することが重要であることを示した
  • アテンション・シンクは、量子化(Liu et al., 2024)、KVキャッシングの改善(Ge et al., 2024)、ストリーミング・アテンション(Xiao et al., 2024)、さらにはセキュリティの脆弱性(Yona et al., 2025)など、多くの重要なトピックと関連付けられる
  • シンクは広く普及しており、明示的な事前条件ではなく勾配降下法の副産物として現れる
  • 本研究ではアテンション・シンクの中でも、最初のトークンで形成されるアテンション・シンクに焦点を当てる
  • アテンション・シンクは、ランク崩壊(Dong et al., 2021)、表現崩壊(Barbero et al., 2024)、信号伝播(Noci et al., 2022; Arroyo et al., 2025)、および過度な平滑化(Di Giovanni et al., 2023)を研究する多くの理論的・実証的研究に関連する現象である
Transformerブロック(因果マスクを注意機構に適用するDecorderブロック
  • 自己回帰的な生成
    • Decorderは、過去のトークンに基づいて次のトークンを予測する役割を担う
      • 各トークンは、因果マスクによって、その位置までの過去のトークン(および自分自身)からの情報のみに基づいて表現を更新する
    • 新しいトークンは、最終層の表現を考慮し、それをトークン語彙上の分布にマッピングすることで自己回帰的に生成される
      • 新しいトークンはこの分布からサンプリングされ、このプロセスが繰り返される
  • 1つ以上のアテンションヘッド(H ≥ 1)を持つ=現代の一般的Transformerモデル
    • Barbero et al.(2024)の記法
      • :アテンションの重み
        • 特定のアテンションヘッドにおける注意の方向性と強度を決定する
  • そのTransformerブロック内のすべてのアテンションヘッドの出力を統合し、さらに前の層からの情報を加えた()、 番目のブロック全体の出力
  • 番目のブロック全体の出力()と、それを非線形関数に通したものを加える
    • を構成しているは、前のブロックからの出力なので、前のブロックからの残差接続を表現している
  • 注意係数を行列で表現し、とすると、が下三角行列であることが保証される
  • 下三角行列であること(因果マスク)、つまり のときに である(右斜め下方向の主対角成分より上の要素がすべてゼロである行列)ことは、位置 のトークンが位置 (より未来のトークン)のトークンに注意を払わないことを意味する
ランク崩壊 rank collapse
  • ランク崩壊の定義:Wu et al.(2024)より
    • ランク崩壊とは、表現が「平均」表現 からどれだけ離れているかを示すもの
    • 残差接続や非線形性のないTransformerでは、この量が深さとともに指数関数的に減衰することが広く知られている
表現崩壊 representational collapse
  • 表現崩壊の定義:Barbero et al. (2024)
    • トークンが繰り返され、基礎となるシーケンスまたは「プレフィックス」が成長するようなトークンシーケンス
過剰混合 over-mixing
  • Transformerアーキテクチャの深さが増したり、処理する文脈が長くなるにつれて、トークン間の情報が過度に混ざり合い、個々のトークンの特徴や意味が曖昧になる現象
    • トークン表現の均質化
    • 情報の損失
    • 表現の崩壊
    • 過剰な平滑化
    • 摂動への脆弱性の増大
オーバースカッシング over-squashing
  • Transformer において、特に文脈長が長くなるにつれて、初期のトークンの情報が後のトークンに伝わりにくくなる現象
  • Barbero et al. (2024) の研究
シンクメトリック sink metric
  • アテンションヘッドがアテンションシンクにどれだけ注意を向けているかを定量的に評価するための指標。Gu et al. (2025)の定義したシンク率と同じ
  • シンク率 sink rate
 

Overview

WHAT(これは何?)
  • 現代のLLMの深さと大きなコンテキストは表現崩壊を引き起こすのに十分であり、これは特定のアテンションヘッドを不活性化することで回避することができる
  • LLMにおいてしばしば見られるアテンションシンクという現象、特にシーケンスの最初のトークン(<bos>トークンであることが多い)に注意が集中するメカニズムについて、その有用性を明らかにした
    • アテンション・シンクは、特に深く、大きなコンテキストのモデリングにおいて、過剰混合を防ぎ、表現の崩壊を回避する方法であることを示した
WHY(研究の価値は?)
  • アテンションシンクの有用性の再評価
    • デコーダーのみのトランスフォーマーにおいて、アテンション・シンクが過度な混合を制御するのに有用であることを示した
    • ランク崩壊、表現崩壊、オーバー・スカッシングといった既存の理論的現象と関連付ける
    • アテンション・シンクの数学的直感がGemma 7Bでどのように現れるかを示した
  • 過度混合仮説の裏付け
    • オーバー・スカッシングを改良し、より大きなモデルとより長いコンテキストで訓練されたモデルが、より強いシンクを持つべきことを示唆した
      • より大きなモデルと長いコンテキストで学習させたモデルは、摂動に対してより脆弱になり、シンクはより強くなる
    • LLaMa 3.1 405Bでは80%のアテンションヘッドが強いシンクを形成することを発見
  • ⟨bos⟩トークンとシンク形成の関係性
    • 事前学習で⟨bos⟩を最初のトークンとして固定することは、モデルがシンクをどのように構築するかに影響を与える
      • 推論時に⟨bos⟩を削除するとアテンション・シンクが消失する
    • ただし、アテンションシンクは過剰混合を防ぐためのメカニズムであり、必ずしも<bos>トークン固有の性質に依存しているわけではない
WHERE(研究のキモはどこ?)
Background
Attention Sinks
以下の研究に共通するのは、大きな活性化がアテンション・シンクの生成に有用であるということ
  • Xiao et al. (2024)
    • アテンションヘッド内で大部分の注意を引き付けるトークンを、アテンション・シンクと名付けた
    • スライディングウィンドウ注意を計算する際に、性能を維持するためにこのようなトークンを保持することが重要であることを示した
  • Gu et al. (2025)
    • シンクの存在を測定するための指標を提案
      • ϵ = 0.3とした場合に、平均して少なくともϵの係数でシンクに注意を向けるモデル全体のヘッドの割合を測定する
  • Cancedda (2024)
    • スペクトル的な観点から、特定の部分空間がアテンション・シンクの生成に関与していることを示した
  • Sun et al. (2024)
    • 大規模な活性化がアテンション・シンクの生成に関与していることを示した
  • Barbero et al. (2025)
    • 特定のアテンションヘッドを逆解析し、クエリとキーにおける高いノルムのバンドがアテンション・シンクの形成を助けることを示した
Transformerにおける情報伝播
  • ランク崩壊
    • アテンション層の繰り返し適用により、値がランク1のベクトル空間に射影される現象
      • グラフニューラルネットワークにおける、オーバースムージングに相当する
    • アテンション行列が、情報を「混合」し、繰り返される混合が情報を持たない空間に収束すると推測される
    • Wu et al.(2024)
      • この分析を因果メカニズムに、そしてデコーダーのみのTransformerに拡張し、因果マスクが収束にどのように影響するかを説明した
    • Veličković et al.(2024)
      • 推論時に十分に長いコンテキストに一般化する場合、グローバルアテンション行列は鋭さを保持できず、常に「純粋な混合」に収束することを証明した
        • これはトークン化が原因であり、ソフトマックスに入力されるロジットの広がりに制限を課しています
      • Vitvitskyi et al.(2025)
        • アテンションのスパース化で鋭さを改善できる
          • しかし関連するトレードオフはまだ十分に理解されていない
    • 研究
      • Dong et al., 2021; Geshkovski et al., 2023; Wu et al., 2024; Naderi et al., 2024
  • オーバースカッシング over-squashing
    • Barbero et al.(2024)
      • デコーダーのみのTransformerが因果マスクにより、シーケンスの早い段階で出現するトークンにより敏感になることを示した
  • 表現崩壊 representational collapse
    • Barbero et al., 2024
      • 長いシーケンスにおいてTransformerがシーケンスの終わりに向かうトークンの情報を破壊する傾向がある
    • 特定のヘッドを不活性化することで遅らせることが可能
Issue
  • Transformerは、より深くなるにつれて、そしてより長いコンテキストを処理するにつれて、情報を「過剰に混合」する傾向がある
    • 本研究では、これらの考えをアテンション・シンク現象と結び付ける
    • 特定のアテンション・シンクパターンは、表現の崩壊に対抗し、それらを意味のある距離を保ち続けようとするTransformerの試みと捉える
ランク崩壊と表現崩壊の数学的理解
  • 命題:ランク崩壊は表現崩壊よりも強い条件である
    • ランク崩壊の条件は表現崩壊より厳密であり、Wu et al. (2024)やDong et al. (2021)の研究が示すように、線形システムでのみ実際に発生する
    • 一方、Barbero et al. (2024)が示したように、表現崩壊は非線形システムでも研究される
ランク崩壊と表現崩壊の原因分析
  • ランク崩壊はモデルの深さに関する現象である一方で、表現崩壊はコンテキスト長に関する現象である
    • これらは、深さやコンテキスト長が過度に増大することによって引き起こされる破滅的な過剰混合 over-mixing 効果の結果
  • Transformerが、過剰混合 over-mixing 効果に対抗するための防御メカニズムを学習する必要性を示唆している
    • アテンションシンク現象がそのようなメカニズムの一つであることを示す
過剰混合量の測定
  • :層Lにおけるトークン の表現が、トークン の小さな摂動にどの程度敏感であるかを測定する量
    • が大きい場合、初期の小さな変化が後の表現に大きな影響を与えることを意味する→摂動に対して脆弱
    • が小さい場合、初期の変化が後の表現にほとんど影響を与えない→摂動に対してロバスト
      • RNNなどの再帰モデルにおける勾配消失問題とは対照的
        • 勾配消失問題は、モデルの深い層で情報が効果的に伝播しないという問題
  • 著者は直感的に、Transformerはこの量を制御できるはずだと考える
オーバースカッシングの改良
  • オーバースカッシングに関する結果を、マルチヘッドアテンションを考慮するように拡張した
  • アテンションヘッド間の重み付けされたパスがトークンの間の感度に影響を与える(感度の上限)ことを示す
    • :ノード の初期入力が、ノード の最終出力に与える影響の大きさ
    • :Transformer 各層の Lipschitz 定数による増幅を考慮
    • へのパスごとに、各層の attention 重みの合計(head ごとの attention の合計)を掛け合わせている
      • 層目におけるトークン からトークン への総合的な重み
      • 層目の全てのアテンションヘッドにおけるトークンからトークン への注意の重みの合計
        • :アテンションヘッドのインデックス
      • :トークン が自分自身に注意を向ける度合い
        • :クロネッカーのデルタ。 のときに 1、それ以外のときに 0 を返す関数
        • :総ヘッド数
  • この感度は、層の深さ ()、ヘッドの数 ()、そしてコンテキスト長によって制御される
    • これらの要素が過剰になると感度が上がり、オーバースカッシングや過剰混合を引き起こす可能性がある
摂動解析
  • Transformerによる感度の制御
    • モデルが大きくなるか、より長いコンテキストで学習される際に、感度をより良く制御するために、より強いシンクが現れることが予想される
  • アテンションシンクが存在する場合と存在しない場合を実験し、モデル全体で表現がどのように変化するかを測定
    • ⟨bos⟩を保持した場合(a)の摂動の挙動と、⟨bos⟩を削除した場合(b)の摂動の挙動を比較↓
      • (b)での摂動が表現にはるかに大きな影響を与えている
      • これはより高い混合率の結果として生じると推察
        • 過剰混合率の挙動は直接観測できないが、摂動への感受性の増大→過剰混合率も増大、と推測
    • attention mapがより滑らかになった
      • 上段は<bos>あり、下段は<bos>なし
アテンションヘッド解析
  • 特定のアテンションヘッドがif-else文のような二つの動作モードを持つ
    • 実験ではGemma 7Bの特定のヘッドを観察
    • 第一層で発生
  • if (活性化条件が満たされた場合):
    • 特定の入力(例:直前のアポストロフィ)に応じて、強い注意を向けて情報を処理する(鋭い発火)。
  • else (活性化条件が満たされない場合):
    • そうでない場合は、不要な情報(例:<bos>)に注意を向け、実質的に何もしない(no-op操作)
    • 左は前のトークンがアポストロフィである場合に、特異的に活性化するトークンに対応する値を示す
    • 右は対応する値ベクトルのノルムをプロットしたもの
      • アポストロフィの値が最大(ヘッドが注目したい意味的に重要な対象
      • ⟨bos⟩トークンに対応する値のノルムが最小
アテンション・シンク分析
  • コンテキスト長とシンクの関係
    • 学習後(a)および学習中(b)の事前学習モデルのシンクメトリック(%)
      • シンクが発達する速度は一般的にコンテキスト長とともに増加する
  • モデルサイズとシンクパターンの関係
    • 各モデルの要約メトリック↓
    • 上記モデルファミリーの各ヘッドのシンクメトリックをプロット↓
      • 小さいモデルの方が、アテンションヘッドの活性度(特に中間層)が高い=シンク率が低い
      • 全ヘッドの⟨bos⟩のシンクメトリック比率(ϵ = 0.8)
      • 赤色は強いシンクの存在を示す
💡
Q: ⟨bos⟩トークンとシンク形成の関係に何か特別なものがあるか?
A: アテンションシンクは過剰混合を防ぐためのメカニズムであり、必ずしも<bos>トークン固有の性質に依存しているわけではない
💡
問 Q: なぜアテンション・シンクが主に文脈の最初の位置で発生するのか
A: アテンション・シンクの存在はトークン間の情報の混合を遅らせ、それによってTransformerをプロンプトの摂動に対してより堅牢にする。最初のトークンは、シーケンス全体に影響を与える可能性があるため、そこに注意を集中させることで、情報の流れを制御しやすくなると考えられる
 
 

ライブプレビュー中