自己教師あり学習に関するサーベイ: A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends

J Gui 著 ・13 Jan 2023・被引用数: 222・ IEEE
Dacheng Tao:オーストラリアのエンジニア・研究者。IEEEのフェロー、オーストラリア栄誉賞フェロー受賞。人工知能分野で1200を超える出版物を執筆しており、平均して年間60本の論文を発表。
Code
Self-supervised-Learning
guijiejieUpdated Apr 16, 2025
ICLR 2020 Yann LeCun氏の基調講演 SSLの概念説明

Focus

自己教師あり学習の手法は、人間が意図的に教師信号(ラベル)を付与するのではなく、データそのものが持つ構造、関係性、あるいは一部を隠蔽・変換した際の元の情報を、教師信号として自動的に生成する
 

Keyword

自己教師あり学習(SSL:Self-supervised Learning)
人手によるラベル付けに頼ることなく、ラベルなしデータから識別的な特徴を学習することを目指す
  • メリット
    • 入力データの特定の属性に基づいて自動的に擬似ラベルを生成する
      • 擬似ラベルの生成は、人手によるアノテーションを必要としないため、大規模な未ラベルデータを活用できる
  • 仕組み
    • SSLは、データ要素間の関係(共起関係)やデータの様々な観点を明らかにすることで、入力データ例から「本質的に」出力ラベルを生成する
  • オートエンコーダー(AE)はSSLアルゴリズムの一種
  • 論文
    • 2021年のSSL関連の論文:約18,900本以上
      • 1日平均52本、1時間に2本以上の論文が発表されている
  • SSL概念の変遷
    • Yann LeCun氏 2020年
      • SSLとは、入力の一部が未知でありその特定の部分を予測すること
    • Jing et al. 2019
      • SSLが人手によるアノテーションラベルが不要な手法も包含するように定義を拡張
        • ラベルを必要としないあらゆるアプローチがSSLに分類され、事実上SSLと教師なし学習が同等とみなされるようになった
        • この定義の拡張により、敵対的生成ネットワーク(GANs)も包含する
DeepLearningにおける教師あり学習
大規模データセットで事前学習されたモデルを出発点として、その後、特定のダウンストリームタスクに向けて微調整する
  • メリット
    • ダウンストリームタスクで学習されるモデルのより速い収束を可能にする好ましい初期値を提供
    • ダウンストリームタスクにおける限られた学習データに起因するオーバーフィッティングの問題を軽減
  • デメリット
    • ラベル付きデータの取得は、十分な専門知識を持つ熟練した人間のアノテーターを必要とするため、多くの場合コストがかかり、労力を要し時間がかかる
    • 大量のデータは容易に収集できるが、ユーザーのラベル付けには、経験豊富な評価者による詳細な精査、判断、そして時には時間のかかる追跡作業が必要となり、多大な費用が発生する
教師あり学習の限界に対処するため、アクティブラーニング、半教師あり学習、自己教師あり学習(SSL)など、様々な機械学習パラダイムが導入されてきた
ICLR 2020 Yann LeCun氏の基調講演(SSLの概念説明)
  • SSLの目的は、入力の一部が未知であり、その特定の部分を予測すること
  • 欠損情報を補完する(再構成)行為と類似したプロセス
  • バリエーション
      1. 入力の任意の部分から他の部分を予測する
      1. 過去から未来を予測する
      1. 可視部分から不可視部分を予測する
      1. 利用可能な部分からオクルージョン、マスク、または破損した部分を予測する
前段階タスク Pretext tasks
例:
  • 教師あり学習における事前学習
    • 大量のラベル付きデータセット(例:ImageNet)でモデルを事前学習させ、その後、より小規模な特定のタスクのラベル付きデータでファインチューニングを行う転移学習の枠組み
  • 半教師あり学習における自己教師あり学習の利用
    • ラベル付きデータと大量のラベルなしデータを活用してモデルを学習する
      • ラベルなしデータに対してSSLを実行し、得られた表現をラベル付きデータの学習に役立てる
特徴:
  1. 前段階タスクの解決を促進する特徴を学習するために深層学習手法を使用する
  1. データそのものから教師信号が導出される
      • 自己教師(Self-supervised)と呼ばれるプロセス
Siameseネットワーク
  • 同一のアーキテクチャを持つ複数のニューラルネットワークで構成されるネットワーク
    • 主に類似性学習(similarity learning)や距離学習(distance learning)を目的として設計された
  • 表現崩壊(collapsing solutions)のリスクを軽減するための特定の条件を組み込みながら、同じ画像の拡張された2つのバージョン間の類似性を最大化することを目指す
  • SSLのモデルでは、Bootstrap Your Own Latent (BYOL)、SimCLR、SwAV、SimSiamで採用されている
    • SSLでは、異なるビュー間の関係性を学習し、タスクに有効な不変な特徴を獲得するために用いられている
表現崩壊(collapsing solutions)
  • 負のサンプル対を使用しない自己教師あり学習の手法において発生する問題
    • ネットワークが全ての入力データに対して非常に類似した、あるいは同一の表現を出力するようになってしまう現象
    • 損失関数が単に異なるビューの表現を近づけるように設計されている場合に、ネットワークが自明な解(全ての入力を同じ点にマッピングする)に陥ることで発生する
  • 生成モデル、特にGANにおいて発生するモード崩壊(mode collapse)とは異なる
    • モード崩壊とは、生成器が、訓練データの分布全体を捉えることができず、いくつかの限られたデータのモード(典型的なパターン)しか生成できなくなる現象
      • 生成器と識別器の学習のバランスが崩れることなどによって引き起こされる
  • 表現崩壊は識別的な表現学習において、表現の多様性が失われる問題であるのに対し、モード崩壊は生成モデルにおいて、生成されるデータの多様性が失われる問題
MIM(Masked Image Modeling)
画像の一部分を隠して、その隠された内容を予測するというSSLの手法
  • 画像を「ノイズ」であるマスクで部分的に隠し、それを「除去」して元の画像を再構築する
  • DAEの変種にあたる
DAE(Denoising Autoencoder)ノイズ除去自己符号化器
  • DAEは、入力データに意図的にノイズを加えてから、ノイズが加えられたデータから元のクリーンなデータを再構築するように学習するモデル
  • BERT(Bidirectional Encoder Representations from Transformers) や GPT(Generative Pre-trained Transformer)は、DAEの有名な応用例にあたる
    • これらのNLPモデルは、大規模なテキストデータに対して、一部の単語をマスクして予測するというSSLを行うことで、言語の意味や文脈を深く理解する能力を獲得した
  • CVの研究者らは、BERTやGPTの成功から、同様のSSL戦略を画像にも適用することで、画像認識などのタスクで高性能なモデルをpre-train(事前学習)できるのではないかと考えた
    • 一方、BERTのNLPにおける成功は、単に大規模なSSLを行っただけでなくTransformerというスケーラブルなネットワークアーキテクチャの存在も大きく影響している
      • Transformerは、並列処理に適しており、より大規模なモデルを効率的に学習できる特性を持っている
  • BERTのようにTransformerアーキテクチャをベースとしたViT(Vision Transformer) が登場した
    • 画像の一部分をマスクして予測するMIMの手法を用いることで、従来のCNNを用いた場合と比較して遜色ない、あるいはそれ以上の性能を示すことが示された

Overview

WHAT(これは何?)
  • 自己教師あり学習(SSL)に関する包括的な調査研究
    • SSLの多様な手法をアルゴリズムの側面、応用分野、主要な3つのトレンド、そして未解決の研究課題を含めてレビュー
      • SSLの動機と背景
      • SSLの概念の変遷
      • SSLアルゴリズムの主要なカテゴリ
      • SSLの応用分野
      • 主要なトレンドと今後の研究課題
      • 性能比較
WHY(論文の価値は?)
SSLで使用される前段階タスクの手法の整理
文脈ベースの手法(Context-based methods)
回転:ランダムな幾何変換の集合に対し、どの角度に回転されたかの確率を予測する
  • ランダムな幾何学変換の集合
    • K = 4
    • :自己教師ラベル(回転角度)→モデルにとって未知の回転角度のラベル
    • :画像にラベルの幾何変換を行う
    • :変換された画像
  • Loss Function
    • :CNNモデル
    • :ラベルの幾何変換に対する予測確率
    • θの学習可能なパラメータ
  • Objective Function
色付け:任意の明度チャネルに対し、CIE Lab色空間のカラーチャネルを予測する
  • :入力の明度チャネル
  • :予測したCIE Lab色空間のカラーチャネル
  • Objective Function
    • :正解値
      :予測値
  • 多項ロジスティック回帰損失を用いた色付けのPretext tasksの発展
    • 任意のグレースケール画像に対し、CIE Labカラーチャンネルを予測
    • 明度チャンネルと予測されたCIE Labカラーチャンネルを連結する
      • 元のグレースケール画像を入力すると、カラーの表現が復元される
ジグソー:個別のパッチに分割した画像の位置をランダムに並び替えたものに対し、元の順序を再構築する
  • モデルは、例に埋め込まれている文脈情報を理解することによってタスクを達成する
知見:
  • 学習データが大量でモデルの能力が高く、そして前段階タスク Pretext task が難しいほど、学習された表現の質が向上し、その結果、ダウンストリームタスクでの性能も向上する傾向がある
  • 画像変換によって画像の特徴表現が影響を受ける共変性の問題に対し、不変な特徴表現を学習することの重要性が説かれた(Misraの研究
対照学習(Contrastive Learning - CL)
ラベルに頼らず、データの「似ている」「似ていない」という情報を用いて学習する
  • 初期:負例ベース
  • 発展:負例を必要としない手法が多数登場
負例に基づくCL
  • 大量のラベルなしデータから、画像の内容を捉えることができる汎用的な特徴表現をSSLで学習させる
  • 画像の特徴表現を学習するとは
    • 同じ画像から作成された複数の異なる「見方」(データ拡張によって生成された画像)が、特徴空間において互いに近い場所で表現されるように学習する
    • 一方、異なる画像から作成された「見方」同士は、特徴空間において互いに遠い場所で表現されるように学習する
  • 潜在空間内で正例間の近接性を促進し、負例との間の分離を最大化することを目指す
  • 代表例
    • MoCo v1
      • オンラインエンコーダーとモメンタムエンコーダーという二つのエンコーダーで構成される
        • オンラインエンコーダーが現在のミニバッチの画像(またはそのデータ拡張)を入力として受け取り、特徴ベクトルであるクエリ q を生成
        • モメンタムエンコーダーも同様に画像(別のミニバッチの画像、または過去のミニバッチの画像)を入力として受け取り、特徴ベクトルであるキー k を生成。これらのキーを負例とする
          • モメンタムエンコーダーのパラメータは、オンラインエンコーダーのパラメータの指数移動平均として更新される
          • これにより、モメンタムエンコーダーによって生成される特徴ベクトル(負例)は、直前のオンラインエンコーダーの状態とわずかに異なる、時間的に一貫性のある表現になる
        • モメンタムエンコーダーによって生成された負例は、特徴キュー(メモリバッファ)に保存される(負例の特徴ベクトル自体は、現在のバックプロパゲーションのステップで変化しない)
      • MoCoは、CLを辞書検索タスクとして捉える
        • →類似する画像の特徴を「辞書の中のキーワード」のように探し出す
      • Loss Function:辞書内の単一のキーがクエリに一致すると仮定した対照損失関数の一形態であるInfoNCE損失関数
        • 分母の和は1つの正例とK個の負例に対して計算
        • :クエリ
        • :エンコードされた例の集合
          • 辞書内のキーとして機能
        • :辞書内の単一のキー
        • τ:温度ハイパーパラメータ
        • (·):ベクトル積
    • MoCo v2
      • MoCo v1 とSimCLR v1 を基に構築され、多層パーセプトロン(MLP)射影ヘッドとより多くのデータ拡張を組み込む
    • SimCLR
      • 画像から有効な特徴量を学習するために、ミニバッチと呼ばれる小さな画像集合を用いる
        • N個の異なる画像を含むミニバッチを用意
        • ミニバッチ内の各画像に対して、ランダムなデータ拡張を2回適用
          • 画像の回転、切り抜き、色の変更など、画像の意味内容を変えない変形
          • 元のN個の画像から合計2N個の異なる「ビュー(視点)」が生成される
        • 元の同じ画像から生成された2個の異なるビューを正例として扱う
        • ミニバッチ内の残りの2(N - 1)個の拡張された画像を負例として扱う
          • 明示的に負例を選択しない
        • 正例のペア(i, j)に対するSimCLR v1のLoss Function
          • (i, j)と(j, i)の両方を含む正例のペアに対して損失を計算
          • :2つのインスタンスの間のコサイン類似度
          • の場合に1となる指示関数
          • τ:温度ハイパーパラメータ
      • ミニバッチ内の負例も、正例ペアと同様に損失関数の計算に用いられる
        • その結果生じた勾配は、エンコーダーのパラメータを更新するために直接的に使われる
研究課題
対照学習は異なるビュー間の相互情報量を高めるメカニズムを提供している
💡
重要な原則
  1. 異なるデータ拡張から生成された2つのビュー(v1とv2)間の相互情報量 の下限を効果的に最大化する
      • 対照損失を最小化することが相互情報量の下限の最大化に繋がる
  1. 2つのビュー(v1とv2)それぞれの持つタスクラベル に関する情報を最大化する
      • タスクラベルは、ダウンストリームタスクによって異なる
        • 例:犬猫分類なら、犬猫のラベル
しかし、その相互情報量が何に関するものなのかは、データ拡張によって決定される
MoCoとSimCLRは、クロッピング、リサイズ、色調の歪みなどの特定のデータ拡張技術に依存している
  • これらは、物体検出や意味的セグメンテーションなどの密な予測タスクよりも、分類タスクにより適したデータ拡張技術
タスクに関連する情報を共有するように設計されたデータ拡張を用いることで、対照学習はダウンストリームタスクに有効な表現を学習し、ビューがタスクラベルに関する情報を最大限に保持することが可能になる
💡
相互情報量の下限を最大化するとは?
  • MoCo
    • 正例ペアの類似度 を分子に置き、ポジティブペアと全てのネガティブサンプルの類似度の合計 を分母においた比の対数に負号をつけたもの
  • SimCLR
    • 正例ペア (i, j)の類似度 を分子に、アンカー zi とミニバッチ内の他の全てのインスタンス(自身を除く)の類似度の合計 を分母においた比の対数に負号をつけたもの
  • 損失関数を最小化することは、分子と分母の比を大きくする、つまり正例ペアの類似度を相対的に高くするように学習が進むことを意味する
    • これが相互情報量の下限を最大化することに繋がる
      • 損失関数の式の分子は、同じインスタンスの異なるビューが共有する情報(相互情報量)を捉えている。分母は、異なるインスタンスのビューを区別する役割を果たし、損失関数全体を最小化する過程で、結果的に相互情報量の下限が効果的に最大化される
平均や上限ではなく下限に着目する理由としてはより弱い保証でも、特徴表現の学習においては十分に有効であるという経験的な知見に基づく
このように、強力なデータ拡張がCLの性能向上に寄与することが観察されているため、より堅牢な拡張技術を活用することへの関心が高まる
しかし、強力なデータ拡張のみに依存すると、実際にはパフォーマンスの低下を招く可能性があることに注意
  • 強力なデータ拡張によって導入される歪みは画像構造を変更し、弱い拡張画像とは異なる分布をもたらす可能性があるため
    • オーバーフィッティングの問題につながる
負例を用いないCL
  • 代表例
    • Bootstrap Your Own Latent (BYOL)
      • Siameseネットワーク(2つのネットワーク)を使って、ある画像の異なる見方をそれぞれ処理し、それらの出力が似るように学習する手法
        • オンラインネットワークは、一方の拡張されたビューを入力とし、その表現を出力(重みは、通常のバックプロパゲーションで更新される)
        • ターゲットネットワークは、もう一方の拡張されたビューを入力とし、その表現を出力(MoCoと同様に、このターゲットネットワークの重みは、オンラインネットワークの重みを徐々に平均化(移動平均)することによって更新される
    • Simple Siamese(SimSiam)
      • 負例のペア、大規模バッチ、モメンタムエンコーダーを必要とせずに、SSLにおいて効果的な表現を学習するためのシンプルなアプローチを提供
      • Objective Function
        • 目的は、の負の余弦類似度を最小化すること
        • 💡
          余弦類似度の取りうる値の範囲 2つの正規化されたベクトルのドット積(内積)はベクトル間の角度の余弦(コサイン)に相当する。余弦関数の取りうる値の範囲は[-1, 1]
        • データポイントとランダムに拡張された2つのビューが与えられると、エンコーダーとMLP予測ヘッドがこれらのビューを処理する
          • : エンコーダ
            • 入力されたデータ点xに対して、2つのランダムに拡張されたビュー(x1とx2)をそれぞれ処理し、特徴量を抽出
          • :MLP予測ヘッド
            • エンコーダが出力した一方のビューの特徴量を入力とし、予測を行う
            • もう一方のビューの特徴量 は直接利用する
        • Loss Function
          • ↑全ての訓練画像に対して計算された個々の損失を平均したもの
        • stop-gradient(stopgrad)演算を導入
          • stopgradによって、損失計算において勾配の計算が停止され、あたかも が定数として扱われる
            • ネットワークの学習を安定化させ、自明な解(表現崩壊 collapsing solutions)を避けることが目的
生成的アルゴリズム(Generative algorithms)
  • ここでは、生成的SSL手法の中でも、主にMIM手法に焦点を当てる
    • 💡
      自然言語と視覚信号(画像)の違い
      • 自然言語の場合、離散的な意味を持つ要素(単語やトークン)文脈的な関係性を学習する
        • 自然言語は、明確な境界を持つ、意味のある離散的な基本要素が存在する
        • 視覚信号は、ピクセルの輝度や色といった連続的なピクセルの集合
      • マスクされた単語を予測することは、その単語の意味や文脈を理解することに繋がる
        • 画像内のランダムなピクセル領域をマスクして予測することは、必ずしも意味のある物体やその関係性を捉えることには直結しない
      • BERTが成功した masked language modeling(一部の単語を隠して予測する)は、この離散的な構造に自然に適用できるが、画像をそのまま同様に扱おうとしても、隠されたピクセルを周囲のピクセルから予測するだけになり、高レベルな意味的理解に繋がりにくい可能性がある
  • NLPのマスクされた単語予測の手法を視覚信号にも拡張する(MIM)の試み
    • MIMはビジョントランスフォーマーの事前学習として期待された
  • 代表例
    • BEiT(bidirectional encoder representation from image transformers)
      • 画像を視覚的なトークンという、より意味のある離散的な単位に分解することで、BERTのようにマスクされた一部のトークンを予測するタスクを定義し、視覚信号における要素間の関係性の学習を目指す
        • トークン化には、discrete variational autoencoder (dVAE) という手法を用いて、事前に定義された視覚的な語彙を作成
          • 画像を意味のある「単語」の集まりとして捉えようとするアプローチ
    • MAE(Masked Autoencoders)
      • 画像をマスクして再構築する手法ですが、BEiTとは異なり、生のピクセルを直接予測ターゲットとして使用
        • MAEは高いマスキング率を必要とする
          • 画像信号には冗長性が多いため、多くの情報を隠しても再構築が可能だから
対照生成的手法(Contrastive Generative Methods)
対照的SSLと生成的SSLで見られる異なる特性と課題により、研究者たちはこれら2種類のアプローチを組み合わせることを探求し、両方のタイプのアルゴリズムを統合しようとした
💡
対照的SSLと生成的SSLの比較
  • データサイズに対する振る舞いの違い
    • 対照的SSL手法(グローバルな視点に焦点を当てる)
      • 間違い探しアプローチと捉えられる
      • 似たデータ(同じ画像の異なる加工)は近くに、異なるデータは遠ざけるように学習する
      • データが多ければ多いほど、より多様な「間違い」を学習できるため、性能が向上しやすい傾向がある
      • データが少ない状況では、対照学習は安易な方法(近道)を見つけてしまい、表面的な特徴だけを捉えて過学習(オーバーフィッティング)を起こしやすい
    • 生成的SSL手法(ローカルな関係性をモデル化する)
      • データ補完アプローチと捉えられる
      • 画像の一部を隠して、それを予測したり再構成したりすることで学習する
      • ある程度の量のデータで学習すると、それ以上データを増やしても性能の向上は頭打ちになりやすい
      • データが非常に少ない場合でも、ある程度意味のある学習ができる
単純な組み合わせは必ずしも性能向上につながらない
  • 生成モデルのベースラインよりも性能が低下し、表現の過学習の問題をさらに悪化させる可能性がある
WHERE(論文のキモはどこ?)
  1. NLPにおけるSSLの分析
      • 生成的アルゴリズムが支配的
        • 初期の研究であるBERTやGPTから、最近のLLMに至るまで一貫して優勢
        • 当初、言語には固有の明確な意味論があるため、識別的アルゴリズム(例:対照学習)は効果がない とされていた。その後ELECTRAのように、識別的アルゴリズムを用いて言語モデルを事前学習する先駆的な試みが出てきた
          • 教師あり対照学習は、未知のテキストクラスのゼロショットや、few-shot learningにおいて有効
          • 自己教師あり対照学習も、言語モデリングを改善するとされた
        • が、依然として生成的アルゴリズムが優勢
        • 対照学習におけるテキスト入力の自動的な拡張(augmentation)は、単一のトークンが文の意味を逆転させる可能性がある
          • 些細な変更で意味が大きく変わってしまうテキストの特性から、拡張を伴う対照学習は難しい
  1. 前段階タスクの各アルゴリズムの評価。タスク:線形分類と転移学習
  • 線形プローブ性能について、対照学習モデルが他のアルゴリズムよりも優れている
    • 理由:対照学習が明確に分離されたカテゴリを持つため
      • 類似したカテゴリが、適切にクラスタリングされ、構造化された潜在空間を生成するため
  • MIM(Masked Image Modeling)を用いて事前学習されたモデルは、ほとんどの場合、ファインチューニングによって優れた性能を獲得する
    • 理由:対照学習ベースのモデルと比較して、過学習を起こしにくい
    • 考察:
      • 学習目標
        • 対照学習は、異なる拡張(ビュー)間の類似性を最大化し、異なるサンプル間の差異を最大化するように学習する
          • データセット全体の大域的な特徴や不変性を捉えることに重点を置く
        • MIM は、マスクされた画像の一部を再構築するように学習する
          • 画像の局所的な詳細やコンテキストを捉えることに重点を置く
      • 表現の特性
        • 対照学習は、カテゴリ間の分離が明確な潜在空間が形成されている(線形プローブ性能が高いことから)
          • SFTの際には、この構造がかえって過学習を引き起こす可能性
          • 一方、生成的SSL手法の代表であるMIM は、より汎用的で、ファインチューニングによってタスク固有の表現に柔軟に調整しやすい特徴を学習している
      • 負例の影響
        • 対照的SSL手法の多くは、負例との識別に基づいて学習するため負例の選択やその数が性能に大きく影響する
          • 不適切な負例はモデルの学習を不安定にさせ、過学習を招く可能性がある
          • MIM は主に自己生成的な学習であるため、明示的な負例が不要