Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

2026/4/10 17:312026/5/8 19:05

L Qiu 著 · 15 Jan 2026 · 被引用数: 21・MIT, Meta, Google DeepMind, University of British Columbia, Vector Institute, Google Research, New York University

arxiv.org

https://arxiv.org/pdf/2503.17523

Link

www.nature.com

https://www.nature.com/articles/s41467-025-67998-6

Teaching LLMs to reason like Bayesians

Google researchers demonstrate how Bayesian teaching through supervised fine-tuning enables LLMs to approximate optimal probabilistic reasoning and generalize to new domains.

https://research.google/blog/teaching-llms-to-reason-like-bayesians/

Focus

Keyword

確率的信念（probabilistic beliefs）

エージェントが「世界やユーザー嗜好について、不確実性込みで信念を持つ」こと。単一の答えを求めず、確率付きで候補を保持するのがポイント。

不確実性を残して分布（posterior）を持ち続ける

候補全体に確率を割り当て続ける、というベイズ的推論の肝。
対比：単一の最も尤もらしい仮説（reward function）を1つ選んで固定する（= argmax 仮説、MAP に近い）

信念更新（belief updating）

新しい観測（ユーザーの選択など）を得るたびに、信念（確率分布）を更新していくこと。論文は「既存LLMは信念更新が苦手」という問題設定から始まる。

規範的ベイズ推論（normative Bayesian inference）

「こう更新するのが最適」という規範（正しさの基準）としてのベイズ推論。人間・LLMの振る舞いがどれだけこの基準からズレるかを測るための「物差し」として使われます。

Bayesian Assistant（ベイズ的アシスタント）

この論文での上界（upper bound）としての比較対象モデル。

ユーザーの嗜好（reward function）に対して分布を持ち、ラウンドごとにベイズ則で更新して推薦を改善する。

reward function（報酬関数、ユーザー嗜好の表現）

ユーザーが「価格は安い方が好き」「乗り継ぎは少ない方が好き」など、各特徴量に持つ嗜好の組み合わせを形式化したもの。

フライト推薦タスクではこの reward function がユーザータイプを定義する（624通り）。

尤度（likelihood）

ユーザーの選択とその嗜好タイプが「整合的かどうか」（the likelihood）が、に相当する

：選択肢集合
：ユーザーの観測された選択（データ）
：reward function

「整合的かどうか」で尤度を 0/1 にする（決定論的選択モデル）なら、典型的には

一般には 0/1 に限らず、確率的選択モデル（例：softmax choice）を仮定して 0〜1 の連続値になる

事前分布（prior）／事後分布（posterior）／一様事前（uniform / uninformed prior）

事前分布：ラウンド前の信念（事前に相当する、その時点の分布）

相互作用前の初期仮定

：ラウンド (t-1) までに得られた観測データ（履歴）全体を表す

実験設定によっては、ユーザーが最後に与える正解フィードバックなどもに含める流儀もある

一様分布：論文では初期事前として一様事前（すべての嗜好集合が等確率）を採用

事後分布：ラウンド後の信念：

ベイズの定理を用いた事後確率の更新式

：reward function
：ユーザーの観測された選択（データ）
分母：正規化定数（周辺尤度）
前回の事後を次回の事前として使うオンライン更新

事後分布は事前（prior）と尤度（likelihood）から更新された結果で、Bayesian Assistant はこれを逐次更新する

：過去の履歴を踏まえた時点での reward function (r) への信念（＝ラウンドの更新の事前）
：その r が真なら、今回の選択肢集合でユーザーがを選ぶ確率（＝今回の証拠の尤度）
：それらを掛けて正規化したもの（更新後＝事後）

逐次更新の意味

前提：ラウンドごとの観測がのもとで条件付き独立だとすると（独立性仮定）

フライト推薦タスク（flight recommendation task）

本論文の主要ベンチマーク環境。

ユーザーの選択から嗜好を推論して推薦する必要があり、「確率的信念更新」の評価がしやすいように設計されている。

Bayesian teaching（ベイズ・ティーチング）

本論文の中心的な提案。

Bayesian Assistant の予測・振る舞いを模倣するようにLLMを教師あり微調整し、確率的推論（更新）の技能を移植する戦略。

oracle teaching（オラクル・ティーチング）

Bayesian teachingの比較対象となる学習法。

常に正解を返す教師（oracle）との相互作用で学習させるが、論文では Bayesian teaching の方が一貫して有効と報告される。

neuro-symbolic / ハイブリッド（ニューラル・シンボリック手法）

LLMを「翻訳役」にして、外部の記号的（ベイズ的）推論器で更新する系統との比較文脈。

本論文は「LLM単体でも近似的ベイズ更新を学べる」側を強調しつつ、ハイブリッドの利点（解釈性など）にも触れている。

Overview

✅

WHAT（これは何？）

問題意識：LLMを「対話的エージェント」として使うときは、ユーザー行動などの新情報を受けて、確率的な信念を形成・更新しながら適応する必要がある。しかし既存のLLMは、その規範（Bayesian inference）の水準から大きく外れることが多い。

評価設定：フライト推薦タスク（複数ラウンド）で、ユーザーの嗜好（reward function）を直接教えず、ユーザーの選択から推論して推薦させる。規範上界として Bayesian Assistant（明示的に分布を保持しBayes則で更新するモデル）を定義し、LLM・人間と比較する。

主要結果：

既存のLLMは、1回の相互作用（interactions）後に性能が頭打ちになりやすく、ベイズ的な信念更新に弱い。
しかし、後述の「Bayesian teaching」でLLMを追加学習すると、信念更新が改善し、タスク内・タスク外への一般化（ホテル推薦、Webショッピング等）も確認される。

WHY（提案手法の価値は？）

規範モデル（ベイズ推論）を“先生役”にして蒸留する

LLMに規範的なBayesian Assistantの振る舞いを模倣させることで、信念更新能力を大きく底上げできる。

蒸留（distillation）

Bayesian teaching を「別システム（Bayesian Assistant）の戦略を学習して模倣する」という意味で蒸留の一種として位置づけている。

「正解を教える」よりも「規範モデルの推測を教える」ほうが効く

オラクル（常に正解を提示）で学習するより、Bayesian Assistantの「根拠ある推測」（初期は外すこともある）を模倣させる方が一貫して良かった。

事後学習（Post-Training）の一般化の実利：

現実寄りタスク（Webショッピング）のように、記号的に完全なベイズモデルを作りにくい領域でも、いったん合成環境で学ばせた「推論様式」が転移する可能性を示した。

一般化（generalization）

学習したフライト推薦を超えて、ホテル推薦・ウェブショッピングなど別ドメインにも“確率的更新スキル”が転移することを実験で示す。

設計含意：

「LLM＋記号モデル」の関係において、記号モデルを実運用で常に組み込むのではなく、記号モデルのふるまいを教師信号として蒸留し、LLMに近似させるという開発戦略が有望、と示唆する。

WHERE（技術のキモはどこ？）

上界（教師）を作る：

フライト推薦の制御環境では嗜好タイプ（reward function）が有限（例：624通り）なので、Bayesian Assistantが

事前分布（例：一様）
尤度（ユーザー選択との整合）
Bayes則更新

で「reward function上の分布」を厳密に更新できる。

学習データの作り方：

ユーザー×複数ラウンドの相互作用ログを大量生成し、それを 教師ありファインチューニングのデータにする。比較のために2通りの教師を用意する。

Oracle teaching：正解推薦を常に出す教師
Bayesian teaching：Bayesian Assistantの推薦（不確実性を持つゆえに外すこともある）を出す教師

狙ったスキル（確率的推論戦略）を教えるために構成したテキストで追加学習する

評価の観点が「推論様式」に寄っている：

最終精度だけでなく、ラウンドを経て改善するか否か、Bayesian Assistantとの一致度が上がるか、情報量（informativity）に感度が出るか、などで「確率的信念を更新しているか」を見ている。

マルチラウンド相互作用（multi-round interaction）

1回で当てるのではなく、複数回のやりとりで情報を集めて改善する前提の設定。
論文は「多くのLLMは1回目以降あまり改善しない（plateau）」を主要な観察として示す。

言語化した信念→外部手続きで推薦というハイブリッドも検討：

LLMに嗜好の信念を明示的に言わせ、それを使って推薦を導くと改善する、という示唆も出している（付録Bの方向）。