自動プロンプト最適化技術の体系的調査：A Systematic Survey of Automatic Prompt Optimization Techniques

2025/3/5 11:372025/3/8 15:48

K Ramnath 著 · 24 Feb 2025 · Amazon Web Services

A Systematic Survey of Automatic Prompt Optimization Techniques

Since the advent of large language models (LLMs), prompt engineering has been a crucial step for eliciting desired responses for various Natural Language Processing (NLP) tasks. However, prompt...

https://arxiv.org/abs/2502.16923

Focus

自動プロンプト最適化の系譜

Overview

✅

WHAT（この論文は何？）

自動プロンプト最適化（APO）に関する包括的かつ詳細なレビューを提供し、今後の発展に向けた重要な分野を特定した

WHY（論文の価値は？）

5つのAPO分類体系と、その中の様々な設計を包括的かつ詳細にレビューしつつ、APOのプロセスに共通する基本構造を一般形式で示した

APOのプロセスを定式化した目的関数

：タスクモデル
：初期プロンプト
：APOシステム
：評価指標
：評価セット
：最適なプロンプトテンプレート

離散的なプロンプト最適化では、上記のような目的関数を扱いにくい

トークンの選択肢・プロンプト長・トークンの順序などの組み合わせの数が天文学的な数に至ることから、最適なプロンプトを総当たりで探し出すことは現実的に不可能

[所感] 複数の要素の取りうる値の組み合わせによって、探索すべき候補の数が爆発的に増加する点で、トークンシーケンス探索空間は、ハイパーパラメータ探索空間に似ている

よって、APO技術はAlgorithm 1に記述されている一般的な構造に従って近似解を探す試みと言える

WHERE（調査のキモはどこ？）

探索空間を網羅的に探索することを回避するための、各アプローチごとの探索空間とのそれぞれ異なる向き合い方を分析し、提案手法の特性を明らかにする

（§4）では、評価基準とフィードバックによって（直接的に探索範囲を絞り込むのでなく）有力なプロンプト候補を特定し、そうでない候補を排除するアプローチに焦点を当てる

（§5）では、探索空間に何らかの制約や誘導を導入することで、より効率的に有力なプロンプト候補を生成するアプローチに焦点を当てる

Candidate Prompt Generation

Heuristic-based Edits

ヒューリスティックベースの手法は、離散的なプロンプト最適化問題を扱いやすくする

探索の方向性の誘導

ヒューリスティックベースの手法は、特定のルールや経験に基づいて有力な候補に焦点を当てることで、探索が必要なプロンプトの数を大幅に削減する（無作為な探索を行うのではなく）

計算コストの低減

各探索ステップにおける計算コストが低い

解釈可能性

特定のキーワードの追加や言い換えの操作は、その変更がプロンプトの意図や性能にどのような影響を与えるかを推測しやすい

ヒューリスティックな戦略

モンテカルロサンプリング (Monte Carlo Sampling)
遺伝的アルゴリズム (Genetic Algorithm)
単語/句レベルの編集 (Word / Phrase Level Edits)
語彙の剪定 (Vocabulary Pruning)

一般的な検索空間が非常に冗長だとし、K-means クラスタリングを用いてクラスター中心に最も近い上位2000語を保持

Editing via Auxiliary Trained NN

小規模ニューラルネットワークを、プロンプト編集という特定のタスクに特化させることで、訓練コストや推論速度面でメリットを得ている

専用に訓練された小規模なニューラルネットワークを初期プロンプトを改善するために補助的に利用する

補助的なアプローチ

強化学習 (Reinforcement Learning)
ファインチューニング (Finetuning LLMs)
敵対的生成ネットワーク (Generative Adversarial Networks)

Metaprompt Design

メタプロンプトの設計次第で、LLMによる探索を特定の方向に導いたり、多様な候補を生成させることが可能であり、探索空間を広げるケースや、より効率的な探索を目指すケースが見られる

Coverage-based

単一のプロンプトを拡張するか、複数のプロンプトを個別にまたはアンサンブルとして利用することによって、問題空間全体をカバーしようとする

Program Synthesis

広大で複雑な探索空間を、より構造化され、段階的に探索可能な空間へと変換することで、効率的なプロンプト最適化を実現しようとする

プロンプトをプログラムとして捉えることで、プログラム合成の分野で培われた探索および最適化の技術を応用可能

（§6）では、生成された候補の中から何らかの基準（性能、探索の可能性など）でフィルタリングすることで、有力なプロンプト候補を特定し、そうでない候補を積極的に排除するアプローチに焦点を当てる

APO技術の今後の成長における重要分野

既知および未知のタスクを組み合わせた、よりロバストなタスク非依存APOシステムの評価が必要

調査されたすべてのAPO手法は、タスクの種類が事前に分かっていることを前提としている
オフラインAPO手法では評価用データセットが必要だが、実運用環境では明示的に利用できない

主にAPOの過程で生成される「邪悪な双子」プロンプトの存在

人間にとっては解読不可能で、意味不明に見えるにもかかわらず、適切に作成された通常のプロンプトと比べて遜色ない程度の性能を発揮する
なぜ人間には意味不明なプロンプトが、言語モデルに対して有効に働くことがあるのか、これはプロンプト最適化の研究における重要な課題の一つ

システムプロンプト/エージェントのためのAPO

エージェントシステムの複数のコンポーネントのプロンプトを並列的に最適化する研究の必要性

マルチモーダルAPO

テキストプロンプトだけでなく、大規模マルチモーダルモデルからより良い応答を引き出すために、画像などのマルチモーダル入力の最適化が研究課題
プロンプト最適化におけるモダリティ間の相互作用はまだ十分に探求されていない

Keyword

自動プロンプト最適化 Automatic Prompt Optimization (APO)

以下の特徴を持つ最適化手法

タスクを実行するLLMのパラメータへのアクセスを必要としない

プロンプトの解空間を体系的に探索する

プロンプト改善の人間による解釈可能性を維持する

指示誘導 Instruction Induction

LLMに少数のデモンストレーション（入力と出力の例）を与えることで、LLM自身に人間が理解しやすい自然言語のプロンプトを推論・生成させる方法

手動で作成された指示は、人間がタスクを理解し、その知識に基づいて直接プロンプトを作成する方法と対照的

Honovich et al. (2023)で提案された

シード指示 seed instructions

APOのプロセスを開始するために用いられる、初期のプロンプトまたは指示のこと

手動で作成された指示 (Manual Instructions)とLLMによる指示誘導 (Instruction Induction via LLMs)とがある

最適化の出発点としてのシード指示

LLMの指示誘導を最適化の初期プロンプトに用いる手法

例：

APE (Automatic Prompt Engineer)
DAPO (Dual-Phase Accelerated Prompt Optimization)

クラスタ特化型プロンプト

すべてのデモンストレーションを、最初に類似性に基づいていくつかのグループ（クラスタ）に分け、指示誘導を用いて、別々のプロンプトを生成するアプローチ

データ全体に対して一つの最適なプロンプトを探すのではなく、データの特性が似ているグループごとに、そのグループに特化したプロンプトを指示誘導を用いて作成する

例：

MOP（Mixture-of-Expert-Prompts）
GPO（Generalized Prompt Optimization）

メタインストラクション meta-instruction

LLMに対し、高品質で構造化された初期プロンプトを生成する方法を指示する

生成されるプロンプトが含むべきタスク固有の情報（例：タスクの種類と説明）、出力形式と制約、推論プロセス、専門的なヒントなどを明示的に指示

Evaluation and Feedback 系

Numeric Score Feedback

OIRL (Sun et al., 2024a) 報酬モデル XGBoost

OIRL（Offline Inverse Reinforcement Learning）は、特定の質問（クエリ）に対して、LLMが正しい答えを生成する可能性の高いプロンプトを報酬モデルによって、自動的に選択する

入力はクエリ-プロンプト埋め込みペア

報酬モデルは、XGBoostをベースとして訓練されたモデル

Best-of-N 戦略：最も高い予測スコアを持つ上位N個のプロンプトの中から、最終的に使用するプロンプトを何らかの基準（例えば、最も高いスコアのプロンプト）で選択する

DRPO（Amini et al., 2024）報酬モデル & ICL例を最適化

適切なICLの例を見つけ出し、その後、その例を活用してプロンプトを最適化することで、より効果的なプロンプトエンジニアリングを実現するアプローチ

最適化したい特定のタスクに対して、初期のICL例の集合を用意

初期のICL例を基に、わずかに変更を加えた新しい候補のICL例を生成

生成された候補のICL例を、定義された報酬モデルを用いて評価

報酬に基づいて、より良いと判断された候補のICL例を選択し、現在のICL例の集合を更新

最適化されたICL例に基づいて、新しい候補のタスクプロンプトを生成

生成された候補のプロンプトと、最適化されたICL例を組み合わせたプロンプト全体を用いて、LLMに推論を実行させ、その結果を報酬モデルで評価

評価された報酬に基づいて、より良いと判断された候補のプロンプトを選択し、プロンプトを更新

CLAPS (Zhou et al., 2023) エントロピーベース

負の増分クロスエントロピーによって、言語モデルの出力分布の変化を評価し、有力なトップKの単語を特定し、その単語をプロンプトに追加していくことで、効果的なプロンプトを自動的に発見するアプローチ（勾配を必要としないアプローチ）

プロンプトに語彙の中から各単語を一時的に追加した場合の、言語モデルの出力分布の変化を評価

単語を追加したプロンプトの出力分布と、元のプロンプトの出力分布の負の増分クロスエントロピーを計算

トップK個の最も有望な単語（負の増分クロスエントロピーが大きい単語）を語彙の中から選択

トップK個の単語を現在のプロンプトに追加することで新しい候補プロンプトを構築

候補プロンプトは、評価セットでその性能を評価し、最もモデル性能の高い候補プロンプトが次の最適化イテレーションのために選択されるか、あるいは最終的な最適化されたプロンプトとして採用される

GRIPS（Prasad et al., 2023）エントロピーベース

単にタスクの精度を最大化するだけでなく、出力の多様性を促すエントロピー項を評価指標に加えることで、潜在的に多様なタスクインスタンスに対してよりロバストなプロンプトを発見することを目指すアプローチ

初期のプロンプト候補の集合を用意する（人手orLLM）

各プロンプト候補を用いて、検証セットの各入力に対して、タスクモデルに推論を実行させ、各入力に対する出力分布と予測を得る

タスク加重精度で評価し、プロンプト候補をランキングする

：タスクの精度。正解と予測が一致すれば1、そうでなければ0となる指示関数の合計

：タスクの種類による重みの調整項

：出力分布のエントロピー

エントロピーが高いほど、出力の確率分布がより均一で、多様な出力を生成する

ランキング上位のプロンプト候補を選択し、これらのプロンプトに対してさらに候補のプロンプト生成（例：編集、変種など）と評価のステップを繰り返す

連続するイテレーションで負の改善が見られた場合は、早期終了する

APE、GPS（Xu et al., 2022）、PACE（Dong et al., 2024b）負の対数尤度（NLL: negative log-likelihood）

評価指標として負の対数尤度を用いて、LLMにとって、どれだけ正解を生成しやすいプロンプトであるかを測り、性能の高いプロンプトを自動的に発見するアプローチ

初期のプロンプトを用意する（人手orLLM）

初期プロンプトを用いて、検証セットの各入力に対して、タスクモデルに推論を実行させ、各トークンの予測確率を得る

全体に対して、正解のトークンシーケンス（one-hotベクトル）と予測確率の負の対数を取り、負の対数尤度の平均値を計算する

負の対数尤度の値が小さいほど、LLMが正解のトークンシーケンスを高い確率で生成している

真のone-hotトークンシーケンスに対する負の対数尤度はクロスエントロピーと等価

負の対数尤度に基づいて、現在のプロンプトを評価

複数のプロンプト候補が存在する場合は、負の対数尤度が最も低いプロンプトを最も有望であると判断する

LLM Feedback

LLMEvaluator（Wang et al., 2024a; Long et al., 2024; Sinha et al., 2024）LLMフィードバック

LLMを評価者として活用し、自然言語の指示のみでタスク固有の評価指標なしにプロンプトの最適化を行う

メリット：タスクごとに固有の数値評価指標を設計する必要がない

初期のプロンプト候補の集合を用意する（人手orLLM）

各プロンプト候補を用いて、検証セットの各入力に対して、タスクモデルに推論を実行させ、各入力に対する応答を生成

プロンプトと入力と応答をLLMEvaluator と呼ばれる別の（または同じ）LLMに入力し、評価の観点や基準を自然言語で指示する

指示例：「この応答は質問に正確に答えていますか？」「このプロンプトは明確で理解しやすいですか？」

LLMEvaluatorからテキスト形式で生成されたフィードバックを分析

応答の良し悪しだけでなく、プロンプト自体の問題点や改善の提案を含む

分析されたフィードバックに基づいて、プロンプト候補を改善

単一のプロンプト候補の改善

複数のプロンプト候補の改善

改善されたプロンプト候補に対して、再びここまでのステップを反復し、プロンプトをさらに洗練させる

あらかじめ定められたイテレーション回数に達するか、LLMEvaluatorからのフィードバックが示すプロンプトの品質が十分に高くなったと判断された場合、終了

SCULPT（Juneja et al., 2024）階層的な木構造

階層的な構造でプロンプトを管理し、実行前後の二段階のフィードバックループを通じて段階的に改善していくことで、長い非構造化プロンプトの効果的なチューニングを目指すアプローチ

1. 最適化したい長い非構造化プロンプトを、階層的な木構造で表現

木構造の各ノードは、プロンプトの部分的な内容を表している

構築された階層的なプロンプト木に対して、最初のフィードバックループである予備評価

木構造の各部分（ノード）がプロンプト全体の品質にどのように影響するかを評価

この評価に基づいて、問題のあるノードを特定

予備評価で特定したノードに対応するプロンプトの部分を実行し、その結果に対してより具体的なエラー評価を得る、二段階目のフィードバックループ

予備評価とエラー評価の二段階で得られたフィードバックを用いて、階層的なプロンプト木を更新する

木構造のノードの内容の修正、ノード間の関係性の調整、あるいは新たなノードを追加・削除する

更新された階層的なプロンプト木を、再びテキスト形式のプロンプト（新しいプロンプト候補）に戻す

再合成されたプロンプト候補に対し、次の最適化イテレーションを回す

PACE（Dong et al., 2024b）アクター・クリティック

プロンプトの洗練プロセス自体にアクター・クリティック編集フレームワークを適用し、より動的で適応的な調整を可能にする

CRISPO（He et al., 2025）多側面批評-提案メタプロンプト

複数側面からの批判と提案を行うメタプロンプトを用いて、生成された応答の欠陥を、スタイル、精度、内容の一致など複数の側面から特定し、その後、詳細な固有のフィードバックを活用して反復的にプロンプトを更新する

Autohint（Sun et al., 2023）

複数の不正解な推論に対するフィードバックをヒントとして要約し、単一のプロンプト候補に改善を促すアプローチ

ProTeGi（Pryzant et al., 2023）, TextGrad（Yuksekgonul et al., 2024）テキスト勾配

これらのアプローチは、連続的な勾配降下法のように直接的な数値的な勾配を用いるのではなく、テキスト編集という離散的な操作を通じて、プロンプトの改善の方向性を探索する

候補プロンプトの選択に Upper Confidence Bound (UCB) を用いたバンディット探索の枠組みを採用する

初期のプロンプトを用意する（人手）

モンテカルロサンプリングを用いて、プロンプトの改善の方向性となる複数のテキストの「勾配」をサンプリングする

勾配の例：プロンプト内の単語やフレーズの変更、追加、削除、言い換えなど、プロンプトに対する具体的な編集操作として表現される

サンプリングされた各テキストの「勾配」を初期プロンプト（または前回のイテレーションで選ばれた有望なプロンプト）に適用し、複数の新しいプロンプト候補を生成

複数のプロンプト候補を、検証データセット上で評価

評価の結果に基づいて、最も有望なプロンプト候補を選択し、次のイテレーションのために保持

PromptAgent（Wang et al., 2024a）モンテカルロ木探索 (MCTS)

エラー収集によって、専門家が作成したプロンプトを模倣することを目指すアプローチ

PREFER (Zhang et al., 2024a) アンサンブル

フィードバック、反映、洗練のサイクルを利用して、複数のプロンプトをアンサンブルで用いることで、モデルの汎化能力を向上させることを目指すアプローチ

Survival of the Safest（SOS）（Sinha et al., 2024）安全性スコア

性能と安全性のバランスを明示的に考慮した多目的最適化を行うアプローチ

StraGo（Wu et al., 2024）

正しい予測と誤った予測からの学習を重視し、既存の良いプロンプトを保護しながら改善を目指すアプローチ

Candidate Prompt Generation 系

Metaprompt Design

OPRO（Yang et al., 2024a）メタプロンプト設計

通常のプロンプトが特定のタスクに対するLLMの振る舞いを指示するのに対し、OPRO（Optimization by PROmpting）は、プロンプト最適化のプロセス自体をLLMに指示するメタプロンプト設計を行う

タスクに対して初期プロンプトを用意

用意した初期プロンプトを評価用データセット () で実行し、評価指標 () に基づいてその性能を評価

以下のようなメタプロンプトを作成

現在のプロンプト最適化の目標と状況を生成する

これまでの最適化の過程で生成された複数のプロンプト候補を列挙する

各プロンプト候補がで得られた性能スコアを付与する

提示された情報（課題の記述、過去の候補とスコア）に基づいて、より良いプロンプトを生成するようメタ指示する

DAPO（Yang et al., 2024c）成功例を利用する

メタインストラクションと期待される成功例を活用して、効率的に質の高い初期プロンプトを生成し、その後、以前の経験を活かしながら文レベルで反復的にプロンプトを洗練していくアプローチ

メタインストラクションを用いて、LLMが入出力例からタスクの具体的な内容や期待される振る舞い（成功例）を抽出するプロセスを促し、初期プロンプトに反映させる

初期プロンプトを反復的に洗練し、以前のプロンプト最適化過程で得られたチューニング経験を活かしながら、文レベルでプロンプトを最適化していく

文を単位として変更や修正を行うため、プロンプト全体の意味を大きく変えることなく、より細やかな調整が可能

フィルタリング戦略：TopK 選択

Coverage-based

AMPO（Yang et al., 2024d）失敗例を利用した単一プロンプトの拡張

LLMのフィードバックを活用して、具体的な失敗例をプロンプトに反映させることで、プロンプトの弱点を克服し、より多くの入力に対応させるアプローチ

LLMに評価用データセット（）分析させ、現在のプロンプトでどのような場合に失敗（不正解や不適切な出力）するかのフィードバックを獲得する

特定された個々の失敗例が、メタインストラクションにif-then-else形式で記述される

プロンプトの指示だけでなく、過去の失敗例とその対処法を学習するため、LLMはよりロバストな応答を生成可能

フィルタリング戦略：TopK 選択

UniPrompt（Juneja et al., 2024）

構造化されたテンプレートの空欄やプレースホルダーに、LLMが自然言語で具体的なタスク指示、入力の形式、出力の形式、制約などを生成して埋め込むアプローチ

背景知識に基づいて、タスクを構成する可能性のある複数の重要な意味的側面を特定し、それを初期プロンプトの要素として組み込む

人間が新しいタスクに取り組む際に、自分の知識や経験を基に、どのような情報をプロンプトに含めるべきかを考えるプロセスに相当

背景知識：タスクを遂行するために考慮すべき様々な要素や視点（例：質問応答タスクの場合、「質問の種類」「必要な知識領域」「期待される回答形式」など）

入力-出力例を初期プロンプトに追加、あるいは初期プロンプトの内容を例に合わせて調整し、タスクの具体的な要求にプロンプトを適合させる

人間が作成したプロンプトに対して、具体的な成功例や失敗例を検討しながら、より効果的な指示になるように修正を加えるプロセスに相当

MOP（Wang et al. 2025）クラスタ特化型 （MoEっぽい発想）

エキスパートプロンプトの混合（Mixture-of-Expert-Prompts）と呼ばれるアプローチ

入力をクラスタリングし、それぞれのクラスタに特化したエキスパートプロンプトを選択する

局所的な最適化に陥るリスクを低減し、より広範な入力空間に対して適切なプロンプトを選択可能

与えられた入出力例全てを、K-meansクラスタリングを用いてグループ化

各クラスターに対し、Region-based Joint Search (RBJS) アルゴリズムを用いて、最適なプロンプトを生成する

RBJSは、そのクラスター内のデモンストレーションだけでなく、他のクラスターに属するデモンストレーションも混ぜて利用する

推論時には、与えられた入力インスタンスが、どのエキスパートプロンプトを呼び出すべきかを決定する

各クラスターのセントロイドとの距離を計算し（）エキスパートプロンプトを決定

GPO （Li et al., 2023c）アンサンブル

複数の異なるプロンプトを用いてLLMから獲得した複数の出力を組み合わせて、最終的な出力の精度やロバスト性を向上させることを目指すアプローチ

入力とその正解出力からなるラベルつきデータセットから複数のプロンプトを生成する

生成されたプロンプトのアンサンブルを、ラベルなしの入力のみのデータ（ターゲット）に適用し、複数の出力に対して多数決を行う

Program Synthesis

DSP (Khattab et al., 2022)

DSP (Demonstrate-Search-Predict)は、LLMの推論プロセスを一つの連続したプロンプトによる処理から、3つのモジュール構造へ分解する

タスク固有の例（Demonstrate）、外部知識の利用（Search）、そしてそれらの統合による推論（Predict）

定義された手順（プログラム）を実行するように、情報が段階的に処理されていく明確な実行フローを定義した

各段階に必要なプロンプトやデータの種類を特定し、それぞれの段階における探索空間を限定する

Demonstrate段階では効果的なデモンストレーションの探索

Search段階では関連情報を効率的に検索するための方法の探索

Predict段階では検索された情報とデモンストレーションを効果的に組み合わせるプロンプトの探索

DSPY (Khattab et al., 2024)

LLMの一連の処理を、有向グラフ（構造化されたテキスト変換グラフ）として捉え、明示的な分割を行う。各段階ごとに、プロンプトやモデル設定を、ICLとコンパイラを通じて自動最適化する

コンパイラによって、ルールやアルゴリズムに基づいてプロンプトの生成、評価、改善を行う

テキスト変換グラフを構築する。グラフの各ノードは特定のテキスト変換操作（例：質問応答、情報検索、テキスト生成など）を表し、エッジはデータの流れをを表す

各テキスト変換ノードで選択された特定のLLMに、デモンストレーション例を与えて（ICL）モデルの振る舞いを制御する

コンパイラによるパイプラインの最適化

各テキスト変換ノードに対応する最適なプロンプトを自動的に生成

各タスクに最も適したモデルを選択

テキスト変換の実行順序や、中間結果の処理方法などを効率化

DLN (Sordoni et al., 2023)

DLNは、複雑なタスクにおけるLLMの連鎖的な呼び出しを構造化し、各ステップの動作を学習可能なプロンプトテンプレートによって定義し、変分推論によってその全体を最適化する

連鎖的なLLM呼び出しを、複数のLLMが連携して段階的に解決するプログラムとして捉え、この連携を深層ネットワークのようにモデル化しプロンプトの最適化を行う

変分推論により、直接計算が困難な確率分布を、より扱いやすい分布で近似可能

タスクをより小さなサブタスクに分解し、それぞれのサブタスクをLLMの層に対応付ける

元のタスクの特定のサブタスクに対応する各層は、学習可能なプロンプトテンプレートでサブタスクを実行する

各層のプロンプトテンプレートが変分パラメータとなり、タスクの目標を達成するように間接的に学習される

ネットワーク全体の出力が教師データと近づくように、各プロンプトテンプレートが調整される

MIPRO (Opsahl-Ong et al., 2024)

複雑なタスクを複数の独立したモジュールに分割し、固定されたコードではなく、全体として最適化された指示とデモンストレーションによって制御される

SAMMO (Schnabel and Neville, 2024)

プロンプトを単なるテキストの羅列ではなく、有向非巡回グラフ (DAG) のような構造的な形式で表現する

ユーザーが定義した変異規則に従って、プロンプトの構造からDAGを自動的に生成し、探索を通じて最適化する

プロンプトのDAG構造を探索するために、ユーザーはノードの追加、削除、編集、接続の変更など、DAGを変化させるための変異規則を定義する

初期のプロンプトDAGから出発し、様々なDAGを生成し、様々な探索戦略（例：ランダム探索、山登り法、遺伝的アルゴリズム）に基づいて最適なDAGを探索する

生成されたDAGは、対応するプロンプトに変換され、評価タスクにおける性能に基づいて評価される

探索の結果、最適と判断されたプロンプトDAGは、最終的にLLMに入力できるテキスト形式のプロンプトに変換される