ブログ/
プロンプトの A/B テストをどう設計するか(評価指標・サンプル設計)
2026年6月25日·約6分で読めます
「プロンプト変えたら良くなった気がする」――この判断を 100 個のプロンプトで繰り返すと、どれが本当に効いたのか分からなくなります。プロンプト改善を組織で運用するには、A/B テストによる数値検証が必須です。
なぜ「感覚」評価では足りないか
人間によるプロンプト評価には次のバイアスが入ります。
- 新規性バイアス: 新しい方が良く見える
- 確証バイアス: 「これで良くなるはず」と思い込む
- 直近性バイアス: 直近の出力 1 〜 2 件で判断
- 個人差: 評価者によって基準が違う
業務でのプロンプトは 同じ仕事を再現性高く回す のが目的なので、感覚評価では限界があります。
A/B テストの 4 ステップ
ステップ 1: 指標を定義する
何をもって「良い」とするかを 数値化 します。
| タスク種別 | 指標例 |
|---|---|
| 分類 | 正解率、F1 スコア |
| 要約 | 要約に含まれるべきキーワードの出現率、情報網羅率 |
| 抽出 | 抽出件数、誤抽出率 |
| 返信文生成 | トーン適合度(評価者スコア)、必須項目網羅 |
| 共通 | 入出力トークン、レイテンシ |
「品質」と「コスト/速度」の両方を見ます。片方だけだと改善が偏ります。
ステップ 2: サンプルを収集する
評価用の 代表的な入力データ を集めます。
- 最低 30 件: 統計的な差を見るには 30 件以上が目安
- 多様性: タスクの典型ケース + エッジケース
- 時期分散: 1 週間以上の期間から集める
- 正解データ: 可能なら人間が正解を作る
ステップ 3: 盲検(ブラインド評価)
評価者が「どちらの出力が A か B か」を知らない状態で評価します。
あなたはプロンプト出力の評価者です。
以下の 2 つの出力について、次の観点で 1-5 点で評価してください。
# 観点
- 指示への忠実度
- 出力の具体性
- フォーマット遵守
- 業務での使いやすさ
# 出力 1
{{output_1}}
# 出力 2
{{output_2}}
# 評価
(どちらが A か B かは伝えない)
評価者が AI でも人でも、先入観を入れないことが重要です。
ステップ 4: 集計・統計判定
- 平均スコア: A と B の平均を比較
- 勝率: 何 % のサンプルで A が勝ったか
- t 検定: 統計的有意性のチェック(30 件以上ある場合)
「3 件試して 2 件で勝った」では何も決められません。
評価指標の具体例
精度(Accuracy)
タスクが分類・抽出の場合。
精度 = 正解数 / 全サンプル数
F1 スコア
抽出タスクで「取りこぼし」と「誤抽出」を両方見たい時。
キーワード網羅率
要約タスクで「重要情報が抜けていないか」を見る時。
キーワード網羅率 = 要約に含まれる正解キーワード数 / 正解キーワード総数
トークン効率
トークン効率 = 出力品質スコア / トークン数
「品質を保ちつつ削減できているか」を見る複合指標。
自動化の方向性
A/B テストを毎回手動でやるのは現実的でないので、評価パイプラインを組みます。
- 評価用データセットをスプレッドシート/DB に蓄積
- プロンプト変更時に自動で全件流す
- AI 評価者で各サンプルを採点
- 集計レポートを Slack に通知
このパイプラインができると、プロンプト改善の 意思決定スピード が圧倒的に上がります。
注意点
- AI 評価者にもバイアス: AI 同士の評価は「長い方が良い」「論理的に見える方が良い」と偏る傾向。人間サンプリングと組み合わせる
- 小さな改善は見えない: 5% 程度の改善は統計的に有意にならないことが多い
- タスクが変われば評価軸も変わる: 汎用評価軸は無い
PrompTune で運用する
PrompTune の 無料診断ツール ではプロンプトを 5 軸で診断・スコアリングします。A/B テストの「評価軸」を定義する起点として活用ください。