ブログ/プロンプトの A/B テストをどう設計するか(評価指標・サンプル設計)

プロンプトの A/B テストをどう設計するか(評価指標・サンプル設計)

2026年6月25日·約6分で読めます

プロンプト変えたら良くなった気がする」――この判断を 100 個のプロンプトで繰り返すと、どれが本当に効いたのか分からなくなります。プロンプト改善を組織で運用するには、A/B テストによる数値検証が必須です。

なぜ「感覚」評価では足りないか

人間によるプロンプト評価には次のバイアスが入ります。

  • 新規性バイアス: 新しい方が良く見える
  • 確証バイアス: 「これで良くなるはず」と思い込む
  • 直近性バイアス: 直近の出力 1 〜 2 件で判断
  • 個人差: 評価者によって基準が違う

業務でのプロンプトは 同じ仕事を再現性高く回す のが目的なので、感覚評価では限界があります。

A/B テストの 4 ステップ

ステップ 1: 指標を定義する

何をもって「良い」とするかを 数値化 します。

タスク種別指標例
分類正解率、F1 スコア
要約要約に含まれるべきキーワードの出現率、情報網羅率
抽出抽出件数、誤抽出率
返信文生成トーン適合度(評価者スコア)、必須項目網羅
共通入出力トークン、レイテンシ

品質」と「コスト/速度」の両方を見ます。片方だけだと改善が偏ります。

ステップ 2: サンプルを収集する

評価用の 代表的な入力データ を集めます。

  • 最低 30 件: 統計的な差を見るには 30 件以上が目安
  • 多様性: タスクの典型ケース + エッジケース
  • 時期分散: 1 週間以上の期間から集める
  • 正解データ: 可能なら人間が正解を作る

ステップ 3: 盲検(ブラインド評価)

評価者が「どちらの出力が A か B か」を知らない状態で評価します。

あなたはプロンプト出力の評価者です。
以下の 2 つの出力について、次の観点で 1-5 点で評価してください。

# 観点
- 指示への忠実度
- 出力の具体性
- フォーマット遵守
- 業務での使いやすさ

# 出力 1
{{output_1}}

# 出力 2
{{output_2}}

# 評価
(どちらが A か B かは伝えない)

評価者が AI でも人でも、先入観を入れないことが重要です。

ステップ 4: 集計・統計判定

  • 平均スコア: A と B の平均を比較
  • 勝率: 何 % のサンプルで A が勝ったか
  • t 検定: 統計的有意性のチェック(30 件以上ある場合)

3 件試して 2 件で勝った」では何も決められません。

評価指標の具体例

精度(Accuracy)

タスクが分類・抽出の場合。

精度 = 正解数 / 全サンプル数

F1 スコア

抽出タスクで「取りこぼし」と「誤抽出」を両方見たい時。

キーワード網羅率

要約タスクで「重要情報が抜けていないか」を見る時。

キーワード網羅率 = 要約に含まれる正解キーワード数 / 正解キーワード総数

トークン効率

トークン効率 = 出力品質スコア / トークン数

品質を保ちつつ削減できているか」を見る複合指標。

自動化の方向性

A/B テストを毎回手動でやるのは現実的でないので、評価パイプラインを組みます。

  1. 評価用データセットをスプレッドシート/DB に蓄積
  2. プロンプト変更時に自動で全件流す
  3. AI 評価者で各サンプルを採点
  4. 集計レポートを Slack に通知

このパイプラインができると、プロンプト改善の 意思決定スピード が圧倒的に上がります。

注意点

  • AI 評価者にもバイアス: AI 同士の評価は「長い方が良い」「論理的に見える方が良い」と偏る傾向。人間サンプリングと組み合わせる
  • 小さな改善は見えない: 5% 程度の改善は統計的に有意にならないことが多い
  • タスクが変われば評価軸も変わる: 汎用評価軸は無い

PrompTune で運用する

PrompTune の 無料診断ツール ではプロンプトを 5 軸で診断・スコアリングします。A/B テストの「評価軸」を定義する起点として活用ください。

Try it

あなたのプロンプトも、診断してみませんか?

無料・ログイン不要。30 秒でスコアと改善案が出ます。業務テンプレもそのまま使えます。