ブログ/プロンプトの A/B テストをどう設計するか（評価指標・サンプル設計）

プロンプトの A/B テストをどう設計するか（評価指標・サンプル設計）

2026年6月25日·約6分で読めます

「プロンプト変えたら良くなった気がする」――この判断を 100 個のプロンプトで繰り返すと、どれが本当に効いたのか分からなくなります。プロンプト改善を組織で運用するには、A/B テストによる数値検証が必須です。

なぜ「感覚」評価では足りないか

人間によるプロンプト評価には次のバイアスが入ります。

新規性バイアス: 新しい方が良く見える
確証バイアス: 「これで良くなるはず」と思い込む
直近性バイアス: 直近の出力 1 〜 2 件で判断
個人差: 評価者によって基準が違う

業務でのプロンプトは 同じ仕事を再現性高く回す のが目的なので、感覚評価では限界があります。

A/B テストの 4 ステップ

ステップ 1: 指標を定義する

何をもって「良い」とするかを 数値化 します。

タスク種別	指標例
分類	正解率、F1 スコア
要約	要約に含まれるべきキーワードの出現率、情報網羅率
抽出	抽出件数、誤抽出率
返信文生成	トーン適合度（評価者スコア）、必須項目網羅
共通	入出力トークン、レイテンシ

「品質」と「コスト/速度」の両方を見ます。片方だけだと改善が偏ります。

ステップ 2: サンプルを収集する

評価用の 代表的な入力データ を集めます。

最低 30 件: 統計的な差を見るには 30 件以上が目安
多様性: タスクの典型ケース + エッジケース
時期分散: 1 週間以上の期間から集める
正解データ: 可能なら人間が正解を作る

ステップ 3: 盲検（ブラインド評価）

評価者が「どちらの出力が A か B か」を知らない状態で評価します。

あなたはプロンプト出力の評価者です。
以下の 2 つの出力について、次の観点で 1-5 点で評価してください。

# 観点
- 指示への忠実度
- 出力の具体性
- フォーマット遵守
- 業務での使いやすさ

# 出力 1
{{output_1}}

# 出力 2
{{output_2}}

# 評価
（どちらが A か B かは伝えない）

評価者が AI でも人でも、先入観を入れないことが重要です。

ステップ 4: 集計・統計判定

平均スコア: A と B の平均を比較
勝率: 何 % のサンプルで A が勝ったか
t 検定: 統計的有意性のチェック（30 件以上ある場合）

「3 件試して 2 件で勝った」では何も決められません。

評価指標の具体例

精度（Accuracy）

タスクが分類・抽出の場合。

精度 = 正解数 / 全サンプル数

F1 スコア

抽出タスクで「取りこぼし」と「誤抽出」を両方見たい時。

キーワード網羅率

要約タスクで「重要情報が抜けていないか」を見る時。

キーワード網羅率 = 要約に含まれる正解キーワード数 / 正解キーワード総数

トークン効率

トークン効率 = 出力品質スコア / トークン数

「品質を保ちつつ削減できているか」を見る複合指標。

自動化の方向性

A/B テストを毎回手動でやるのは現実的でないので、評価パイプラインを組みます。

評価用データセットをスプレッドシート/DB に蓄積
プロンプト変更時に自動で全件流す
AI 評価者で各サンプルを採点
集計レポートを Slack に通知

このパイプラインができると、プロンプト改善の 意思決定スピード が圧倒的に上がります。

注意点

AI 評価者にもバイアス: AI 同士の評価は「長い方が良い」「論理的に見える方が良い」と偏る傾向。人間サンプリングと組み合わせる
小さな改善は見えない: 5% 程度の改善は統計的に有意にならないことが多い
タスクが変われば評価軸も変わる: 汎用評価軸は無い

PrompTune で運用する

PrompTune の無料診断ツールではプロンプトを 5 軸で診断・スコアリングします。A/B テストの「評価軸」を定義する起点として活用ください。

Try it

あなたのプロンプトも、診断してみませんか？

無料・ログイン不要。30 秒でスコアと改善案が出ます。業務テンプレもそのまま使えます。

無料で診断するテンプレ集を見る