プロンプト評価の5つの指標|良いプロンプトを数値で判断する方法
なぜプロンプトを「数値」で評価するのか
プロンプトの品質は、感覚的に判断されがちです。「なんとなく良い指示が書けた」「AIが期待通りに答えてくれた」——こうした主観的な評価では、安定した品質を維持できません。
数値化するメリットは3つあります。
- 再現性: 同じ基準で誰が評価しても同じ結果になる
- 改善方向の明確化: どの項目が弱いのか一目でわかる
- 品質ラインの設定: チームで「スコア3.5以上」のようなルールを設けられる
PrompTuneでは、プロンプトの品質を5つの評価項目で1〜5点にスコアリングしています。この記事では、各項目の定義・良い例・悪い例を詳しく解説します。
5つの評価項目
1. 明確さ(Clarity)— ウェイト: 0.24
定義: AIに何をしてほしいのかが、一読で明確に伝わるか。
明確さは5項目の中で最も高いウェイト(0.24)を持ちます。どれだけ具体的で構造化されたプロンプトでも、そもそもタスクが曖昧であれば意味がないためです。
❌ スコア低「マーケティングについてまとめて」
→ 何を、どの範囲で、誰向けにまとめるのか不明
✅ スコア高「BtoB SaaSのコンテンツマーケティング戦略について、
初心者のマーケティング担当者向けに要点を5つにまとめてください」
→ 対象・範囲・出力量が明確
評価のポイント:
- タスクの種類が一つに絞られているか(要約なのか、分析なのか、生成なのか)
- 複数の解釈が成り立つ曖昧な表現がないか
- 「いい感じに」「適切に」などの主観的な表現を避けているか
2. 具体性(Specificity)— ウェイト: 0.22
定義: 必要な条件・制約・パラメータが具体的に指定されているか。
具体性は、AIに「何を」だけでなく「どのように」を伝える項目です。数値、固有名詞、条件分岐などが含まれているほどスコアが高くなります。
❌ スコア低「短めのブログ記事を書いて」
→ 「短め」が何文字なのか不明
✅ スコア高「800〜1200文字のブログ記事を書いてください。
ターゲット:30代の会社員
トーン:カジュアルだが信頼感のある文体
キーワード:時短料理、平日夜ごはん」
→ 文字数・ターゲット・トーン・キーワードが具体的
評価のポイント:
- 数値や範囲が指定されているか(文字数、個数、期間など)
- ターゲットや前提条件が明記されているか
- 「多め」「少なめ」などの相対的表現を使っていないか
3. 構造(Structure)— ウェイト: 0.20
定義: プロンプトが論理的に整理され、読みやすい構造になっているか。
長いプロンプトほど構造の重要性が増します。箇条書き、番号付きリスト、セクション分けなどを活用して、AIが解析しやすい形式にすることが重要です。
❌ スコア低「来月の営業会議のアジェンダを作ってほしいんだけど先月の売上が未達だったから原因分析もして対策案も3つくらい考えてあとQ3の目標設定もお願い」
✅ スコア高「来月の営業会議のアジェンダを作成してください。
含める項目:
1. 先月の売上実績レビュー(目標比と差分を明記)
2. 未達の原因分析(外部要因・内部要因に分類)
3. 改善対策案を3つ(実行難易度と期待効果を付記)
4. Q3の売上目標設定(根拠も記載)
出力形式:Markdown、各項目にH2見出しを付ける」
評価のポイント:
- 情報が論理的に整理されているか
- 箇条書きやセクション分けを活用しているか
- 一文が長すぎず、読みやすいか
4. コンテキスト(Context)— ウェイト: 0.18
定義: AIがタスクを遂行するために必要な背景情報が提供されているか。
コンテキストとは、「なぜこのタスクが必要なのか」「どういう状況で使うのか」「読者は誰か」といった背景情報です。同じタスクでも、コンテキストの有無で出力品質が大きく変わります。
❌ スコア低「お詫びメールを書いて」
→ 何について、誰に、どの程度の問題なのか不明
✅ スコア高「以下の状況を踏まえて、お詫びメールを書いてください。
状況:
- ECサイトで注文した商品が3日遅延して届いた
- 原因は配送業者の手配ミス(当社に直接の過失はない)
- 顧客は初回購入者で、レビューサイトにクレームを投稿済み
- 目標:顧客の怒りを鎮め、次回購入につなげる
トーン:誠実で丁寧、言い訳がましくない」
評価のポイント:
- 背景情報・前提条件が明記されているか
- AIにどの「役割」を期待するかが伝わるか
- 出力の利用シーンが想像できるか
5. 出力制御(Output Control)— ウェイト: 0.16
定義: 出力の形式・長さ・スタイルが明示的に指定されているか。
出力制御は、AIの回答を「使える形」に整えるための項目です。フォーマット、文字数、言語、箇条書きか文章かなどを指定することで、後から手直しする手間を大幅に削減できます。
❌ スコア低「競合分析をして」
→ 表なのかレポートなのか、何社分なのか不明
✅ スコア高「以下の3社の競合分析をしてください。
対象:Slack、Microsoft Teams、Discord
比較項目:料金、主要機能、対象ユーザー、市場シェア
出力形式:Markdown表(列:企業名、行:比較項目)
文字数:表の下に各社100文字の総評を追加
言語:日本語」
評価のポイント:
- 出力形式が指定されているか(表、箇条書き、JSON、Markdownなど)
- 文字数や項目数の制約があるか
- トーンやスタイルが指定されているか
スコアリングの仕組み
ウェイト配分の根拠
5項目のウェイトは均等ではなく、以下の配分になっています。
| 項目 | ウェイト | 根拠 |
|---|---|---|
| 明確さ | 0.24 | タスク自体が曖昧だと他の項目が無意味になるため、最重要 |
| 具体性 | 0.22 | 具体的な条件指定はAIの出力品質に直結する |
| 構造 | 0.20 | 複雑なタスクほど構造が出力精度を左右する |
| コンテキスト | 0.18 | 背景情報は品質向上に効果的だが、シンプルなタスクでは不要な場合もある |
| 出力制御 | 0.16 | 形式指定は重要だが、内容の質が先決 |
総合スコアの算出
総合スコアは、各項目のスコア(1〜5点)にウェイトを掛けた加重平均です。
総合スコア = 明確さ×0.24 + 具体性×0.22 + 構造×0.20
+ コンテキスト×0.18 + 出力制御×0.16
例えば、明確さ4、具体性3、構造4、コンテキスト3、出力制御2のプロンプトの場合:
4×0.24 + 3×0.22 + 4×0.20 + 3×0.18 + 2×0.16
= 0.96 + 0.66 + 0.80 + 0.54 + 0.32
= 3.28
総合スコア 3.28 となります。
スコア別の目安
| スコア帯 | 評価 | 特徴 |
|---|---|---|
| 4.0〜5.0 | 優秀 | プロンプトエンジニアリングの原則を十分に活用している |
| 3.0〜3.9 | 良好 | 基本はできているが、改善の余地がある |
| 2.0〜2.9 | 要改善 | 重要な要素が欠けている。改善提案に沿って修正すべき |
| 1.0〜1.9 | 不十分 | 最低限の情報しかなく、AIの出力品質が安定しない |
スコアを上げるための実践ポイント
低スコアになりがちなパターン
- 一行プロンプト: 「〜して」だけの指示はほぼ全項目が低スコアになります
- 曖昧な形容詞の多用: 「良い」「適切な」「いい感じの」は明確さと具体性を下げます
- 出力形式の未指定: 表が欲しいのに指定しないと、長文の文章が返ってきます
スコアを効率的に上げる方法
- まず明確さを改善する: 最もウェイトが高いので、タスクを一文で言い切る
- 数値を入れる: 文字数、個数、期間を指定するだけで具体性が上がる
- 出力形式を一行追加する: 「出力形式:Markdown表」の一行でスコアが改善する
まとめ
プロンプトの品質を「なんとなく」で判断するのではなく、5つの指標で数値化することで、改善の方向性が明確になります。
まずは自分のプロンプトが何点なのか、PrompTuneの無料診断で確認してみてください。