プロンプトのトークン削減テクニック 7 選(コスト削減・速度向上)
LLM の API 利用が業務に組み込まれるほど、トークンコストとレイテンシが無視できなくなります。プロンプトを工夫して 20 〜 50% のトークン削減 を実現すれば、コストと速度の両方に効きます。本記事では実用的な 7 つのテクニックを紹介します。
なぜトークン削減が効くか
LLM の API は 入力トークン × 出力トークン で課金されます。プロンプトを短くするだけで:
- コスト: 入力トークン × リクエスト数だけ直接削減
- レイテンシ: 入力長が長いほど初回レスポンスが遅い
- 品質: 短いプロンプトの方が AI が指示を見落としにくい場合がある
特に 大量バッチ処理 や リアルタイムチャット では効果絶大です。
7 つのテクニック
1. システムへの移譲
毎回 user メッセージに含めている 役割定義・トーン・出力形式 をシステムプロンプトに移します。
# 移譲前(user に毎回)
あなたは丁寧なサポート担当です。3 段構成で...
質問: {{question}}
# 移譲後(system に固定)
[system] あなたは丁寧なサポート担当です。3 段構成で...
[user] {{question}}
Claude の Prompt Caching と併用するとさらに効きます。
2. 重複除去
長いプロンプトには気付かないうちに重複が混ざります。
# Before
- 出力は JSON 形式
- 必ず JSON で返してください
- レスポンスは valid な JSON にすること
# After
- 出力は JSON 形式(valid な JSON)
3 段の指示が 1 行に。
3. 番号付き圧縮
冗長な説明を番号付きリストに圧縮します。
# Before
プロンプトを評価する際は、明確さ、具体性、構造、コンテキスト、出力制御の
5 つの観点があります。明確さはタスクが明確に...
# After
評価軸: 明確さ/具体性/構造/コンテキスト/出力制御(各 1-5 点)
説明を削っても、AI は文脈から軸の意味を推測できます。
4. 省略言語
「Markdown 風」「Claude 風」など、AI が解釈できる省略記法を使います。
# Before
JSON 形式で、scores オブジェクトに各項目を 1-5 点で、overall に平均を、
summary に総評を 50 字以内で出力してください。
# After
JSON 出力:
{ scores: {goal,role,context,rules,format: 1-5}, overall: 1.0-5.0, summary: <50字> }
擬似コード風の方が短くなり、AI も理解できます。
5. 参照 ID で指す
長い文脈を 参照 ID で指せるようにします。
# 顧客プロフィール
[customer-id-001]
- 業種: SaaS
- 規模: 100 名
- 契約: Pro プラン
# 質問
[customer-id-001] への返信を作成してください。
複数顧客を扱うプロンプトで、毎回顧客情報を全部書く必要がなくなります。
6. Few-shot 圧縮
例示を短く、要点だけに削ります。
# Before(冗長な Few-shot)
入力例 1: "とても素晴らしい商品でした。本当に感謝しています!" →
このメッセージは顧客が商品に満足していることを示しています。
分類は positive です。
# After
"とても素晴らしい商品でした" → positive
"使いにくいので解約します" → negative
"問い合わせがあります" → neutral
例文は 入力 → 出力 の対だけで十分です。
7. 出力上限の指定
出力トークンも課金対象です。明示的に上限を指定します。
- 各項目 50 字以内
- 全体で 300 トークン以内に収める
- 余分な前置きや解説は禁止
「1500 字くらいで」のような曖昧指定より、明確な制約の方が効きます。
削減しすぎの落とし穴
削減を追求しすぎると次の問題が出ます。
- 省略表現を AI が誤解: 「JSON 出力」だけだとフィールド名がブレる
- Few-shot を削りすぎて精度低下: 1 例だけだと判断軸が伝わらない
- コンテキスト不足で出力が薄い: 業務固有情報を削ると当たり障りない出力に
削減 → 精度測定 → 戻す のサイクルを回すのが安全です。
計測のすすめ
「トークン削減できた気がする」では意味がありません。次の指標を計測します。
- 入力トークン数(リクエスト 1 回あたり)
- 出力トークン数
- レスポンス時間
- 出力品質(人 or AI が 5 段階評価)
A/B で「削減前 vs 削減後」を 50 件ずつ流せば、効果は数値で見えます。
PrompTune で運用する
PrompTune の 無料診断ツール では、プロンプトを 5 軸で診断し、冗長な指示や重複を検出して改善提案します。削減と品質の両立に役立ちます。