ブログ/プロンプトのトークン削減テクニック 7 選(コスト削減・速度向上)

プロンプトのトークン削減テクニック 7 選(コスト削減・速度向上)

2026年6月25日·約6分で読めます

LLM の API 利用が業務に組み込まれるほど、トークンコストレイテンシが無視できなくなります。プロンプトを工夫して 20 〜 50% のトークン削減 を実現すれば、コストと速度の両方に効きます。本記事では実用的な 7 つのテクニックを紹介します。

なぜトークン削減が効くか

LLM の API は 入力トークン × 出力トークン で課金されます。プロンプトを短くするだけで:

  • コスト: 入力トークン × リクエスト数だけ直接削減
  • レイテンシ: 入力長が長いほど初回レスポンスが遅い
  • 品質: 短いプロンプトの方が AI が指示を見落としにくい場合がある

特に 大量バッチ処理リアルタイムチャット では効果絶大です。

7 つのテクニック

1. システムへの移譲

毎回 user メッセージに含めている 役割定義・トーン・出力形式 をシステムプロンプトに移します。

# 移譲前(user に毎回)
あなたは丁寧なサポート担当です。3 段構成で...
質問: {{question}}

# 移譲後(system に固定)
[system] あなたは丁寧なサポート担当です。3 段構成で...
[user] {{question}}

Claude の Prompt Caching と併用するとさらに効きます。

2. 重複除去

長いプロンプトには気付かないうちに重複が混ざります。

# Before
- 出力は JSON 形式
- 必ず JSON で返してください
- レスポンスは valid な JSON にすること

# After
- 出力は JSON 形式(valid な JSON)

3 段の指示が 1 行に。

3. 番号付き圧縮

冗長な説明を番号付きリストに圧縮します。

# Before
プロンプトを評価する際は、明確さ、具体性、構造、コンテキスト、出力制御の
5 つの観点があります。明確さはタスクが明確に...

# After
評価軸: 明確さ/具体性/構造/コンテキスト/出力制御(各 1-5 点)

説明を削っても、AI は文脈から軸の意味を推測できます。

4. 省略言語

Markdown 風」「Claude 風」など、AI が解釈できる省略記法を使います。

# Before
JSON 形式で、scores オブジェクトに各項目を 1-5 点で、overall に平均を、
summary に総評を 50 字以内で出力してください。

# After
JSON 出力:
{ scores: {goal,role,context,rules,format: 1-5}, overall: 1.0-5.0, summary: <50字> }

擬似コード風の方が短くなり、AI も理解できます。

5. 参照 ID で指す

長い文脈を 参照 ID で指せるようにします。

# 顧客プロフィール
[customer-id-001]
- 業種: SaaS
- 規模: 100 名
- 契約: Pro プラン

# 質問
[customer-id-001] への返信を作成してください。

複数顧客を扱うプロンプトで、毎回顧客情報を全部書く必要がなくなります。

6. Few-shot 圧縮

例示を短く、要点だけに削ります。

# Before(冗長な Few-shot)
入力例 1: "とても素晴らしい商品でした。本当に感謝しています!" →
このメッセージは顧客が商品に満足していることを示しています。
分類は positive です。

# After
"とても素晴らしい商品でした" → positive
"使いにくいので解約します" → negative
"問い合わせがあります" → neutral

例文は 入力 → 出力 の対だけで十分です。

7. 出力上限の指定

出力トークンも課金対象です。明示的に上限を指定します。

- 各項目 50 字以内
- 全体で 300 トークン以内に収める
- 余分な前置きや解説は禁止

1500 字くらいで」のような曖昧指定より、明確な制約の方が効きます。

削減しすぎの落とし穴

削減を追求しすぎると次の問題が出ます。

  • 省略表現を AI が誤解: 「JSON 出力」だけだとフィールド名がブレる
  • Few-shot を削りすぎて精度低下: 1 例だけだと判断軸が伝わらない
  • コンテキスト不足で出力が薄い: 業務固有情報を削ると当たり障りない出力に

削減 → 精度測定 → 戻す のサイクルを回すのが安全です。

計測のすすめ

トークン削減できた気がする」では意味がありません。次の指標を計測します。

  • 入力トークン数(リクエスト 1 回あたり)
  • 出力トークン数
  • レスポンス時間
  • 出力品質(人 or AI が 5 段階評価)

A/B で「削減前 vs 削減後」を 50 件ずつ流せば、効果は数値で見えます。

PrompTune で運用する

PrompTune の 無料診断ツール では、プロンプトを 5 軸で診断し、冗長な指示や重複を検出して改善提案します。削減と品質の両立に役立ちます。

Try it

あなたのプロンプトも、診断してみませんか?

無料・ログイン不要。30 秒でスコアと改善案が出ます。業務テンプレもそのまま使えます。