画像生成AI・動画生成AIのプロンプト完全ガイド|5要素で「思い通りの1枚」を出す書き方
「イメージ通りの画像が出ない」「動画がカクカクした変な動きになる」——画像生成AI・動画生成AIを業務で使い始めた人が最初にぶつかる壁は、ツールの性能ではなく プロンプトの情報不足 であることがほとんどです。
この記事では、Midjourney・DALL-E・Stable Diffusion などの画像生成AIと、Veo・Runway・Kling などの動画生成AIに共通する プロンプト設計の5要素 を軸に、思い通りのビジュアルを出すための書き方を体系的に解説します。
なぜ「一言プロンプト」では思い通りにならないのか
テキスト生成AI(ChatGPT や Claude)は、曖昧な指示でも文脈をくみ取って「それらしい」文章を返してくれます。しかし画像・動画生成AIは事情が違います。
1枚の画像には、言語化されていない決定事項が数百個詰まっています。 構図、カメラアングル、光の方向、色調、質感、背景、時間帯、被写体の表情や姿勢——プロンプトで指定しなかった要素は、すべてAIがランダムに近い形で決めます。
つまり「夏っぽいバナー画像」とだけ書いたとき、意図と違う結果が返るのは当然で、AIはあなたの頭の中のイメージを知らないまま、空欄を埋めさせられている のです。
ビジュアル生成プロンプトの5要素
業務で再現性のある結果を出すには、次の5要素を意識して書きます。
| 要素 | 決めること | 例 |
|---|---|---|
| 1. 主題(Subject) | 何を・誰を描くか。状態や動作まで | 「白い陶器のコーヒーカップから湯気が立つ」 |
| 2. スタイル(Style) | 画風・テイスト・参考にする雰囲気 | 「実写のような写真風」「フラットなベクターイラスト」 |
| 3. 構図・カメラ(Composition) | アングル・ショット・配置。動画ではカメラの動き | 「俯瞰」「クローズアップ」「ゆっくり右にパン」 |
| 4. 描写ディテール(Detail) | 光・色調・質感・背景・時間帯 | 「朝の柔らかい自然光」「背景は無地のベージュ」 |
| 5. 技術指定(Spec) | アスペクト比・用途・避けたい要素・(動画は)長さ | 「16:9」「文字は入れない」「8秒」 |
この5要素は、PrompTune の 画像・動画プロンプト診断 の評価軸そのものです。自分のプロンプトがどの要素で欠けているかを、スコアで確認できます。
Before / After で見る5要素の効果
Before(主題のみ・スコアの低いプロンプト)
カフェの新メニュー告知用の画像。おしゃれな感じで。
After(5要素を埋めたプロンプト)
【主題】木のトレイに載った抹茶ラテとチーズケーキ。ラテアートは葉のモチーフ
【スタイル】自然光のカフェで撮影した実写風フードフォト。温かみのあるトーン
【構図】斜め45度の俯瞰。被写体を右寄せにし、左側に告知テキスト用の余白を残す
【描写】午後の窓際の柔らかい光。背景は浅い被写界深度でぼかした店内
【技術指定】アスペクト比4:5(Instagram投稿用)。文字・ロゴ・人物は入れない
Afterのポイントは「おしゃれ」という形容詞を、光・構図・トーンという再現可能な指定に分解した ことです。形容詞はAIによって解釈が揺れますが、「午後の窓際の柔らかい光」は揺れません。
画像と動画で違うのは「時間軸」と「カメラワーク」
動画生成AIでは、5要素に加えて次の2点を明示します。
- カメラの動き: 固定(static shot)/パン(pan)/ズームイン・アウト/ドリー(dolly)/手持ち風(handheld)など
- 時間軸: 全体の長さと、その中で何が起きるか(「最初の3秒で全景、その後ゆっくり寄る」)
この2点を省略すると、AIが勝手にカメラを動かし、酔いそうな映像や意図しないカット割りになりがちです。詳しくは 動画生成AIプロンプトの書き方 で、カメラワーク用語集とともに解説しています。
主要ツールとプロンプトの相性
| ツール | 種類 | プロンプト言語 | 特徴 |
|---|---|---|---|
| Midjourney | 画像 | 英語推奨 | スタイル表現が豊か。パラメータ指定(--ar 等)が独特 |
| DALL-E(ChatGPT) | 画像 | 日本語OK | 対話しながら修正できる。指示の理解力が高い |
| Stable Diffusion | 画像 | 英語推奨 | ネガティブプロンプト(避けたい要素)を明示的に指定 |
| Adobe Firefly | 画像 | 日本語OK | 商用利用を想定した学習データ。Adobe製品と連携 |
| Veo | 動画 | 英語推奨 | カメラワークの理解が強い。音声付き生成に対応 |
| Runway | 動画 | 英語推奨 | 画像から動画への変換(Image to Video)が実用的 |
| Kling / Pixverse | 動画 | 英語推奨 | 長めのクリップ生成やコスト面で選択肢になる |
英語推奨ツールを使う場合も、最初から英語で書く必要はありません。日本語で5要素を設計してから英語に変換する方が、抜け漏れなく確実です。PrompTune の診断ツールは改善版を日本語+英語の両方で出力するので、そのまま英語推奨ツールに貼り付けられます。
業務ユースケース別 実践ガイド
ここまでが共通原則です。実際の業務では「何を作るか」によって定石が変わります。ユースケース別の実践ガイドを用意しました。
- 画像生成AIプロンプトの書き方|5要素テンプレと例文 — まず画像から始める人向けの基礎編
- 広告バナーをAIで作るプロンプト実例 — 広告・マーケ担当者向け。テキスト余白の設計とレギュレーション対応
- EC商品画像をAIで生成するプロンプト — 白背景・シーン写真・モデルイメージの3類型
- 動画生成AIプロンプトの書き方 — Veo・Runway・Kling 向け。カメラワーク用語集付き
- プレゼン資料の図解・イラストをAIで作る — 社内資料・提案書のビジュアル強化
業務利用で必ず押さえる注意点
- 権利・商用利用の確認: ツール・プランごとに商用利用条件が異なります。実在の人物・ブランド・キャラクターに酷似した生成物は使用しない運用を徹底してください
- 実在しないものの捏造に注意: 商品写真の生成では、実物と異なる仕様・色・付属品が描かれることがあります。ECでの使用は「イメージ画像」表記や実物確認のフローが必要です
- プロンプトの資産化: うまくいったプロンプトはチームで再利用できる形で保存・バージョン管理すると、品質が個人技に依存しなくなります
まとめ
- 画像・動画生成AIの失敗の大半は プロンプトの情報不足。AIは指定されなかった要素を勝手に決める
- 主題・スタイル・構図・描写・技術指定の5要素 を埋めれば、再現性のある結果に近づく
- 動画では カメラワークと時間軸 の指定を追加する
- 英語推奨ツールでも、まず日本語で5要素を設計してから変換する
自分のプロンプトが5要素のどこで減点されているかは、画像・動画プロンプト診断 で30秒で確認できます。診断結果には日本語+英語の改善版が付くので、そのまま各ツールに貼り付けて試してください。