ブログ/画像生成AI・動画生成AIのプロンプト完全ガイド|5要素で「思い通りの1枚」を出す書き方

画像生成AI・動画生成AIのプロンプト完全ガイド|5要素で「思い通りの1枚」を出す書き方

約10分で読めます

「イメージ通りの画像が出ない」「動画がカクカクした変な動きになる」——画像生成AI・動画生成AIを業務で使い始めた人が最初にぶつかる壁は、ツールの性能ではなく プロンプトの情報不足 であることがほとんどです。

この記事では、Midjourney・DALL-E・Stable Diffusion などの画像生成AIと、Veo・Runway・Kling などの動画生成AIに共通する プロンプト設計の5要素 を軸に、思い通りのビジュアルを出すための書き方を体系的に解説します。

なぜ「一言プロンプト」では思い通りにならないのか

テキスト生成AI(ChatGPT や Claude)は、曖昧な指示でも文脈をくみ取って「それらしい」文章を返してくれます。しかし画像・動画生成AIは事情が違います。

1枚の画像には、言語化されていない決定事項が数百個詰まっています。 構図、カメラアングル、光の方向、色調、質感、背景、時間帯、被写体の表情や姿勢——プロンプトで指定しなかった要素は、すべてAIがランダムに近い形で決めます。

つまり「夏っぽいバナー画像」とだけ書いたとき、意図と違う結果が返るのは当然で、AIはあなたの頭の中のイメージを知らないまま、空欄を埋めさせられている のです。

ビジュアル生成プロンプトの5要素

業務で再現性のある結果を出すには、次の5要素を意識して書きます。

要素決めること
1. 主題(Subject)何を・誰を描くか。状態や動作まで「白い陶器のコーヒーカップから湯気が立つ」
2. スタイル(Style)画風・テイスト・参考にする雰囲気「実写のような写真風」「フラットなベクターイラスト」
3. 構図・カメラ(Composition)アングル・ショット・配置。動画ではカメラの動き「俯瞰」「クローズアップ」「ゆっくり右にパン」
4. 描写ディテール(Detail)光・色調・質感・背景・時間帯「朝の柔らかい自然光」「背景は無地のベージュ」
5. 技術指定(Spec)アスペクト比・用途・避けたい要素・(動画は)長さ「16:9」「文字は入れない」「8秒」

この5要素は、PrompTune の 画像・動画プロンプト診断 の評価軸そのものです。自分のプロンプトがどの要素で欠けているかを、スコアで確認できます。

Before / After で見る5要素の効果

Before(主題のみ・スコアの低いプロンプト)

カフェの新メニュー告知用の画像。おしゃれな感じで。

After(5要素を埋めたプロンプト)

【主題】木のトレイに載った抹茶ラテとチーズケーキ。ラテアートは葉のモチーフ
【スタイル】自然光のカフェで撮影した実写風フードフォト。温かみのあるトーン
【構図】斜め45度の俯瞰。被写体を右寄せにし、左側に告知テキスト用の余白を残す
【描写】午後の窓際の柔らかい光。背景は浅い被写界深度でぼかした店内
【技術指定】アスペクト比4:5(Instagram投稿用)。文字・ロゴ・人物は入れない

Afterのポイントは「おしゃれ」という形容詞を、光・構図・トーンという再現可能な指定に分解した ことです。形容詞はAIによって解釈が揺れますが、「午後の窓際の柔らかい光」は揺れません。

画像と動画で違うのは「時間軸」と「カメラワーク」

動画生成AIでは、5要素に加えて次の2点を明示します。

  • カメラの動き: 固定(static shot)/パン(pan)/ズームイン・アウト/ドリー(dolly)/手持ち風(handheld)など
  • 時間軸: 全体の長さと、その中で何が起きるか(「最初の3秒で全景、その後ゆっくり寄る」)

この2点を省略すると、AIが勝手にカメラを動かし、酔いそうな映像や意図しないカット割りになりがちです。詳しくは 動画生成AIプロンプトの書き方 で、カメラワーク用語集とともに解説しています。

主要ツールとプロンプトの相性

ツール種類プロンプト言語特徴
Midjourney画像英語推奨スタイル表現が豊か。パラメータ指定(--ar 等)が独特
DALL-E(ChatGPT)画像日本語OK対話しながら修正できる。指示の理解力が高い
Stable Diffusion画像英語推奨ネガティブプロンプト(避けたい要素)を明示的に指定
Adobe Firefly画像日本語OK商用利用を想定した学習データ。Adobe製品と連携
Veo動画英語推奨カメラワークの理解が強い。音声付き生成に対応
Runway動画英語推奨画像から動画への変換(Image to Video)が実用的
Kling / Pixverse動画英語推奨長めのクリップ生成やコスト面で選択肢になる

英語推奨ツールを使う場合も、最初から英語で書く必要はありません。日本語で5要素を設計してから英語に変換する方が、抜け漏れなく確実です。PrompTune の診断ツールは改善版を日本語+英語の両方で出力するので、そのまま英語推奨ツールに貼り付けられます。

Try It

画像・動画生成プロンプトを無料で診断

主題・スタイル・構図など5項目のスコアと、日本語+英語の改善版プロンプトを即座にフィードバック。ログイン不要。

業務ユースケース別 実践ガイド

ここまでが共通原則です。実際の業務では「何を作るか」によって定石が変わります。ユースケース別の実践ガイドを用意しました。

業務利用で必ず押さえる注意点

  1. 権利・商用利用の確認: ツール・プランごとに商用利用条件が異なります。実在の人物・ブランド・キャラクターに酷似した生成物は使用しない運用を徹底してください
  2. 実在しないものの捏造に注意: 商品写真の生成では、実物と異なる仕様・色・付属品が描かれることがあります。ECでの使用は「イメージ画像」表記や実物確認のフローが必要です
  3. プロンプトの資産化: うまくいったプロンプトはチームで再利用できる形で保存・バージョン管理すると、品質が個人技に依存しなくなります

まとめ

  • 画像・動画生成AIの失敗の大半は プロンプトの情報不足。AIは指定されなかった要素を勝手に決める
  • 主題・スタイル・構図・描写・技術指定の5要素 を埋めれば、再現性のある結果に近づく
  • 動画では カメラワークと時間軸 の指定を追加する
  • 英語推奨ツールでも、まず日本語で5要素を設計してから変換する

自分のプロンプトが5要素のどこで減点されているかは、画像・動画プロンプト診断 で30秒で確認できます。診断結果には日本語+英語の改善版が付くので、そのまま各ツールに貼り付けて試してください。

Try it

あなたのプロンプトも、診断してみませんか?

無料・ログイン不要。30 秒でスコアと改善案が出ます。業務テンプレもそのまま使えます。