Midjourneyで生成した最初の商品画像は惨事だった。「白背景に良い照明のエレガントな商品」のようなことを書いた。返ってきたのは2008年のレンダーのような、虚空に浮かぶ不明瞭なオブジェクトだった。その日、AIは心を読まないと理解した。言葉を読む。言葉が曖昧なら結果も曖昧だ。

何ヶ月もイテレーションし、プロンプトを壊し、パターンを発見した結果、機能するメソッドを見つけた。レイヤーメソッドと呼んでいる。書くすべての商品プロンプトに3〜5層の情報がある。各レイヤーが最終画像の異なる側面を制御する。そして順序は思った以上に重要だ。

レイヤー1:外科的精度で商品を描写する

最初のレイヤーは商品の説明だ。ほとんどの人がここで失敗する。存在するものを描写する代わりに見たいものを描写するからだ。「エレガントなボトル」と書くのと「天然コルクキャップとクラフト紙ラベルの500mlアンバーガラスボトル」と書くのは同じではない。後者はMidjourneyに構築するための具体的な素材を与える。前者は何でも発明する自由を与える。

私のルールは、メーカーへの技術仕様書を書くように商品を描写すること。素材、相対的なサイズ、正確な色、表面のテクスチャ、ユニークにする細部。不規則なマット仕上げや見える縫い目のような意図的な不完全さがあれば、それをここに入れる。これらの細部が画像を生成されたものではなくリアルに感じさせる。

レイヤー2:表面とコンテキスト

2番目のレイヤーは商品がどこにあるかを定義する。白い大理石の上の香水はダークウッドの上の香水とは異なる物語を語る。Midjourneyは表面と背景素材に極めて敏感だ。テクスチャのある表面はフラットな背景より信憑性のある画像を生むと発見した。磨かれたコンクリート、木目の見えるオーク材のテーブル、しわのあるリネンの表面。各テクスチャが脳がリアルと解釈する視覚情報を追加する。

ここで二次的要素も定義する。手作り石鹸の横のオリーブの枝。スキンケアボトルの横の水滴。パッケージの周りに散らばるコーヒー豆。これらは装飾ではない。テキストなしで商品カテゴリーを伝えるコンテキストだ。

レイヤー3:光がすべて

どのレイヤーが最も重要かと聞かれたら、これだと答える。照明がアマチュアの画像とプロの画像を分ける。そしてMidjourneyは具体的な照明指示に信じられないほどよく反応する。

このレイヤーで最もよく使うフレーズ:soft directional light from the left、golden hour backlight、studio rim lighting、diffused natural window light。それぞれまったく異なる結果を生む。左からのソフトディレクショナルライトはラグジュアリー商品のデフォルト。ゴールデンアワーのバックライトはオーガニックや手作り商品に完璧。スタジオリムライティングは商品を光の縁で背景から分離させたい時に理想的。

結果を変えた発見は影の方向を追加すること。「soft shadows falling to the right」と書くと影を制御するだけでなく、光がどこから来るかをMidjourneyに伝え、シーン全体を強化する。

レイヤー4:写真スタイル

このレイヤーはビジュアルデザイナーとしての経験が違いを生む場所だ。画像がiPhoneで撮ったように見えるか中判カメラで撮ったように見えるかをここで定義する。使うキーワードにはレンズタイプ、被写界深度、処理スタイルが含まれる。

プレミアム商品には:shot with a Hasselblad, 80mm lens, shallow depth of field, color grading with warm tones。ライフスタイル商品には:Canon 5D Mark IV, 35mm lens, natural color palette, editorial style。食品・飲料には:macro lens, extreme close-up, moisture detail, Kinfolk magazine aesthetic。

発見したのは、特定のカメラを言及すると画像全体のテクスチャが変わること。MidjourneyはEXIFデータでタグ付けされた数百万の写真で訓練されており、各カメラを特定のルックに関連付ける。Hasselbladはより豊かな色とスムーズなフォーカス遷移を生む。Leicaはより冷たいトーンとシャープなエッジを生む。言葉で写真機材を選ぶようなものだ。

レイヤー5:技術パラメータ

最後のレイヤーは技術的な出力を制御するMidjourneyのパラメータ。商品写真には常に--ar 4:5または--ar 3:4を使う。ECとSNSで最も一般的な比率だ。より写真的で芸術的でない結果が欲しい時は--style rawを追加する。ツールに与えるクリエイティブの自由度に応じて--stylizeを50〜150の間で調整する。

完全な実例:

amber glass bottle 500ml with natural cork cap and kraft paper label, on a raw concrete surface with dried lavender sprigs, soft directional light from the left, warm shadows falling to the right, shot with Hasselblad 80mm lens, shallow depth of field, warm muted tones, editorial product photography --ar 4:5 --style raw --stylize 100

このプロンプトには5つのレイヤーすべてが連携している。具体的な商品、コンテキスト付きのテクスチャ表面、方向性のある照明、定義された写真スタイル、技術パラメータ。結果は、誰にも生成されたと疑われることなく商品カタログに配置できる画像だ。

最も多く犯した間違い

最初の間違いは感情的な形容詞を使いすぎたこと。「美しい」「素晴らしい」「完璧」と書いてもMidjourneyには何も伝わらない。機械にとっては空の言葉だ。機能するのは技術的で具体的な描写。「美しい光」ではなく「diffused window light at 45 degrees」。

2番目の間違いはイテレーション不足。今のプロセスは4バージョン生成し、最も良い基盤のものを特定し、具体的な調整でバリエーションを作ること。表面を変える。光の方向を変える。レンズを変える。各変更が必要なものに近づける。最初の生成が最終版になることは決して期待しない。

3番目の間違いはネガティブプロンプトを無視したこと。末尾に--no text, watermark, hands, peopleを追加すると、Midjourneyが頼んでいないのに導入する要素を除去できる。特にテキスト。Midjourneyは商品ラベルにテキストを発明する傾向があり、ほぼ常に判読不能だ。

これはフォトグラファーの代替ではない

このトピックは議論を呼ぶので明確にする必要がある。このテクニックはハイレベルな最終キャンペーンのプロの撮影を代替しない。するのは予備作業の60%を排除すること。フォトグラファーを雇う前にクライアントにビジュアルコンセプトを提示できる。1時間で20のクリエイティブな方向性を探れる。以前は多くの小さなブランドが持ち得なかった予算を必要としたSNSやEC用コンテンツを作成できる。

プロンプトとは何かについての投稿で書いたように、すべての言葉がデザインの決定だ。商品写真ではそれが文字通りになる。ジェネリックな画像と売れる画像の違いは選ぶ言葉にある。正しい言葉を選ぶこと——それはまさに私たちデザイナーがすることだ。

ただ今、フォトスタジオが1行のテキストに収まるだけだ。