La primera imagen de producto que generé con Midjourney era un desastre. Le escribí algo como 'producto elegante sobre fondo blanco con buena iluminación'. Lo que me devolvió parecía un render de 2008 con un objeto indefinido flotando en el vacío. Ese día entendí que la IA no lee mentes. Lee palabras. Y si tus palabras son vagas, el resultado es vago.
Después de meses iterando, rompiendo prompts y descubriendo patrones, encontré un método que funciona. Lo llamo el método de capas porque cada prompt de producto que escribo tiene entre tres y cinco capas de información. Cada capa controla un aspecto diferente de la imagen final. Y el orden importa más de lo que pensaba.
Capa 1: el producto con precisión quirúrgica
La primera capa es la descripción del producto. Aquí es donde la mayoría de la gente falla porque describe lo que quiere ver en lugar de describir lo que existe. No es lo mismo escribir 'botella elegante' que escribir 'botella de vidrio ámbar de 500ml con tapa de corcho natural y etiqueta de papel kraft'. La segunda versión le da a Midjourney material concreto para construir. La primera le da libertad para inventar cualquier cosa.
Mi regla es describir el producto como si estuviera escribiendo una ficha técnica para un fabricante. Material, tamaño relativo, color exacto, textura de la superficie, detalles que lo hacen único. Si el producto tiene imperfecciones intencionales como un acabado mate irregular o una costura visible, eso va aquí. Son esos detalles los que hacen que la imagen se sienta real y no generada.
Capa 2: la superficie y el contexto
La segunda capa define dónde está el producto. Un perfume sobre mármol blanco cuenta una historia diferente a un perfume sobre madera oscura. Midjourney es extremadamente sensible a las superficies y los materiales de fondo. He descubierto que las superficies con textura producen imágenes más creíbles que los fondos lisos. Un fondo de concreto pulido, una mesa de roble con vetas visibles, una superficie de lino arrugado. Cada textura agrega información visual que el cerebro interpreta como real.
Aquí también defino los elementos secundarios. Una rama de olivo al lado de un jabón artesanal. Gotas de agua sobre la superficie junto a una botella de skincare. Granos de café dispersos alrededor de un empaque. Estos elementos no son decoración. Son contexto que comunica la categoría del producto sin necesidad de texto.
Capa 3: la luz lo es todo
Si me preguntaran cuál es la capa más importante diría que es esta. La iluminación separa una imagen amateur de una imagen profesional. Y Midjourney responde increíblemente bien a instrucciones de luz específicas.
Las palabras que más uso en esta capa son: soft directional light from the left, golden hour backlight, studio rim lighting, diffused natural window light. Cada una produce un resultado completamente diferente. La luz direccional suave desde la izquierda es mi opción por defecto para productos de lujo. El backlight de golden hour funciona perfecto para productos orgánicos o artesanales. El rim lighting de estudio es ideal cuando necesitas que el producto se separe del fondo con un borde de luz.
Un descubrimiento que cambió mis resultados fue agregar la dirección de las sombras. Escribir 'soft shadows falling to the right' no solo controla las sombras sino que le dice a Midjourney de dónde viene la luz, reforzando toda la escena.
Capa 4: el estilo fotográfico
Esta capa es donde mi experiencia como diseñador visual marca la diferencia. Aquí defino si la imagen parece tomada con un iPhone o con una cámara de medio formato. Las palabras clave que uso incluyen el tipo de lente, la profundidad de campo y el estilo de procesado.
Para productos premium uso: shot with a Hasselblad, 80mm lens, shallow depth of field, color grading with warm tones. Para productos de lifestyle uso: Canon 5D Mark IV, 35mm lens, natural color palette, editorial style. Para comida y bebidas uso: macro lens, extreme close-up, moisture detail, Kinfolk magazine aesthetic.
Lo que descubrí es que mencionar una cámara específica cambia la textura de toda la imagen. Midjourney ha sido entrenado con millones de fotos etiquetadas con datos EXIF y asocia cada cámara con un look particular. Un Hasselblad produce colores más ricos y transiciones de foco más suaves. Una Leica produce tonos más fríos y bordes más definidos. Es como elegir tu equipo fotográfico pero con palabras.
Capa 5: los parámetros técnicos
La última capa son los parámetros de Midjourney que controlan el resultado técnico. Para fotografía de producto siempre uso --ar 4:5 o --ar 3:4 que son las proporciones más comunes en e-commerce y redes sociales. Agrego --style raw cuando quiero un resultado más fotográfico y menos artístico. Y ajusto --stylize entre 50 y 150 dependiendo de cuánta libertad creativa quiero darle a la herramienta.
Un ejemplo real completo se ve así:
amber glass bottle 500ml with natural cork cap and kraft paper label, on a raw concrete surface with dried lavender sprigs, soft directional light from the left, warm shadows falling to the right, shot with Hasselblad 80mm lens, shallow depth of field, warm muted tones, editorial product photography --ar 4:5 --style raw --stylize 100
Ese prompt tiene las cinco capas trabajando juntas. Producto específico, superficie con contexto, iluminación dirigida, estilo fotográfico definido y parámetros técnicos. El resultado es una imagen que podrías poner en un catálogo de producto sin que nadie sospeche que fue generada.
Los errores que más cometí
El primer error fue usar demasiados adjetivos emocionales. Escribir 'hermoso' o 'increíble' o 'perfecto' no le dice nada a Midjourney. Son palabras vacías para una máquina. Lo que funciona son descripciones técnicas y específicas. No 'luz hermosa' sino 'diffused window light at 45 degrees'.
El segundo error fue no iterar suficiente. Mi proceso ahora es generar cuatro versiones, identificar la que tiene mejor base y entonces variarla con ajustes específicos. Cambio la superficie. Cambio la dirección de la luz. Cambio el lente. Cada cambio me acerca más a lo que necesito. Nunca espero que la primera generación sea la final.
El tercer error fue ignorar los prompts negativos. Agregar --no text, watermark, hands, people al final elimina elementos que Midjourney a veces introduce sin que los pidas. Especialmente el texto. Midjourney tiene tendencia a inventar texto en las etiquetas de los productos y casi siempre es ilegible.
Esto no reemplaza a un fotógrafo
Necesito ser claro porque este tema genera polémica. Esta técnica no reemplaza una sesión fotográfica profesional para una campaña final de alto nivel. Lo que sí hace es eliminar el sesenta por ciento del trabajo previo. Puedo presentar conceptos visuales al cliente antes de contratar fotógrafo. Puedo explorar veinte direcciones creativas en una hora. Puedo crear contenido para redes sociales y e-commerce que antes requería un presupuesto que muchas marcas pequeñas no tienen.
Como escribí en mi post sobre qué es un prompt, cada palabra es una decisión de diseño. En fotografía de producto eso se vuelve literal. La diferencia entre una imagen genérica y una imagen que vende está en las palabras que eliges. Y elegir las palabras correctas es exactamente lo que hacemos los diseñadores.
Solo que ahora nuestro estudio fotográfico cabe en una línea de texto.