Alguien hizo lo que yo quería hacer pero no tenía los recursos para ejecutar.

Un equipo de investigación diseñó 602 prompts experimentales, los ejecutó en tres plataformas (ChatGPT, Google AI Overview y Perplexity), recolectó 21,143 citaciones válidas, extrajo 72 características de cada página citada, y midió con precisión qué hace que una página sea citada superficialmente versus absorbida en profundidad por un modelo de IA.

Llevo tres meses implementando Generative Engine Optimization en este blog con PHP vanilla. Cada decisión técnica la tomé basándome en intuición informada, documentación de estándares y pruebas manuales. Cuando leí este estudio, quise verificar si lo que construí se alinea con lo que los datos dicen que funciona. La respuesta corta: sí, casi todo. La respuesta larga es este artículo.

Lo que midió el estudio y por qué importa

La investigación no se limitó a contar cuántas veces aparece un dominio en una respuesta de IA. Fue más profunda. Midieron dos capas separadas.

La primera capa es la de búsqueda: qué tipo de prompts activan búsqueda web en cada plataforma, cuántas fuentes consulta cada una, y qué dominios aparecen con más frecuencia en la lista de resultados.

La segunda capa es la de influencia: de todas las páginas citadas, cuáles fueron realmente absorbidas por el modelo para construir su respuesta, y cuáles solo aparecieron en la lista de fuentes sin contribuir contenido real.

Esta distinción es fundamental. Aparecer en la lista de fuentes no es lo mismo que ser citado en la respuesta. El estudio lo cuantifica con un influence_score que combina frecuencia de citación, posición, cobertura de párrafos y similitud semántica con la respuesta generada.

ChatGPT cita menos pero absorbe más

El hallazgo más importante del estudio es este: ChatGPT promedia 6.88 fuentes por prompt. Google promedia 12.06. Perplexity promedia 16.35. Pero la influencia promedio por citación en ChatGPT es 0.2713, contra 0.0584 de Google y 0.0646 de Perplexity.

Esto significa que una citación de ChatGPT vale 4.6 veces más que una de Google en términos de absorción real del contenido. ChatGPT busca menos pero lee más profundo. Google y Perplexity buscan amplio pero usan cada fuente de forma superficial.

Para mi blog, esto confirma que la estrategia correcta no es aparecer en todas partes sino aparecer donde importa. Cada decisión de Generative Engine Optimization que implementé apunta a maximizar la profundidad de absorción, no la frecuencia de aparición.

Las páginas que las IAs absorben tienen 1,943 palabras promedio

El estudio dividió las páginas citadas en cuartiles por influencia. El 25% superior tiene un promedio de 1,943 palabras. El 25% inferior tiene 170 palabras. Es una diferencia de 11.4 veces.

Pero no es solo longitud. Las páginas de alta influencia tienen 10.59 títulos promedio contra 0.85, 47 párrafos contra 8, y una densidad de listas 8.9 veces mayor. Son páginas estructuradas como contenedores de información que el modelo puede descomponer, extraer y reorganizar.

Mis posts promedian entre 1,200 y 2,500 palabras. Cada uno tiene entre 6 y 10 secciones con H2. Cada sección abre con una declaración directa que puede ser extraída sin contexto adicional. No es coincidencia. Es diseño intencional para citabilidad, y estos datos lo validan.

Definiciones, números, comparaciones y pasos: los cuatro multiplicadores

El estudio midió el impacto de características específicas del contenido en la influencia de citación. Los resultados son inequívocos.

Contenido con números y estadísticas tiene un 61.55% más de influencia. Contenido con definiciones claras tiene un 57.33% más. Contenido con comparaciones estructuradas tiene un 55.28% más. Contenido con pasos how-to tiene un 41.20% más.

Y aquí viene lo que nadie espera: contenido en formato Q&A tiene un 5.74% menos de influencia. Las páginas de preguntas y respuestas no tienen ventaja. De hecho, tienen desventaja.

Esto destruye un mito común. Muchos equipos de contenido creen que formatear todo como FAQ es la mejor estrategia para IA. Los datos dicen lo contrario. Lo que funciona es contenido que define conceptos, presenta evidencia numérica, compara opciones y ofrece pasos concretos. Exactamente lo que un artículo bien escrito ya hace.

Lo que mi blog ya implementa (y lo que confirman estos datos)

Cuando leí el estudio completo, hice una verificación punto por punto contra lo que tengo implementado en shinobis.com.

Estructura de contenido citable. El estudio dice que la alineación semántica es el predictor más fuerte de influencia (correlación 0.43). Cada post de este blog abre con una declaración directa, no con una introducción narrativa. El campo excerpt de cada artículo se mapea automáticamente como abstract en el JSON-LD. Los LLMs leen el abstract primero para decidir si procesan el resto.

Knowledge Graph automático. El estudio confirma que las páginas con estructura definida (títulos claros, segmentos temáticos, relaciones explícitas) se absorben más profundamente. Mi sistema de JSON-LD genera automáticamente entidades about, mentions, relatedLink y citation por cada post. Esto es exactamente la estructura semántica que el estudio identifica como factor decisivo.

Markdown for Agents. El estudio muestra que los modelos necesitan contenido limpio para procesarlo eficientemente. Mi servidor detecta cuando un agente pide text/markdown y devuelve el contenido sin navegación, sin scripts, sin layout. Solo el artículo en Markdown puro. Esto reduce el ruido y aumenta la probabilidad de absorción profunda.

Contenido trilingüe. El estudio confirma que el inglés domina entre el 82.90% y el 95.07% de las citaciones en muestras identificables. Mi blog publica en español, inglés y japonés. La versión en inglés es la que compite por citaciones de IA. Las versiones en español y japonés sirven para audiencias directas y SEO regional.

Lo que el estudio revela sobre los sitios que sí son citados

Hay un dato que contextualiza todo lo demás. En las tres plataformas, sitios oficiales, medios de noticias y sitios verticales de industria representan entre el 79% y el 87% de todas las citaciones. El resto se reparte entre blogs, sitios de reseñas y otros.

Los 15 dominios más citados incluyen YouTube, Wikipedia, Reddit, Reuters, LinkedIn, New York Times, Forbes y similar. Son dominios con autoridad masiva.

Pero el estudio también dice algo crucial: frecuencia alta no equivale a influencia alta. Los medios de noticias entran fácilmente al pool de candidatos pero su influencia promedio es menor que la de páginas tipo enciclopedia o explicación estructurada.

Esto es exactamente mi apuesta. No puedo competir con Reuters en frecuencia de aparición. Pero puedo escribir páginas con mayor densidad de definiciones, datos y estructura que una noticia promedio. Y los datos dicen que eso es lo que determina la absorción profunda.

La estrategia diferente para cada plataforma

El estudio revela que las tres plataformas priorizan factores distintos.

ChatGPT prioriza relevancia semántica profunda (correlación 0.537). Es un lector profundo. Funciona mejor con páginas que integran definiciones, evidencia y contexto como un ensayo bien argumentado.

Google prioriza alineación semántica con la pregunta y la respuesta (correlación 0.579). Es más sensible a que los títulos y la estructura coincidan exactamente con lo que el usuario preguntó. Las definiciones claras son especialmente importantes.

Perplexity prioriza cobertura amplia y capacidad de ser descompuesto en fragmentos (correlación 0.258 con número de títulos). Funciona mejor con páginas modulares que cubren múltiples sub-preguntas.

Mi contenido está optimizado naturalmente para ChatGPT y Google. Los posts tienen estructura profunda con definiciones y evidencia (ChatGPT) y títulos que coinciden con preguntas reales (Google). Para Perplexity, la estructura con múltiples H2 temáticos ya cubre la necesidad de modularidad.

El rango de 1,000 a 3,000 palabras no es arbitrario

El estudio segmentó las páginas citadas por longitud y midió la influencia promedio de cada rango. Páginas con menos de 100 palabras tienen una influencia de 0.0546. Páginas de 1,001 a 3,000 palabras tienen 0.1258. Páginas con más de 3,000 tienen 0.1457.

La influencia sube con la longitud pero con rendimientos decrecientes después de 3,000 palabras. El costo de mantenimiento de un artículo de 5,000 palabras no se justifica por el incremento marginal de influencia versus uno de 2,000.

Mis posts están en el rango óptimo. No por accidente. Los escribo entre 1,200 y 2,500 palabras porque es el espacio donde puedo desarrollar un tema con suficiente profundidad sin diluir la densidad de información. Ahora tengo datos que confirman que ese rango es exactamente donde la relación costo-beneficio es mejor.

Las tácticas grises que estos datos entierran

Si lees el estudio junto con lo que documenté sobre las tácticas grises de SEO, el panorama es claro.

Los listicles auto-promocionales que las empresas SaaS producen en masa no cumplen ninguno de los criterios de alta influencia. No tienen definiciones originales. No presentan datos propios. No hacen comparaciones honestas. No ofrecen pasos replicables. Son contenido diseñado para rankear en Google, no para ser absorbido por un modelo de IA.

El estudio lo confirma con datos: las páginas de opinión tienen la influencia más baja de todos los tipos de contenido. Y eso es exactamente lo que son los listicles donde una empresa se corona a sí misma como la mejor opción: opinión disfrazada de análisis.

La infraestructura que construí en este blog, el stack completo de estándares para agentes IA, llms.txt, Content Signals, Markdown for Agents, Agent Skills, Knowledge Graph automático, está diseñada para lo opuesto. Para que el contenido sea verificable, estructurado y citado con contexto.

Lo que voy a cambiar basándome en estos datos

No todo lo que hago es perfecto según el estudio. Hay tres ajustes que voy a implementar.

Primero, más datos numéricos en cada post. El incremento de influencia de 61.55% para contenido con estadísticas es demasiado alto para ignorarlo. Voy a ser más deliberado en incluir cifras concretas en cada artículo, no como decoración sino como evidencia verificable.

Segundo, más comparaciones explícitas. El incremento de 55.28% es significativo. Mi post de Midjourney vs DALL-E vs Stable Diffusion ya tiene este formato. Necesito más posts con estructura comparativa clara.

Tercero, abrir cada sección con una definición. El estudio muestra que las definiciones son el segundo multiplicador más fuerte. Ya lo hago en los títulos de los posts pero no siempre dentro de cada sección. Cada H2 debería poder responder la pregunta qué es esto antes de explicar cómo funciona o por qué importa.

La conclusión del estudio en una frase

Los investigadores cierran con esta idea: en la era de búsqueda con IA, el contenido más valioso no es el que mejor expresa una opinión sino el que más fácilmente puede ser descompuesto en definiciones, números, comparaciones y pasos, y reorganizado como evidencia en una respuesta.

No es escribir para IAs. Es escribir como alguien que tiene evidencia real, estructura clara y experiencia verificable. Que es exactamente lo que un buen artículo siempre fue.

La diferencia es que ahora tenemos 602 prompts y 21,000 citaciones que lo demuestran con datos.

La investigación completa está disponible en GEO Citation Lab.