AIは何を引用するか：602プロンプトと21,000引用の分析 vs 自分のブログで実装したこと

自分がやりたかったが、リソースがなくて実行できなかったことを、誰かがやってくれた。

研究チームが602の実験プロンプトを設計し、3つのプラットフォーム（ChatGPT、Google AI Overview、Perplexity）で実行し、21,143の有効な引用を収集し、引用された各ページから72の特徴を抽出し、ページが表面的に引用されるか深く吸収されるかを正確に測定した。

3ヶ月間、バニラPHPでこのブログにGenerative Engine Optimizationを実装してきた。すべての技術的決定は、情報に基づいた直感、規格のドキュメント、手動テストに基づいていた。この研究を読んだとき、自分が構築したものがデータの示す効果的な方法と一致しているか確認したかった。短い答え：ほぼすべてが一致。長い答えがこの記事だ。

研究が測定したものとその重要性

この研究は、AI応答にドメインが何回表示されるかを数えただけではない。もっと深い。2つの別々のレイヤーを測定した。

第1レイヤーは検索：どのタイプのプロンプトが各プラットフォームでウェブ検索をトリガーし、各プラットフォームがいくつのソースを参照し、どのドメインが最も頻繁に結果に表示されるか。

第2レイヤーは影響力：引用されたすべてのページのうち、どれがモデルに実際に吸収されて応答を構築するために使われ、どれがソースリストに表示されただけで実際のコンテンツに貢献しなかったか。

この区別は根本的に重要だ。ソースリストに表示されることは、応答で引用されることと同じではない。研究はこれを、引用頻度、位置、段落カバレッジ、生成された応答との意味的類似性を組み合わせたinfluence_scoreで定量化している。

ChatGPTは引用が少ないが、より深く吸収する

この研究で最も重要な発見はこれだ：ChatGPTはプロンプトあたり平均6.88のソースを参照する。Googleは12.06。Perplexityは16.35。しかしChatGPTの引用あたりの平均影響力は0.2713で、Googleの0.0584、Perplexityの0.0646と比較される。

これは、ChatGPTの1つの引用がコンテンツの実際の吸収という点でGoogleの引用の4.6倍の価値があることを意味する。ChatGPTは検索は少ないが、より深く読む。GoogleとPerplexityは広く検索するが、各ソースを表面的に使う。

自分のブログにとって、正しい戦略は「どこにでも表示される」ことではなく「重要な場所に表示される」ことだと確認できた。実装したGenerative Engine Optimizationのすべての決定は、表示頻度ではなく吸収の深さを最大化することを目指している。

AIが吸収するページは平均1,943語

研究は引用されたページを影響力の四分位に分けた。上位25%は平均1,943語。下位25%は170語。11.4倍の差がある。

しかし長さだけではない。高影響力ページは平均10.59の見出し（対0.85）、47の段落（対8）、8.9倍のリスト密度を持つ。モデルが分解し、抽出し、再構成できる情報コンテナとして構造化されたページだ。

自分の投稿は平均1,200〜2,500語。各投稿にはH2付きの6〜10のセクションがある。各セクションは追加のコンテキストなしで抽出できる直接的な宣言で始まる。偶然ではない。引用可能性のための意図的な設計であり、これらのデータがそれを検証している。

定義、数字、比較、手順：4つの乗数

研究は特定のコンテンツ特徴が引用影響力に与える影響を測定した。結果は明確だ。

数字と統計を含むコンテンツは影響力が61.55%高い。明確な定義を含むコンテンツは57.33%高い。構造化された比較を含むコンテンツは55.28%高い。how-toステップを含むコンテンツは41.20%高い。

そして誰も予想しないこと：Q&A形式のコンテンツは影響力が5.74%低い。質問と回答のページには優位性がない。実際にはデメリットがある。

これは一般的な神話を破壊する。多くのコンテンツチームは、すべてをFAQ形式にすることがAIに最適な戦略だと信じている。データは逆のことを示している。効果的なのは、概念を定義し、数値的な証拠を提示し、選択肢を比較し、具体的な手順を提供するコンテンツだ。まさによく書かれた記事がすでに行っていること。

このブログがすでに実装していること（このデータが確認すること）

完全な研究を読んだ後、shinobis.comで実装しているものとポイントごとに検証した。

引用可能なコンテンツ構造。研究は、意味的整合性が影響力の最強の予測因子（相関0.43）だと述べている。このブログのすべての投稿は、物語的な導入ではなく、直接的な宣言で始まる。各記事のexcerptフィールドはJSON-LDスキーマでabstractとして自動的にマッピングされる。LLMは残りを処理するかどうかを決めるためにabstractを最初に読む。

自動Knowledge Graph。研究は、定義された構造を持つページ（明確な見出し、テーマセグメント、明示的な関係）がより深く吸収されることを確認している。JSON-LDシステムは、すべての投稿についてabout、mentions、relatedLink、citationエンティティを自動生成する。これは研究が決定的な要因として特定する意味的構造そのものだ。

Markdown for Agents。研究は、モデルが効率的に処理するためにクリーンなコンテンツが必要であることを示している。サーバーはエージェントがtext/markdownをリクエストしたときに検出し、ナビゲーション、スクリプト、レイアウトなしでコンテンツを返す。純粋なMarkdownの記事だけ。これによりノイズが減り、深い吸収の確率が高まる。

3言語コンテンツ。研究は、識別可能なサンプルで英語が引用の82.90%〜95.07%を占めることを確認している。ブログはスペイン語、英語、日本語で公開している。英語版がAI引用を競う。スペイン語と日本語版は直接的なオーディエンスとリージョナルSEOに対応する。

各プラットフォームの異なる戦略

研究は3つのプラットフォームが異なる要素を優先することを明らかにしている。

ChatGPTは深い意味的関連性を優先する（相関0.537）。深い読者だ。定義、証拠、コンテキストをよく論じられたエッセイのように統合するページで最も効果的に機能する。

Googleは質問と回答との意味的整合性を優先する（相関0.579）。タイトルと構造がユーザーの質問と正確に一致することに敏感だ。明確な定義が特に重要。

Perplexityは広範なカバレッジとフラグメントへの分解可能性を優先する（見出し数との相関0.258）。複数のサブ質問をカバーするモジュール式ページで最も効果的に機能する。

研究の結論を一文で

研究者たちはこのアイデアで締めくくる：AI検索時代において、最も価値のあるコンテンツは意見を最もよく表現するものではなく、定義、数字、比較、手順に最も容易に分解でき、応答の証拠として再構成できるものだ。

AIのために書くのではない。実際の証拠、明確な構造、検証可能な経験を持つ人のように書くことだ。良い記事がずっとそうであったように。

違いは、今602のプロンプトと21,000の引用がデータでそれを証明していることだ。

完全な研究はGEO Citation Labで公開されている。

研究が測定したものとその重要性

ChatGPTは引用が少ないが、より深く吸収する

AIが吸収するページは平均1,943語

定義、数字、比較、手順：4つの乗数

このブログがすでに実装していること（このデータが確認すること）

各プラットフォームの異なる戦略

研究の結論を一文で

関連記事

llms.txtとは何か、そしてブログにどう実装したか

22のGEOコンセプトをインタラクティブカードに変換した方法、そして各実装から学んだこと

バニラPHPブログでCloudflareのAIエージェント準備テストで50/100を獲得した

グレーエリアのSEO戦術は死ぬ。インフラは生き残る。