インデックス作成とキーワード ランキング手法の再検討: 20 年後

公開: 2022-08-04

SEO 業界となるどんぐりが成長し始めたとき、検索エンジンでのインデックス作成とランキングはどちらも純粋にキーワードに基づいていました。

検索エンジンは、クエリ内のキーワードを、Web ページに表示されたキーワードと並行してインデックス内のキーワードと照合します。

関連性スコアが最も高いページは、次の 3 つの最も一般的な検索手法のいずれかを使用してランク付けされます。

  • ブールモデル
  • 確率モデル
  • ベクトル空間モデル

ベクトル空間モデルは、検索エンジンにとって最も重要なものになりました。

この記事では、私が当時使用していた古典的なモデルの基本的でやや単純な説明を再検討します (検索エンジンの組み合わせには依然として関連しているため)。

その過程で、Web ページの「キーワード密度」の概念など、1 つまたは 2 つの神話を払拭します。 それを一度寝かせましょう。

キーワード: 情報科学で最も一般的に使用される単語の 1 つ。 マーケティング担当者にとって – 隠された謎

「キーワードは?」

SEO 業界が台頭していた頃、私が何度この質問を聞いたかわかりません。 そして、簡単な説明をした後、フォローアップの質問は次のようになります。「それで、マイク、私のキーワードは何ですか?」

正直なところ、クエリで使用された特定のキーワードが検索エンジンの結果で対応する Web ページをトリガーしたものであることをマーケティング担当者に説明するのは非常に困難でした。

そして、そうです、それはほぼ間違いなく別の質問を提起するでしょう:「マイク、クエリとは何ですか?」

今日、キーワード、クエリ、インデックス、ランキングなどの用語は、デジタル マーケティングの用語集では一般的になっています。

しかし、SEO として、これらの用語がどこから引き出され、なぜ、どのように使用されているのかを理解することは非常に有益であると考えています。

情報検索 (IR) の科学は、「人工知能」という包括的な用語の下にあるサブセットです。 しかし、IR 自体も、図書館や情報科学を含むいくつかのサブセットで構成されています。

これが、SEO の記憶をたどるこの 2 番目の部分の出発点です。 (見逃した方のために、私の最初の質問は次のとおりでした: 私たちは 32 年間 Web をクロールしてきました: 何が変わったのですか?)

この進行中の一連の記事は、私が 20 年前に SEO に関する本に書いたことに基づいており、長年にわたる最先端技術について観察し、現在の状況と比較しています。

図書館の小さなおばあさん

では、情報検索のバナーの下に図書館科学の要素があることを強調したので、それらが Web 検索のどこに当てはまるかを説明させてください。

一見、司書は主に小さなおばあさんと認識されています。 何年も前に、「ウェブ」情報再試行 (IR) という新興の新しい分野で何人かの主要な科学者にインタビューしたとき、それは確かにそのように見えました。

WebCrawler の発明者である Brian Pinkerton は、Alta Vista のテクノロジー担当バイスプレジデント兼チーフ サイエンティストである Andrei Broder とともに、Google より前のナンバーワンの検索エンジンであり、実際に Google のテクノロジー ディレクターである Craig Silverstein (特に Google の従業員ナンバー 1) はすべて説明しました。この新しい分野での彼らの仕事は、検索エンジンに「図書館の小さなおばあさん」をエミュレートさせようとすることです。

ライブラリは、インデックス カードの概念に基づいています。インデックス カードの本来の目的は、世界中のすべての既知の動物、植物、および鉱物を整理および分類することでした。

索引カードは図書館システム全体のバックボーンを形成し、膨大で多様な量の情報に索引を付けました。

著者の名前、本のタイトル、主題、注目すべき「索引用語」(別名、キーワード)などのほかに、索引カードには本の場所も含まれます。 したがって、しばらくすると、特定の本について尋ねると、「おばあさん司書」は直感的に図書館のセクションだけでなく、おそらくその本が置かれている棚までも指し示すことができるようになり、パーソナライズされた情報が提供されます。迅速な回収方法。

しかし、私が検索エンジンにおけるそのタイプのインデックス作成システムの類似点を何年も前に説明したとき、私はまだ理解することが重要であるという警告を追加しなければなりませんでした:

「最大の検索エンジンは、図書館と同様の方法でインデックスに基づいています。 ウェブの大部分を大規模なインデックスに保存した後、特定のキーワードまたはフレーズに対して関連するドキュメントをすばやく返す必要があります。 しかし、Web ページの構成、品質、およびコンテンツのバリエーションは、生データ自体の規模よりもさらに大きくなります。 Web は全体として統一的な構造を持っておらず、従来のテキスト ドキュメントのコレクションよりもはるかに幅広く複雑なオーサリング スタイルとコンテンツの膨大なバリエーションがあります。 これにより、検索エンジンが、図書館、データベース管理システム、および情報検索で使用されている従来の手法を厳密に適用することはほとんど不可能になります。」

必然的に、キーワードと私たちがウェブのために書く方法で起こったことは、コミュニケーションの新しい分野の出現でした.

この本で説明したように、HTML は新しい言語学のジャンルと見なすことができ、将来の言語学研究ではそのように扱われるべきです。 ハイパーテキスト ドキュメントには、「フラット テキスト」ドキュメント以上のものがあります。 これにより、特定の Web ページが人間によって読み取られているとき、およびテキスト マイニングと検索エンジンによる情報抽出によってテキストが分析、分類、および分類されているときに、その Web ページが何であるかについてのより多くの指標が得られます。

SEO が検索エンジンの「機械読み取り」Web ページに言及していることを今でも耳にすることがありますが、その用語は比較的最近導入された「構造化データ」システムに属しています。

今でも頻繁に説明しなければならないことですが、人間が Web ページを読んで検索エンジンがテキスト マイニングを行い、そのページに関する情報を抽出することは、人間が Web ページを読んで検索エンジンが構造化データを「入力」するのと同じではありません。

私が見つけた最も具体的な例は、「機械可読」な構造化データが挿入された最新の HTML Web ページと最新のパスポートを比較することです。 パスポートの写真のページを見ると、人間が読むための写真とテキストを含む 1 つのメイン セクションと、スワイプまたはスキャンによる機械読み取り用に特別に作成された別のセクションがページの下部に表示されます。

典型的には、最新の Web ページは、最新のパスポートのような構造になっています。 興味深いことに、20 年前、私は人間と機械の組み合わせについて次の小さなファクトイドを参照しました。

「1747年、フランスの医師であり哲学者でもあるジュリアン・オフロイ・ド・ラ・メットリーは、思想史において最も重要な著作の1つを発表しました。 彼はそれを L'HOMME MACHINE と名付けました。これは「人間、機械」と訳すのが最も適切です。 「人間と機械」という言葉をよく耳にしますが、これが人工知能の根底にある考え方です。」

前回の記事で構造化データの重要性を強調しましたが、人間の読み取りと機械の読み取りのバランスを理解するのに非常に役立つと思われる内容を書きたいと思います。 基本的な合理化を提供するために、2002年にこのように完全に単純化しました。

  • データ:形式化された方法での事実またはアイデアの表現であり、何らかのプロセスによって伝達または操作することができます。
  • 情報:データの表現に使用される既知の規則を使用して、人間がデータに割り当てる意味。

したがって:

  • データは事実と機械に関連しています。
  • 情報は意味と人間に関連しています。

テキストの特性について少し話しましょう。その後、SEO 業界で「やや誤解されている」(と言いましょうか) ベクトル空間モデルと呼ばれるデータとしてテキストを表現する方法について説明します。

検索エンジンのインデックスで最も重要なキーワードと最も人気のある単語

ジップの法則について聞いたことがありますか?

ハーバード大学の言語学教授であるジョージ・キングスレー・ジップにちなんで名付けられたこの指標は、私たちが文章を書くときに、よく知っている単語を頻繁に使用するという現象を予測しています。

Zipf 氏によると、彼の法則は、人間の行動を予測する主な要因、つまり努力を最小限に抑える努力に基づいているという。 したがって、Zipf の法則は、人間の生産を含むほとんどすべての分野に適用されます。

これは、自然言語のランクと頻度の間にも制約された関係があることを意味します。

ほとんどの大規模なテキスト ドキュメントのコレクションには、同様の統計的特性があります。 これらの統計は、ドキュメントのインデックス作成に使用されるデータ構造の有効性と効率に影響するため、これらの統計について知っておくと役に立ちます。 多くの検索モデルはそれらに依存しています。

私たちの書き方にはいくつかのパターンがあります。一般的には、最も簡単で、最短で、関与が少なく、可能な限り迅速な方法を探します。 ですから、真実は、同じ単純な言葉を何度も使用しているだけです。

例として、何年も前に、科学者が 46,500 の新聞記事 (1,900 万回の用語の出現) の 131 MB のコレクション (当時はビッグデータ) を取得した実験から、いくつかの統計に出くわしました。

以下は、上位 10 語のデータと、このコーパス内での使用回数です。 あなたはかなり早く要点を理解できると思います:

単語の頻度
を: 1130021
547311の
516635に
464736
390819で
と 387703
その 204351
199340用
は 152483 です
言った 148302

コーパスに含まれるすべての記事は、プロのジャーナリストによって書かれたものであることを忘れないでください。 しかし、最も頻繁に使用される単語のトップ 10 を見ると、それらから 1 つの賢明な文を作成することはほとんどできません。

これらの一般的な単語は英語で非常に頻繁に使用されるため、検索エンジンはそれらを「ストップ ワード」として無視します。 私たちが使用する最も一般的な単語が、自動索引付けシステムにあまり価値を提供しない場合、どの単語に価値があるでしょうか?

すでに述べたように、情報検索 (IR) システムの分野では多くの研究が行われてきました。 形式論理に基づくデータ モデル (例: リレーショナル データベース) にテキストが適合しないため、統計的アプローチが広く適用されてきました。

そのため、統計的 IR では、対象のドキュメントに表示される可能性のある正確な単語や単語の組み合わせをユーザーが予測できるようにする必要はなく、ユーザーはドキュメントに表示される可能性のある一連の単語を入力するだけで済みます。

次に、システムは、テキストのコレクションと個々のドキュメントでのこれらの単語の頻度を考慮して、どの単語が関連性の最良の手がかりになる可能性が高いかを判断します。 ドキュメントに含まれる単語に基づいて各ドキュメントのスコアが計算され、最高スコアのドキュメントが取得されます。

幸運なことに、2001 年にこの本を執筆するために自分自身を調べていたときに、IR の分野の主要な研究者にインタビューすることができました。当時、Andrei Broder は Alta Vista (現在は Google の Distinguished Engineer) のチーフ サイエンティストであり、このトピックについて話し合っていました。 「用語ベクトル」について、私は彼にそれらが何であるかについて簡単な説明をしてもらえないかと尋ねました。

彼は私に、インデックスで重要性のために用語を「重み付け」するとき、コーパスで何百万回も「of」という単語が出現することに注意する方法を説明してくれました。 これはまったく「重み」を持たない言葉だと彼は言った. しかし、彼が「ヘモグロビン」という単語のようなものを見つけた場合、これはコーパスの中ではるかに珍しい単語であり、この単語にはある程度の重みがあります。

インデックスがどのように作成されるかを説明する前に、ここで簡単に戻って、何年にもわたって残っている別の神話を払拭したいと思います. これは、多くの人が、Google (および他の検索エンジン) が実際に Web ページをダウンロードしてハード ドライブに保存していると信じているものです。

いいえ、まったくありません。 私たちはすでにそれを行う場所を持っています。それはワールド・ワイド・ウェブと呼ばれています。

はい、Google はページの「キャッシュされた」スナップショットを保持して、迅速に取得できるようにしています。 ただし、そのページのコンテンツが変更されると、次にページがクロールされたときに、キャッシュされたバージョンも変更されます。

そのため、古いウェブ ページのコピーを Google で見つけることはできません。 そのための唯一の実際のリソースは、インターネット アーカイブ (別名、ウェイバック マシン) です。

実際、ページがクロールされると、基本的に解体されます。 テキストがドキュメントから解析 (抽出) されます。

各ドキュメントには、場所の詳細 (URL) とともに独自の識別子が与えられ、「生データ」がインデクサー モジュールに転送されます。 単語/用語は、それが表示された関連付けられたドキュメント ID と共に保存されます。

これは、私が 20 年前に作成した 2 つのドキュメントとそれらに含まれるテキストを使用した非常に単純な例です。

想起指数の構築

すべてのドキュメントが解析された後、反転されたファイルは用語でソートされます。

私の例では、これはプロセスの最初はかなり単純に見えますが、インデックスへの投稿 (情報検索用語で知られているように) は一度に 1 つの Doc で行われます。 繰り返しになりますが、何百万ものドキュメントがあるので、これを大規模な「用語ごとのビュー」に変換するために必要な処理能力の量を想像することができます。

何年も前の「何百万ものドキュメント」への言及に気付くでしょう。 もちろん、最近では数十億 (さらには数兆) に達しています。 インデックスの作成方法の基本的な説明では、次のように続けました。

各検索エンジンは、クロール後に発見されたすべての新しい「用語」を含めなければならない独自のカスタム辞書 (またはレキシコンそのもの - 多くの Web ページは英語で書かれていないことを思い出してください) を作成します ( Microsoft Word のようなワード プロセッサを使用している場合、独自のカスタム辞書に単語を追加するオプションが頻繁に表示されます。つまり、標準の英語辞書には含まれていないものです)。 検索エンジンが「大きな」インデックスを取得すると、一部の用語が他の用語よりも重要になります。 したがって、各用語は独自の重み (値) に値します。 重み係数の多くは、用語自体に依存します。 もちろん、これは考えてみるとかなり単純明快なので、出現回数の多い単語にはより多くの重みが与えられますが、この重みは、コーパス全体での用語の「希少性」によって増加します。 インデクサーは、ドキュメント内の特定の場所に表示される単語により多くの「重み」を与えることもできます。 タイトルタグ <title> に出てくる言葉はとても重要です。 <h1> 見出しタグに含まれる語句、またはページ上で太字の <b> に含まれる語句は、より関連性が高い可能性があります。 HTML ページのリンクのアンカー テキストに表示される単語、またはその近くに表示される単語は、確かに非常に重要であると見なされます。 画像付きの <alt> テキスト タグに表示される単語と、メタ タグに表示される単語が示されます。

科学者ジェラルド・サルトン (現代情報検索の父と見なされている) によって書かれた元のテキスト「現代情報検索」とは別に、私は上記を検証した当時の他の多くのリソースを持っていました。 Brian Pinkerton と Michael Maudlin (それぞれ検索エンジン WebCrawler と Lycos の発明者) の両方が、「古典的な Salton アプローチ」がどのように使用されたかについて詳しく教えてくれました。 そして、両方とも私に限界を認識させました。

それだけでなく、Larry Page と Sergey Brin は、Google プロトタイプの立ち上げ時に書いた元の論文でまったく同じことを強調しました。 別の神話を払拭するのに役立つので、これに戻ってきます.

しかし、最初に、2002 年に私が「古典的なサルトン法」について説明した方法を次に示します。「重みペアという用語」への言及に注意してください。

検索エンジンが「ビッグ インデックス」を作成すると、インデクサー モジュールはドキュメント内の単語の「用語頻度」(tf) を測定して「用語密度」を取得し、「逆ドキュメント頻度」(idf) を測定します。ドキュメント内の用語の頻度の計算です。 ドキュメントの総数; 用語を含むドキュメントの数。 このさらなる計算により、各ドキュメントは tf x idf 値 (ドキュメントの単語に直接的または間接的に対応するバイナリまたは数値) のベクトルとして表示できるようになります。 あなたが持っているのは、用語の重みのペアです。 これを次のように言い換えることができます。ドキュメントには重み付けされた単語のリストがあります。 単語には重み付けされたドキュメントのリスト (単語の重みのペア) があります。

ベクトル空間モデル

ドキュメントは用語ごとに 1 つのコンポーネントを持つベクトルであるため、作成されたのはすべてのドキュメントが存在する「ベクトル空間」です。 しかし、今ではすべてがこの規模になったドキュメントの世界を作成する利点は何ですか?

このように、Doc 'd' (例として) がベクトルである場合、同様の他のベクトルを見つけたり、それに近いベクトルを見つけたりするのは簡単です。

直感的に、ベクトル空間で近接しているドキュメントが同じことを話していると判断できます。 これにより、検索エンジンは単語またはドキュメントのクラスタリングを作成し、他のさまざまな重み付け方法を追加できます。

ただし、検索エンジンに用語ベクトルを使用する主な利点は、クエリ エンジンがクエリ自体を非常に短いドキュメントと見なすことができることです。 このようにして、クエリは同じベクトル空間内のベクトルになり、クエリ エンジンは各ドキュメントの近接性を測定できます。

ベクトル空間モデルにより、ユーザーは、純粋な「字句」検索ではなく、「概念」について検索エンジンに問い合わせることができます。 ここでわかるように、20 年前でさえ、単なるキーワードではなく、概念とトピックの概念が大いに活用されていました。

では、この「キーワード密度」の問題に取り掛かりましょう。 「密度」という言葉は、ベクトル空間モデルがどのように機能するかの説明に出てきますが、それは単一のページではなく、ドキュメントのコーパス全体にわたる計算に適用される場合に限られます。 おそらく、多くの SEO 担当者が単一のページでキーワード密度アナライザーを使用し始めたのは、この参照が原因です。

また、ベクトル空間モデルを発見した多くの SEO が、従来の tf x idf 用語の重み付けを適用しようとする傾向があることにも、何年にもわたって気付きました。 しかし、それが機能する可能性ははるかに低く、特に Google では、創設者の Larry Page と Sergey Brin が Google の仕組みに関する元の論文で述べているように、従来のモデルだけを適用した場合の結果の質の悪さを強調しています。

「たとえば、標準のベクトル空間モデルは、クエリとドキュメントの両方が単語の出現によって定義されるベクトルであることを考えると、クエリに最も近いドキュメントを返そうとします。 Web では、この戦略では、クエリと数語だけの非常に短いドキュメントが返されることがよくあります。」

ベクトル空間モデルの「剛性」を回避しようとする多くのバリアントがあります。 また、人工知能と機械学習の進歩に伴い、インデックス内の特定の単語やドキュメントの重み付けを計算できるアプローチには、さまざまなバリエーションがあります。

Google は言うまでもなく、検索エンジンが使用している数式を把握するのに何年も費やすことができます (ただし、先ほど指摘したように、それらが使用していない数式を確認することはできます)。 したがって、これを念頭に置いて、Web ページを作成するときにキーワードの密度を操作しようとするのは無駄な努力であるという神話を払拭する必要があります。

豊かさの問題を解決する

第 1 世代の検索エンジンは、ランキングのためにページ上の要因に大きく依存していました。

しかし、純粋にキーワードベースのランキング手法を使用している場合 (最初から Google について述べたことを超えて) は、Web が毎日指数関数的に成長し、同じものを含むドキュメントが指数関数的に増加することを考慮した、「豊富な問題」として知られている問題です。キーワード。

そしてそれは、私が 2002 年から使ってきたこのスライドに疑問を投げかけています。

音楽の学生がベートーベンの交響曲第 5 番に関する Web ページを持っていて、世界的に有名なオーケストラの指揮者 (アンドレ プレヴィンなど) も同じだとすると、最も権威のあるページを持っているのは誰だと思いますか?

長年多くのオーケストラで編曲・演奏を行ってきたオーケストラの指揮者が最も権威があると推測できます。 しかし、純粋にキーワード ランキング テクニックのみを使用すると、音楽の学生が一番の結果になる可能性が高くなります。

その問題をどのように解決しますか?

その答えは、ハイパーリンク分析 (別名、バックリンク) です。

次回の記事では、「権威」という言葉がどのようにして IR および SEO 用語集に登場したかを説明します。 また、現在 EAT と呼ばれているものの元のソースと、それが実際に何に基づいているかについても説明します。

それまでは、安全に気をつけて、検索エンジンの内部の仕組みについて議論する喜びを忘れないでください!


この記事で表明された意見はゲスト著者のものであり、必ずしも Search Engine Land ではありません。 スタッフの著者はここにリストされています。