搜尋引擎的工作原理:了解抓取工具所需的一切

2020-12-17 蘇州SEOer張敏軒

早在1996年，兩名史丹福大學博士就提出了一種新型的搜尋引擎。拉裡·佩奇（Larry Page）和謝爾蓋·布林（Sergey Brin）認為，基於頁面之間的關係對結果進行排名會更好，而不是根據關鍵字在網頁上出現的次數對結果進行排名。他們稱其想法為「 BackRub」，因為它基於反向連結對搜索結果進行排名。

與當今搜尋引擎的工作方式相比，這是完全不同的。Page and Brin的搜尋引擎Google 每天獲得55億次搜索。或每秒63,000次搜索。對於這些查詢中的每一個查詢，搜尋引擎都會遍歷整個網際網路上超過130萬億個單獨的頁面，並在不到一秒鐘的時間內選擇結果。

這些結果的背後是許多基礎。儘管Google和其他搜尋引擎都對搜索結果背後的機制保密，但營銷人員卻從了解搜尋引擎的工作原理中受益。了解搜尋引擎如何查找，組織和選擇結果意味著您可以更好地優化網頁排名。

一、搜尋引擎的工作原理：基礎知識

「搜尋引擎」是幾種相互關聯的機制，這些機制可以根據您在搜索欄中輸入的文字一起識別網頁內容（圖像，視頻，網站頁面等）。網站所有者使用搜尋引擎優化來提高其網站上的內容出現在搜索結果中的機會。

搜尋引擎使用三種基本機制：

1、網絡搜尋器：不斷瀏覽網絡以查找新頁面的漫遊器。爬網程序收集正確索引頁面所需的信息，並使用超連結跳至其他頁面並對其進行索引。

2、搜索索引：在線所有網頁的記錄，其組織方式允許關鍵字詞和頁面內容之間建立關聯。搜尋引擎還具有對索引中的內容質量進行評級的方法。

3、搜索算法：對網頁質量進行評級，計算該頁面與搜索字詞的相關程度並確定結果如何根據質量和受歡迎程度進行排名的計算。

搜尋引擎試圖為每個用戶提供最有用的結果，以保持大量用戶一次又一次地返回。這具有商業意義，因為大多數搜尋引擎都是通過廣告賺錢的。

二、搜尋引擎如何抓取，索引和排名內容

從外部看，搜尋引擎看起來很簡單。您鍵入一個關鍵字，您將獲得相關頁面的列表。但是，這種看似簡單的互換需要在後臺進行大量的計算工作。

艱苦的工作開始於您進行搜索的方式。搜尋引擎全天候工作，從全球網站上收集信息並組織這些信息，因此很容易找到。這是一個三步過程，首先爬網網頁，將其編入索引，然後使用搜索算法對其進行排名。

1、爬行

搜尋引擎依靠爬蟲（自動腳本）在網上搜索信息。抓取工具從網站列表開始。算法（一組計算規則）自動決定要爬網的站點。該算法還規定了要爬網的頁面數和頻率。

抓取工具會系統地訪問列表中的每個站點，然後通過HREF和SRC之類的標記進行連結，以跳轉到內部或外部頁面。隨著時間的流逝，爬蟲會建立一個不斷擴大的相互連結頁面地圖。

2、seo要點

確保抓取工具可以輕鬆訪問您的網站。如果蜘蛛無法對其進行爬行，則它們將無法對其進行索引，這意味著您的網站將不會出現在搜索結果中。您可以通過執行以下操作來幫助確保蜘蛛的可訪問性：

①邏輯站點層次結構：定義從域到類別再到子類別的邏輯站點體系結構。這使搜尋器可以更快地在您的網站中移動，從而使網站保持在其搜尋預算之內。

②連結：在每個頁面上使用內部。抓取工具需要連結才能在頁面之間移動。沒有任何連結的頁面無法抓取，因此無法建立索引。

③XML網站地圖：列出您所有網站的頁面，包括博客文章。此列表充當爬網程序的說明手冊，告訴他們要爬網的頁面。有一些插件和工具，例如Yoast和Google XML Sitemaps，它們會在您發布新內容時生成並更新您的Sitemaps。

如果不確定爬網程序是否可以訪問您的網站，請查看我們的網站審核工具。該工具捕獲可訪問性問題，並提供有關如何解決它們的建議。它還每兩周為您的站點發送一次新的技術SEO報告，因此您可以始終在爬網程序的站點可見性之上。

3、索引編制

找到頁面後，蜘蛛會像瀏覽器一樣獲取（或渲染）該頁面。這意味著蜘蛛應該「看到」您看到的內容，包括圖像，視頻或其他類型的動態頁面內容。

機器人將這些內容組織成類別，包括圖像，CSS和HTML，文本和關鍵字等。此過程使搜尋器可以「了解」頁面上的內容，這是決定與頁面搜索哪個關鍵字相關的必要前提。

然後，搜尋引擎將這些信息存儲在一個索引中，該資料庫是一個巨大的資料庫，其中包含在被索引的每個網頁上看到的每個單詞的目錄條目。Google的索引Caffeine Index佔用了大約1億千兆字節，並填滿了「伺服器場」，這是全球範圍內從未關閉的數千臺計算機。

seo要點：確保抓取工具以您希望的方式「查看」您的站點；控制您允許它們索引網站的哪些部分。

①URL檢查工具：如果您想知道搜尋器在它們進入您的網站時看到的內容，請使用URL檢查工具。您還可以使用該工具來找出為什麼爬網程序不索引頁面或請求Google對其進行爬網的原因。

②Robots.txt：您不希望搜尋器在SERP中顯示網站的每個頁面；例如，作者頁面或分頁頁面可以從索引中排除。使用robots.txt文件通過告訴漫遊器可以抓取哪些頁面來控制訪問。

從網站的某些特定工作區域阻止抓取工具不會影響您的搜索排名。相反，它將幫助抓取工具將抓取預算集中在最重要的頁面上。

4、排行

在最後一步，搜尋引擎對索引信息進行排序，並為每個查詢返回正確的結果。他們使用搜索算法，分析搜索者正在尋找的內容以及最能回答查詢結果的規則來做到這一點。

算法使用許多因素來定義索引中頁面的質量。Google正在利用一系列算法對相關結果進行排名。這些算法中使用的許多排名因素都可以分析某段內容的普遍受歡迎程度，甚至可以分析用戶在網頁上獲得的定性體驗。這些因素包括：

①反向連結質量

②移動端友好

③「新鮮度」或最近更新內容的方式

④頁面打開速度

為確保算法正常運行，Google使用人工的Search Quality Ratingrs來測試和完善算法。這是人類而不是程序參與搜尋引擎工作方式的幾次情況之一。

seo要點：搜尋引擎希望顯示最相關，可用的結果。這使搜索者感到滿意，廣告收入不斷增加。這就是為什麼大多數搜尋引擎的排名因素實際上與人類搜索者通過頁面速度，新鮮度以及與其他有用內容的連結來判斷內容的因素相同。

在設計和刷新網站時，請優化頁面速度，可讀性和關鍵字密度，以向搜尋引擎發送積極的排名信號。努力改善頁面停留時間和跳出率等參與度指標也可以幫助提高排名。

三、執行搜索時會發生什麼？

現在我們知道搜尋引擎用於返回相關結果的三步過程。搜尋，索引和排名使搜尋引擎可以查找和組織信息。但是，這如何幫助他們回答您的搜索查詢？

從您在搜索欄中輸入字詞的那一刻起，讓我們逐步介紹搜尋引擎如何逐步回答查詢。

第1步：搜尋引擎解析意圖

要返回相關結果，搜尋引擎必須「理解」術語後面的搜索意圖。他們使用複雜的語言模型來做到這一點，將您的查詢分解為關鍵字塊並解析含義。

例如，谷歌的同義詞系統允許搜尋引擎識別出幾組單詞意思相同的事物。因此，當您輸入「深色禮服」時，搜尋引擎將返回黑色禮服和深色調的結果。引擎了解到，黑暗通常是黑色的同義詞。

搜尋引擎還使用關鍵字來理解搜索意圖的廣泛「類別」。在「深色連衣裙」示例中，術語「購買」向搜尋引擎發出信號，表示它應拉出產品頁面以符合購物搜索者的意圖。

搜索結果還使用「新鮮度」算法來了解搜索者的意圖。這些算法識別趨勢關鍵字並返回較新的頁面。您會看到諸如「選舉結果」之類的術語，這些術語在選舉時間和非選舉時間返回完全不同的SERP結果。

第2步：搜尋引擎匹配頁面以查詢意圖

搜尋引擎了解您要查看什麼樣的結果後，就需要找到匹配的頁面。一系列因素可幫助搜尋引擎確定最佳的網頁，包括：

①標題/內容相關性

②內容類型

③內容質量

④網站質量和新鮮度

⑤頁面人氣

⑥查詢語言

因此，如果您搜索「最佳吃壽司的地方」，搜尋引擎將使標題和正文內容中帶有「壽司」或同義詞（例如「日本食品」）的列表頁面匹配。他們將根據受歡迎程度，新鮮度和品質因素對這些結果進行排序。

根據搜索意圖，搜尋引擎可能還會顯示豐富的結果，例如知識圖或圖像輪播。

第3步：搜尋引擎應用「本地化」因素

當搜尋引擎確定您看到的結果時，許多因素都會起作用。由於個人因素的影響，您可能會看到「最佳冷凍奶酪比薩」的結果與住在另一個州的朋友不同。

①位置：某些搜索（例如「我附近的餐廳」）顯然取決於位置。但是，即使在非特定地點的搜索中，Google也會對本地因素的結果進行排名。搜索「足球」可能會在匹茲堡向某人顯示有關鋼人的頁面，向舊金山某人向有關49ers的頁面。

②搜索設置：搜索設置也是重要的指示符，說明您可能會發現有用的結果，例如您設置了首選語言還是選擇了SafeSearch（一種有助於過濾掉明確結果的工具）。

③搜索歷史記錄：用戶的搜索歷史記錄也會影響他們看到的結果。例如，搜索「 hemingway」一詞，您將看到作家和編輯應用程式的結果。單擊有關作者的一些結果，然後再次搜索「 hemingway」。這次，您看到的關於編寫器的結果要比應用程式要多。

seo要點：搜索結果具有高度的針對性和動態性。無法預測您的網站在何時以及如何出現在每個搜索者手中。最好的方法是通過關鍵字研究，技術SEO和內容策略向搜尋引擎發送強烈的相關信號。這樣，您將顯示與您的內容真正相關的SERP。

四、利用這些知識來提高結果

了解了搜尋引擎的工作原理之後，就可以輕鬆創建可爬網和可索引的網站。向搜尋引擎發送正確的信號可確保您的頁面出現在與您的業務相關的結果頁面中。向搜索者和搜尋引擎提供服務，他們想要的內容是成功開展在線業務的一步。

搜尋引擎的工作原理:了解抓取工具所需的一切

相關焦點

什麼是搜尋引擎蜘蛛?工作原理是什麼?

產品經理學技術:搜尋引擎工作原理

搜尋引擎蜘蛛(爬蟲)工作過程及原理

常用的搜尋引擎優化工具介紹(上)

搜尋引擎工作原理——排名

如何屏蔽搜尋引擎抓取?

SEO的索引和抓取是什麼意思,外貿自建站如何優化索引和抓取?

i 學堂:搜尋引擎與網絡學習

「萬能」的搜尋引擎

你其實並不了解的搜尋引擎蜘蛛分類

SEO搜尋引擎優化代運營,教育類網站如何優化?

AI算法入駐Google搜尋引擎,詞條再冷也可手到擒來!

百度搜尋引擎工作原理

三種基本的搜尋引擎蜘蛛類型

5分鐘了解搜尋引擎Lucene的原理

圖解 | 通用搜尋引擎背後的技術點

以及如何使用開源網絡情報工具?

寶山百度SEM培訓班淺析SEM推廣的基本要素和工作原理

網站建設-怎樣建設對搜尋引擎友好的站點

搜尋引擎基本原理