搜尋引擎的工作原理:了解抓取工具所需的一切

2020-12-17 蘇州SEOer張敏軒

早在1996年,兩名史丹福大學博士就提出了一種新型的搜尋引擎。拉裡·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)認為,基於頁面之間的關係對結果進行排名會更好,而不是根據關鍵字在網頁上出現的次數對結果進行排名。他們稱其想法為「 BackRub」,因為它基於反向連結對搜索結果進行排名。

與當今搜尋引擎的工作方式相比,這是完全不同的。Page and Brin的搜尋引擎Google 每天獲得55億次搜索。或每秒63,000次搜索。對於這些查詢中的每一個查詢,搜尋引擎都會遍歷整個網際網路上超過130萬億個單獨的頁面,並在不到一秒鐘的時間內選擇結果。

這些結果的背後是許多基礎。儘管Google和其他搜尋引擎都對搜索結果背後的機制保密,但營銷人員卻從了解搜尋引擎的工作原理中受益。了解搜尋引擎如何查找,組織和選擇結果意味著您可以更好地優化網頁排名。

一、搜尋引擎的工作原理:基礎知識

「搜尋引擎」是幾種相互關聯的機制,這些機制可以根據您在搜索欄中輸入的文字一起識別網頁內容(圖像,視頻,網站頁面等)。網站所有者使用搜尋引擎優化來提高其網站上的內容出現在搜索結果中的機會。

搜尋引擎使用三種基本機制:

1、網絡搜尋器:不斷瀏覽網絡以查找新頁面的漫遊器。爬網程序收集正確索引頁面所需的信息,並使用超連結跳至其他頁面並對其進行索引。

2、搜索索引:在線所有網頁的記錄,其組織方式允許關鍵字詞和頁面內容之間建立關聯。搜尋引擎還具有對索引中的內容質量進行評級的方法。

3、搜索算法:對網頁質量進行評級,計算該頁面與搜索字詞的相關程度並確定結果如何根據質量和受歡迎程度進行排名的計算。

搜尋引擎試圖為每個用戶提供最有用的結果,以保持大量用戶一次又一次地返回。這具有商業意義,因為大多數搜尋引擎都是通過廣告賺錢的。

二、搜尋引擎如何抓取,索引和排名內容

從外部看,搜尋引擎看起來很簡單。您鍵入一個關鍵字,您將獲得相關頁面的列表。但是,這種看似簡單的互換需要在後臺進行大量的計算工作。

艱苦的工作開始於您進行搜索的方式。搜尋引擎全天候工作,從全球網站上收集信息並組織這些信息,因此很容易找到。這是一個三步過程,首先爬網網頁,將其編入索引,然後使用搜索算法對其進行排名。

1、爬行

搜尋引擎依靠爬蟲(自動腳本)在網上搜索信息。抓取工具從網站列表開始。算法(一組計算規則)自動決定要爬網的站點。該算法還規定了要爬網的頁面數和頻率。

抓取工具會系統地訪問列表中的每個站點,然後通過HREF和SRC之類的標記進行連結,以跳轉到內部或外部頁面。隨著時間的流逝,爬蟲會建立一個不斷擴大的相互連結頁面地圖。

2、seo要點

確保抓取工具可以輕鬆訪問您的網站。如果蜘蛛無法對其進行爬行,則它們將無法對其進行索引,這意味著您的網站將不會出現在搜索結果中。您可以通過執行以下操作來幫助確保蜘蛛的可訪問性:

①邏輯站點層次結構:定義從域到類別再到子類別的邏輯站點體系結構。這使搜尋器可以更快地在您的網站中移動,從而使網站保持在其搜尋預算之內。

②連結:在每個頁面上使用內部。抓取工具需要連結才能在頁面之間移動。沒有任何連結的頁面無法抓取,因此無法建立索引。

③XML網站地圖:列出您所有網站的頁面,包括博客文章。此列表充當爬網程序的說明手冊,告訴他們要爬網的頁面。有一些插件和工具,例如Yoast和Google XML Sitemaps,它們會在您發布新內容時生成並更新您的Sitemaps。

如果不確定爬網程序是否可以訪問您的網站,請查看我們的網站審核工具。該工具捕獲可訪問性問題,並提供有關如何解決它們的建議。它還每兩周為您的站點發送一次新的技術SEO報告,因此您可以始終在爬網程序的站點可見性之上。

3、索引編制

找到頁面後,蜘蛛會像瀏覽器一樣獲取(或渲染)該頁面。這意味著蜘蛛應該「看到」您看到的內容,包括圖像,視頻或其他類型的動態頁面內容。

機器人將這些內容組織成類別,包括圖像,CSS和HTML,文本和關鍵字等。此過程使搜尋器可以「了解」頁面上的內容,這是決定與頁面搜索哪個關鍵字相關的必要前提。

然後,搜尋引擎將這些信息存儲在一個索引中,該資料庫是一個巨大的資料庫,其中包含在被索引的每個網頁上看到的每個單詞的目錄條目。Google的索引Caffeine Index佔用了大約1億千兆字節,並填滿了「伺服器場」,這是全球範圍內從未關閉的數千臺計算機。

seo要點:確保抓取工具以您希望的方式「查看」您的站點;控制您允許它們索引網站的哪些部分。

①URL檢查工具:如果您想知道搜尋器在它們進入您的網站時看到的內容,請使用URL檢查工具。您還可以使用該工具來找出為什麼爬網程序不索引頁面或請求Google對其進行爬網的原因。

②Robots.txt:您不希望搜尋器在SERP中顯示網站的每個頁面;例如,作者頁面或分頁頁面可以從索引中排除。使用robots.txt文件通過告訴漫遊器可以抓取哪些頁面來控制訪問。

從網站的某些特定工作區域阻止抓取工具不會影響您的搜索排名。相反,它將幫助抓取工具將抓取預算集中在最重要的頁面上。

4、排行

在最後一步,搜尋引擎對索引信息進行排序,並為每個查詢返回正確的結果。他們使用搜索算法,分析搜索者正在尋找的內容以及最能回答查詢結果的規則來做到這一點。

算法使用許多因素來定義索引中頁面的質量。Google正在利用一系列算法對相關結果進行排名。這些算法中使用的許多排名因素都可以分析某段內容的普遍受歡迎程度,甚至可以分析用戶在網頁上獲得的定性體驗。這些因素包括:

①反向連結質量

②移動端友好

③「新鮮度」或最近更新內容的方式

④頁面打開速度

為確保算法正常運行,Google使用人工的Search Quality Ratingrs來測試和完善算法。這是人類而不是程序參與搜尋引擎工作方式的幾次情況之一。

seo要點:搜尋引擎希望顯示最相關,可用的結果。這使搜索者感到滿意,廣告收入不斷增加。這就是為什麼大多數搜尋引擎的排名因素實際上與人類搜索者通過頁面速度,新鮮度以及與其他有用內容的連結來判斷內容的因素相同。

在設計和刷新網站時,請優化頁面速度,可讀性和關鍵字密度,以向搜尋引擎發送積極的排名信號。努力改善頁面停留時間和跳出率等參與度指標也可以幫助提高排名。

三、執行搜索時會發生什麼?

現在我們知道搜尋引擎用於返回相關結果的三步過程。搜尋,索引和排名使搜尋引擎可以查找和組織信息。但是,這如何幫助他們回答您的搜索查詢?

從您在搜索欄中輸入字詞的那一刻起,讓我們逐步介紹搜尋引擎如何逐步回答查詢。

第1步:搜尋引擎解析意圖

要返回相關結果,搜尋引擎必須「理解」 術語後面的搜索意圖。他們使用複雜的語言模型來做到這一點,將您的查詢分解為關鍵字塊並解析含義。

例如,谷歌的同義詞系統允許搜尋引擎識別出幾組單詞意思相同的事物。因此,當您輸入「深色禮服」時,搜尋引擎將返回黑色禮服和深色調的結果。引擎了解到,黑暗通常是黑色的同義詞。

搜尋引擎還使用關鍵字來理解搜索意圖的廣泛「類別」。在「深色連衣裙」示例中,術語「購買」向搜尋引擎發出信號,表示它應拉出產品頁面以符合購物搜索者的意圖。

搜索結果還使用「新鮮度」算法來了解搜索者的意圖。這些算法識別趨勢關鍵字並返回較新的頁面。您會看到諸如「選舉結果」之類的術語,這些術語在選舉時間和非選舉時間返回完全不同的SERP結果。

第2步:搜尋引擎匹配頁面以查詢意圖

搜尋引擎了解您要查看什麼樣的結果後,就需要找到匹配的頁面。一系列因素可幫助搜尋引擎確定最佳的網頁,包括:

①標題/內容相關性

②內容類型

③內容質量

④網站質量和新鮮度

⑤頁面人氣

⑥查詢語言

因此,如果您搜索「最佳吃壽司的地方」,搜尋引擎將使標題和正文內容中帶有「壽司」或同義詞(例如「日本食品」)的列表頁面匹配。他們將根據受歡迎程度,新鮮度和品質因素對這些結果進行排序。

根據搜索意圖,搜尋引擎可能還會顯示豐富的結果,例如知識圖或圖像輪播。

第3步:搜尋引擎應用「本地化」因素

當搜尋引擎確定您看到的結果時,許多因素都會起作用。由於個人因素的影響,您可能會看到「最佳冷凍奶酪比薩」的結果與住在另一個州的朋友不同。

①位置:某些搜索(例如「我附近的餐廳」)顯然取決於位置。但是,即使在非特定地點的搜索中,Google也會對本地因素的結果進行排名。搜索「足球」可能會在匹茲堡向某人顯示有關鋼人的頁面,向舊金山某人向有關49ers的頁面。

②搜索設置:搜索設置也是重要的指示符,說明您可能會發現有用的結果,例如您設置了首選語言還是選擇了SafeSearch(一種有助於過濾掉明確結果的工具)。

③搜索歷史記錄:用戶的搜索歷史記錄也會影響他們看到的結果。例如,搜索「 hemingway」一詞,您將看到作家和編輯應用程式的結果。單擊有關作者的一些結果,然後再次搜索「 hemingway」。這次,您看到的關於編寫器的結果要比應用程式要多。

seo要點:搜索結果具有高度的針對性和動態性。無法預測您的網站在何時以及如何出現在每個搜索者手中。最好的方法是通過關鍵字研究,技術SEO和內容策略向搜尋引擎發送強烈的相關信號。這樣,您將顯示與您的內容真正相關的SERP。

四、利用這些知識來提高結果

了解了搜尋引擎的工作原理之後,就可以輕鬆創建可爬網和可索引的網站。向搜尋引擎發送正確的信號可確保您的頁面出現在與您的業務相關的結果頁面中。向搜索者和搜尋引擎提供服務,他們想要的內容是成功開展在線業務的一步。

相關焦點

  • 什麼是搜尋引擎蜘蛛?工作原理是什麼?
    通過昨天的分享,我們知道了如何發布文章更容易被搜尋引擎收錄,我們同時提到了「蜘蛛」這個程序,今天帶大家認識一下搜尋引擎蜘蛛。1、搜尋引擎蜘蛛介紹網絡爬蟲,是一種負責收集網絡信息的程序,每個搜尋引擎都配有蜘蛛程序。
  • 產品經理學技術:搜尋引擎工作原理
    在網際網路時代,搜尋引擎可以說是日常生活的一部分。不僅如此,搜尋引擎歷經20多年的風霜雨雪,仍然牢牢佔據著流量入口,不得不讓人感嘆。而且,提起搜尋引擎,我們都會想到一家高大上的巨無霸公司和一家被黑出xiang的巨霸公司。足以見得搜尋引擎的巨大作用。作為產品人,對此當然不能視而不見,也應該了解了解其工作原理。
  • 搜尋引擎蜘蛛(爬蟲)工作過程及原理
    什麼是搜尋引擎爬蟲,搜尋引擎爬蟲是如何工作的。搜尋引擎爬蟲也叫做搜尋引擎蜘蛛,是用來抓取網頁信息的,搜尋引擎抓取過程分為大致五個步驟。#Python爬蟲#分別是:抓取→ 存放 → 甄別 → 收錄 → 權重衡量分配排名搜尋引擎蜘蛛首先會抓取網頁信息,把抓取到的信息存放到搜尋引擎臨時資料庫中,接著搜尋引擎會根據自身的甄別原則分析信息價值,有價值的信息保留下來,沒有價值的信息進行刪除處理。
  • 常用的搜尋引擎優化工具介紹(上)
    常用的搜尋引擎優化工具介紹要想做好搜尋引擎優化,那就一定要利用好搜尋引擎優化工具。工具有很多,了解自己需要的哪一類是關鍵。華清傳媒小編今天就來跟大家分享一下常用的搜尋引擎優化工具介紹,希望大家了解之後在做優化時能夠起到一定幫助。
  • 搜尋引擎工作原理——排名
    圖片來源網絡經過搜尋引擎蜘蛛抓取頁面,索引程序計算得到倒排索引後,搜尋引擎就準備好可以隨時處理用戶搜索了。1、搜索詞處理搜尋引擎在接收到用戶輸入的搜索詞後,需要對搜索詞做一些處理,才能進入排名過程,搜索詞處理包括以下幾方面:(1)、中文分詞。與頁面索引時一樣,搜索詞也必須進行中文分詞,將查詢字符串轉換為以詞為基礎的關鍵詞組合。分詞原理與頁面分詞相同。
  • 如何屏蔽搜尋引擎抓取?
    作網站運營尤其是網站排名優化的時候,我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁,收錄。然而,很多時候一些網站因為所真對的用戶群體和目標地區不同,並不希望獲得搜尋引擎的光顧,這個時候我們要如何來解決呢?今天和筆者小丹一起來研究一下吧!    當我們看到要屏蔽抓取的時候,大多數SEOer想到的都是robots.txt文件。
  • SEO的索引和抓取是什麼意思,外貿自建站如何優化索引和抓取?
    抓取和索引這兩件事就是SEO領域中簡單而又重要的觀念,熟悉了解它們之後便可以優化搜尋引擎蜘蛛抓取、索引你的網站。 做 SEO工作,維持網路蜘蛛與網站之間良好的關係是非常重要的,你必須要了解各大搜尋引擎蜘蛛的效能以及規範,並儘量讓它能夠完整抓取你網站上的優質內容。 早些年,Bing的蜘蛛太大容量的網站內容會無法抓取,這是它本身的功能限制,你必須要把最好的內容往前方,如果容量太大的話,後邊的內容Bing是抓不到的。
  • i 學堂:搜尋引擎與網絡學習
    缺點:費時費力,不適應大範圍信息檢索;搜索體驗被動,側重於導引與瀏覽。例:利用雅虎目錄(http://dir.yahoo.com)查找百科全書站點全文檢索搜尋引擎:代表工具——Google與百度,通過電腦程式(Spider)自動到各個網站收集、存儲信息,並建立索引資料庫供用戶查詢。全文檢索搜尋引擎工作步驟包括:第一步:抓取網頁第二步:建立索引資料庫第三步:在資料庫中按特定排序儲存網頁
  • 「萬能」的搜尋引擎
    每當我們需要查什麼資料或者新聞的時候,都會打開搜尋引擎,輸入詞組就可以直接搜出自己想要的內容。搜尋引擎不但能搜索出海量內容,而且搜索速度很快。它到底是怎麼工作的呢?這就要從兩個方面單獨來分析,一方面是為什麼搜尋引擎的速度這麼快,另一個方面就是搜尋引擎是怎麼搜到這麼多海量資源的。書籍自古以來都是人類進步和文明的重要標誌之一,因為書籍可以不受時間、空間的限制,流傳和保存信息。在沒有網絡以前,書籍是我們獲取信息的主要工具。隨著網絡的普及,我們越來越多地通過網絡搜索信息,網絡成了獲取信息的主要渠道。
  • 你其實並不了解的搜尋引擎蜘蛛分類
    本章主要介紹一下搜尋引擎蜘蛛都有哪些類型。了解類型之前要先知道什麼是搜尋引擎蜘蛛。百度百科上有相關解釋,天鴻用一個形象的表述重新說一下。普通站長和SEO人員使用的採集工具或程序,所派出的Spider大都屬於批量型Spider,一般只抓取固定網站的固定內容,或者設置對某一資源的固定目標數據量,當抓取的數據或者時間達到設置限制後就會自動停止,這種Spider就是很典型的批量型Spider。2.增量型Spider增量型Spider也可以稱之為通用爬蟲。
  • SEO搜尋引擎優化代運營,教育類網站如何優化?
    網站搜索排名是指網站內關鍵詞在百度、360、搜狗、Google、uc神馬等搜尋引擎上的搜索排名,要想做好網站搜索排名,必須先了解基本的搜索工作要領。 SEO搜尋引擎優化推廣的定義 SEO搜尋引擎優化是一種利用搜尋引擎的規則提高網站在有關搜尋引擎內的自然排名。了解各種搜尋引擎怎樣進行搜索、怎樣抓取網際網路頁面、怎樣確定特定關鍵詞的搜索結果排名的技術。
  • AI算法入駐Google搜尋引擎,詞條再冷也可手到擒來!
    近期,Google搜尋引擎引入一種新的算法,在此基礎上,哪怕搜索詞條再冷門,用戶也可以搜到自己滿意的信息。 網際網路的能力是強大的,它幾乎囊括了一切我們日常生活中想要獲得的信息,但有時候因搜索詞條過於冷門而找不到信息時,大多數人也只能雙手攤開,表達自己的無奈。
  • 百度搜尋引擎工作原理
    關於百度以及其它搜尋引擎的工作原理,其實大家已經討論過很多,但隨著科技的進步、網際網路業的發展,各家搜尋引擎都發生著巨大的變化,並且這些變化都是飛快的。我們設計這個章節的目的,除了從官方的角度發出一些聲音、糾正一些之前的誤讀外,還希望通過不斷更新內容,與百度搜尋引擎發展保持同步,給各位站長帶來最新的、與百度高相關的信息。
  • 三種基本的搜尋引擎蜘蛛類型
    看了幾篇有關於搜尋引擎蜘蛛分類的文章,基本都是一樣的內容,內容來源也都基本是痞子瑞的那本書,內容改動的部分不超過5%,真的是替搜尋引擎的蜘蛛感到不值得啊,辛辛苦苦抓來的竟然都是這種「垃圾頁面」。本文同樣介紹三種基本的搜尋引擎蜘蛛類型,也就是批量型蜘蛛、增量型蜘蛛以及垂直型蜘蛛,至於是不是垃圾內容,您看完再進行評判。為了大家能夠更好的理解,我們把搜尋引擎比作一個擁有無限果樹的果園老闆,蜘蛛比作是摘果子的工人。蜘蛛抓取頁面的過程就是工人摘果子的過程。我們帶著這個比喻來理解搜尋引擎蜘蛛的三種類型。
  • 5分鐘了解搜尋引擎Lucene的原理
    5分鐘了解搜尋引擎Lucene的原理場景假設現在有10W+份word文檔,讓你做個web
  • 圖解 | 通用搜尋引擎背後的技術點
    初通用搜尋引擎的整體概覽3.1 搜尋引擎的基本流程大白嘗試用樸實的語言來整體表達下,通用搜尋引擎大致是怎麼工作的:1.我們用在線網頁分詞工具和真實網頁來模擬下這個過程:網頁分詞在線工具:http://www.78901.net/fenci/抓取網頁:https://tech.huanqiu.com/article/3zMq4KbdTAA可以看到分詞後可以標註詞頻,這些都是後續作為網頁排序的重要來源,但是中文是很複雜的,因此分詞算法會有很多種,常見的包括:5.3 正排索引
  • 以及如何使用開源網絡情報工具?
    有針對性的挖掘目標情報,儘管有多種方法可以秘密進行,但情報收集通常始於從網際網路公開資源中抓取信息,這些信息統稱為開源網絡情報或OSINT。由於社交媒體和在線活動的盛行,現在有大量合法可收集的OSINT開源網絡情報可用,這可以為情報收集者提供成功描述組織或個人所需的一切信息。
  • 寶山百度SEM培訓班淺析SEM推廣的基本要素和工作原理
    學習百度SEM推廣培訓課程的同學們要了解根據搜尋引擎推廣的原理,搜尋引擎推廣之所以能夠實現,需要有五個基本要素:信息源(網頁)、搜尋引擎信息索引資料庫、用戶的檢索行為和檢索結果、用戶對檢索結果的分析判斷、對選中檢索結果的點擊。
  • 網站建設-怎樣建設對搜尋引擎友好的站點
    內鏈建設的大忌  在《百度搜尋引擎工作原理》課程中我們提到過,Baiduspider需要知道站點裡哪個頁面更重要,其中一個渠道就是內鏈。,診斷網頁是否被加了鏈、隱藏文本  *每個站點每月可使用300次,抓取結果只展現百度蜘蛛可見的前200KB內容  【重要提示】若直接訪問網站時一切正常,但在百度的搜索結果展現了異常的快照內容,這可能是黑客做了特殊處理,只讓百度蜘蛛抓取到異常的頁面,以此來增加隱蔽性,讓站長難以發現;同理,若直接訪問網站正常,但從百度搜索結果頁進行訪問時
  • 搜尋引擎基本原理
    說到發展,不得不提搜尋引擎的三個主要目標,無論它往何方發展,以下三個目標總是一個很好的評估標準:更全:如何把更多相關的網頁收錄?更快:如何從數以億計的網頁中迅速返回結果?更準:如何把用戶最感興趣的結果呈現?