Google 搜尋引擎是如何工作的?

2021-02-11 少數派

2020 年 9 月的某個清晨,美國北加州地區的民眾一覺醒來,發現野火濃煙後的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來的景象,很多人在現實生活中可能從未見過。

圖:LA Times

到底發生了什麼?

自然而然地,就像國內大多數網民會打開百度甚至知乎搜索答案一樣,一時間加州人民也紛紛潮湧至 Google,鍵入了類似「為什麼天空是橙色的」這樣的搜索關鍵字 —— 這些在搜尋引擎眼裡或許有點無釐頭的問題,依然通過信息卡片、精選新聞資訊的方式得到了精準而及時的解答。

當時的 Google 搜索頁面

以上是 Google 不久前[1] 分享的一個案例。當我們將 Google 搜尋引擎從上面這個事件中剝離出來仔細審視時,不少人應該都會心生疑竇:Google 是如何知道用戶要搜什麼的,為什麼針對加州地區的當地資訊會排在頁面頂部,其它地區的人搜索同樣的問題會得到類似的答案嗎,結果頁面左側的知識面板在這樣的搜索中發揮了怎樣的作用……

為了讓你多了解一點這個世界上最受歡迎的搜尋引擎,Google自 2018 年以來就開始陸續在 The Keyword 博客中分享關於 Google 搜尋引擎的各種細節與原理。如果你也有上面這些疑問,不妨跟隨本文一起探究 Google 搜尋引擎背後的秘密。

搜索建議是怎麼「蹦」出來的?

每天我們都要和搜尋引擎打交道,而每次使用 Google 搜索信息時,鍵入搜索關鍵字的同時搜索框下方都會不斷「蹦」出各種各樣根據已輸入詞彙擴展而來的搜索建議。是此時的 Google「能掐會算」,早就知道了你心裡的那點小心思嗎?

這種「能掐會算」的背後是 Google 的一項名為自動填充(auto complete)的技術。從我們錄入開始,Google 就開始在搜索框的下方顯示它所猜測的搜索關鍵字結果。只要有任意一條「猜測」命中,我們就能快速完成輸入。

這種「猜測」(官方稱為「預測」)其實是系統在不斷使用我們鍵入的詞彙進行聯想查詢,我們不斷輸入的同時,搜索框下方提示的文字內容也會根據「猜測」結果不斷調整。這其實也是為什麼網絡環境不太好的時候搜索建議可能會表現得反應遲滯甚至完全不會「蹦」出搜索建議的原因。

為了提高這些搜索建議的命中率,Google 還會進一步引入相關因素來進行預測校準,進行搜索的用戶所處的地理位置、當下的熱門甚至用戶所使用的設備……這些都會對自動填充生成的搜索建議產生影響 —— 當然了,很多人應該也知道,我們在 Google 上保存的搜索歷史和各種搜索設置同樣也會影響到具體的預測結果。

搜索設置會影響搜索結果,但只是眾多影響因素的一部分

舉個例子,在 Google 搜尋引擎使用率更高的歐美地區,Google 往往會根據搜索用戶所處的地理位置預判他們使用的是英式英語還是美式英語,進而提供差異化的內容顯示 —— 在英式英語的語境下「football」通常會是足球,而在美式英語下往往是橄欖球,Google 也會這麼做;與之對應的,Google 還會在單詞拼寫上進行建議,比如根據搜索者的所在地區對「center」和「centre」的寫法進行區分。

注意觀察圖中位置與單詞的拼寫

由此其實也可以得出一個事實:每個人在 Google 中進行的每一次搜索都是高度個性化的,即便我們使用瀏覽器的隱私瀏覽模式排除個人搜索和瀏覽記錄的幹擾,實際搜索結果還是會根據其它因素進行調整。

精選摘要:不用翻查、即問即答

我只是要找個答案而已,並不想點開網頁。

經常使用搜尋引擎獲取信息的人一定會有類似的想法,讓他們養成這個習慣的原因之一,很有可能就是 Google 經常會在搜索結果頁面上方直接生成的那個信息卡片 —— 直接、乾脆,你問、它答。

這個答案是怎麼來的?

首先,這個卡片也有一個特定的名字:精選摘要(featured snippets),套用一句俗話,「生活就像水中的鴨子,表面上從容淡定,其實水底下在拼命划水」。精選摘要的來源也是這樣 —— 在我們鍵入、搜索的過程中,Google 表面上只是從容淡定地搜索、跳轉,背後的零點幾秒時間裡,幕後其實也在「拼命划水」。搜索系統算法會根據我們所搜索的問題檢索一些相對具備權威性的高質量網站頁面,然後從這些網站中提取關鍵內容來生成摘要,最後把這份摘要呈送到我們眼前,即上面所說的「精選摘要」。

然而算法畢竟是算法,也會有陰溝翻船的時候,其中最著名的例子莫過於「古羅馬人夜間如何計時」這個問題,最初 Google 給出的答案是:

日晷。羅馬人最初使用日晷來測量時間流逝。通過這種方法他們不僅可以相對準確地獲取日出、日落和正午時間,還能根據日影長度估算一天中的其它時刻。日晷這種新工具的引入給了羅馬人一種更好的測量時間的方法……

那麼夜間沒有太陽如何用日晷計時呢?Google 的精選摘要那時也不知道。是不是有點你學生時代答非所問但一定要把試題紙寫滿的味道了……

了解更多:Google 精選摘要的運作方式[2]

知識圖譜:強力的信息補充

上面我們已經了解了「精選摘要」,也見識了它的「胡說八道」,那當我們意識到精選摘要似乎在「亂侃」的時候怎麼辦?或者這個搜索頁面根本就沒有精選摘要……

你可能已經有這個習慣了:向右看。頁面右側可能會出現一個知識面板,它包含了當前搜索話題相關的知識信息,沒準也能在你的搜索中派上用場。這個知識面板(Knowledge Panel)與早年 Google 精心搭建的知識圖譜(Knowledge Graph)體系密切相關。

圖片來自於維基百科

簡單來說,知識圖譜是一個由各種不同頁面、不同來源的信息構成的小「知識庫」,根據話題的不同,Google 通過語義算法自動整理、歸納不同內容的相關信息,這些信息同時會隨著原始來源頁面的變化而自動更新。

因此當我們在搜索人物、地點、組織等信息的時候,知識面板可以直接將相關內容匯總為一張知識面板放在搜索頁面右側。目前這個面板中所收納的內容已經相當豐富了,以 Apple 的知識面板為例,我們可以直接在知識面板中找到 Apple 這家公司的基本信息介紹、股價信息、業務範圍、售後電話、社交帳戶頁面、熱門產品甚至換電池業務頁面……比起跳轉到某個網際網路犄角旮旯裡才能找到官網的體驗來說這樣的知識面板能夠大幅提高話題信息的檢索效率。

儘管知識面板偏居一隅,但是 Google 對它還挺上心的。按照 Google 的說法[3],截至 2020 年 5 月,知識面板已經收集了約 50 億個實體、超過 5000 億個名詞實例,說它是一本藏在 Google 搜尋引擎裡的「百科全書」不過分吧?

哪些結果排前面?不是錢說了算

精選摘要也好,知識面板也罷,這些都可以簡單歸納到快速答案範疇內。假如把整個搜索過程比作是一頓飽餐,精選摘要、知識面板只不過是餐前甜點,頁面主體內容裡的搜索結果才是正餐。

所以很多人在瀏覽 Google 搜索結果的時候,隨著滑鼠的滾輪不斷滑動、藍色的搜索連結飛速掠過,很自然地就會有一個不成熟的小想法:這麼多的搜索結果是如何排序的,前面這幾個會不會跟某些搜尋引擎一樣是收了錢的?

「犯罪嫌疑人」是這樣說的

這個問題就涉及到了搜索排名算法了。

這裡最為大眾所熟知的搜索排名算法應該就是 PageRank 了。這也是 Google 最早使用的[4] 對網頁進行的排名算法。對,就是你的潛意識裡的那個名字,拉裡·佩奇(Larry Page),這個算法正是用 Google 創始人(之一)的名字命名。

雖然 Google 主要靠廣告掙錢,影響搜索結果排名的主要還是算法本身,但金無足赤,算法同樣也有問題。PageRank 的缺陷就包括「舊的頁面的排名往往會比新頁面高」,也同樣因此成為了一些人「刷排名」的漏洞。因此 Google 在 2016 年 關閉了[5] PageRank 數據開放的大門。

所謂條條大路通羅馬,儘管時間在變、算法在變,不過 Google 表示保證搜索結果排名質量的初心並沒有變。按照 Google 的說法,目前 Google 搜尋引擎的排名系統是以質量為導向的,它由一系列算法組成,在搜索過程中,我們搜索的字詞、搜索目標網頁的相關性、可用性、來源專業程度等等都會影響到算法和頁面的最終排名。用戶搜索話題的性質不同也會影響頁面的內容排序。

所以從某種程度上來說,Google 搜尋引擎現階段的排名算法其實是有點「黑盒子」,它不像早年 PageRank 那樣公開透明,但依然維持著較高的搜索結果排名質量 —— 當然,Google 用來「養家餬口」的廣告往往還是會排在搜索結果的上面,好在它們和少數派網站一樣都標註得蠻清楚。

用人力保證搜索結果質量

沒錯,講了這麼多預測、知識圖譜與算法,保證 Google 搜索結果質量最後一環的竟然還是人。

就像上面提到的那個「羅馬人夜間用日晷計時」的笑話一樣,搜索結果詞不達意甚至答非所問的情況是有的,而算法很難自查。為了減少類似的情況發生,Google 充分調動這樣幾波人的智慧:

專家、權威機構。在搜索健康財務、公民信息( civic-information )和危機情況等話題的時候,我們能直接在搜索結果中優先看到來自當地政府、衛健、選舉等權威機構的信息。這樣我們就能從源頭上得到靠譜的信息。

Google 內部團隊。這當中不得不提到的有兩支團隊:一支是專門的研究團隊,一支是內容合規團隊(enforcement team)。前者通過對世界各地的具體情況進行「實地考察」來改進個性化搜索質量;後者依照 Google 的政策處理那些系統沒有攔住的違規內容。

搜索質量評分員(Search Quality Rater)。他們是對搜索質量進行 E-A-T[6] 評級的人,E-A-T 評級反映了搜索結果的專業性(Expertise)、權威性(Authoritativeness)和可信度(Trustworthiness);評分員同時也是幫助 Google 評估我們在搜索行為上實際體驗的人。根據 Google 的數據,目前參與這些工作的評分員有 10000 多人。

P.S. 評分員在開始提供評級服務之前,需要學習 Google 發布的《搜索質量評分者指南》[7] 並且通過相應考試。整個評估工作也要遵照該《指南》進行。

除了以人之智慧補算法之不足之外,Google 同樣沒有放棄對算法優化的努力。以「網頁的相關性和可用性」而言,Google 擁有多種語言理解系統。這些語言理解系統中既有對應拼寫錯誤、同義詞等內容系統,又有基於 AI 的系統。通過這些系統,Google 得以了解與我們搜索最相關的結果並進行改善。

配合人為主導的並行實驗、實時流量實驗等一系列的工作,最終 Google 得以保證我們在 Google 搜尋引擎中的實際體驗。根據 Google 披露的數據,2019 年他們與搜索質量評分者一共進行了 383605 餘次搜索質量測試[8]、62937 次並行實驗、17523 次實時流量實驗,這些努力幫助 Google 對搜索算法進行了 3600 多次改進。

修正前與修正後的精選摘要答案對比

小結

一次簡單的搜索行為、一個稀鬆平常的搜索結果頁面,背後的算法、原理、構成和人力因素其實都複雜且精妙。

太陽每天都是新的、網際網路發展不斷向前,我們的搜索需求也水漲船高,回首來路,也正是因為 Google 在「搜索」這件事情上的不斷改進和優化,才讓它最終成為了不少人心中那個最靠譜的首選。

本文編譯自 How Search Works[9] 系列博文。

封面來自 Unsplash :Solen Feyissa

[1] 不久前:

https://blog.google/products/search/why-sky-orange-how-google-gave-people-right-info/

[2] Google 精選摘要的運作方式:

https://support.google.com/websearch/answer/9351707?p=featured_snippets&hl=zh-Hans

[3] Google 的說法:

https://blog.google/products/search/about-knowledge-graph-and-knowledge-panels/

[4] 最早使用的:

https://en.wikipedia.org/wiki/PageRank

[5] 關閉了:

https://www.searchenginejournal.com/google-pagerank-official-shuts-doors-public/161874/

[6] E-A-T:

https://blog.searchmetrics.com/us/google-e-a-t-ranking-factor/

[7] 《搜索質量評分者指南》:

https://guidelines.raterhub.com/searchqualityevaluatorguidelines.pdf

[8] 383605 餘次搜索質量測試:

https://www.google.com/search/howsearchworks/mission/users/

[] How Search Works:

https://blog.google/products/search/how-search-works/

相關焦點

  • 【科普】搜尋引擎的工作原理
    當然,實話說,如果有人說,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能會比google工程師少一些。但我相信google工程師也會告訴你,搜尋引擎是需要本地化的。今天寫篇科普文,講講搜尋引擎的技術機理和市場競爭的一些特點。當然,作為從事或有興趣從事流量運營的朋友,是可以用另一個角度去理解本文。
  • 科普 搜尋引擎的工作原理
    所以我跟很多創業者說,中國做網站,放百度統計,海外做網站,放google analytics,是否會增加搜尋引擎對你網站的收錄?我只能說猜測,有這個可能。但分詞不是說說那麼簡單,比如幾點,1:如何識別人名?2、網際網路新詞如何識別?比如 「不明覺厲」。3、中英混排的坑,比如QQ表情。做一個分詞系統,說到底也不難,但是要做一個自動學習,與時俱進,又能高效率靈活的分詞引擎,還是很有技術難度的。  當然,這方面我不是專家,不敢妄言了。
  • 搜尋引擎是如何工作的?
    前言我們每天都在用 Google, 百度這些搜尋引擎,那大家有沒想過搜尋引擎是如何實現的呢,看似簡單的搜索其實技術細節非常複雜,說搜尋引擎是 IT 皇冠上的明珠也不為過,今天我們來就來簡單過一下搜尋引擎的原理,看看它是如何工作的,當然搜尋引擎博大精深,一篇文章不可能完全介紹完,我們只會介紹它最重要的幾個步驟,不過萬變不離其宗,搜尋引擎都離不開這些重要步驟,剩下的無非是在其上添磚加瓦,所以掌握這些「關鍵路徑」,能很好地達到觀一斑而窺全貎的目的。
  • 把默認搜尋引擎換成Google有多爽?
    討伐百度的聲浪一波接一波,一些有識之士開始嘗試使用谷歌搜尋引擎來代替百度,可儘管他們嘴上喊著「堅決反對」,呼喊完了,還是得繼續使用百度。除開大陸地區無法直接訪問 Google 的大環境,很多能夠訪問 Google 的人,其默認搜尋引擎仍然是把百度放在第一位。
  • 搜尋引擎是如何工作的
    事實上用戶會更喜歡一個發現引擎,而不僅僅是一個搜尋引擎。搜尋引擎匹配查詢到它們創建的索引上。這個索引包含每個文檔的單詞,和能指向文兒當地址的指針。這被叫做倒排索引文件【 inverted file】。一個搜尋引擎或者IR系統包括四個基本的模塊:雖然用戶關注的點是「搜索」,但是搜索和匹配功能僅僅是這四個模塊裡的其中之一。這四個模塊中的每一個都可能導致用戶在使用搜尋引擎時獲得預期或意外的結果。
  • 搜尋引擎的工作原理是什麼?
    搜尋引擎為想要抓取網際網路站的頁面,不可能手動去完成,那麼百度,google的工程師就編寫了一個程序,他們給這個自動抓取的程序起了一個名字,蜘蛛(也可以叫做「機器人」或者「網絡爬蟲」)。網際網路上的信息存儲在無數個伺服器上,任何搜尋引擎要想回答用戶的搜索,首先要把網頁存在自己本地的伺服器上,這靠的就是網絡爬蟲。
  • 2021 Google SEO 谷歌搜尋引擎優化指南 (下)
    今天給大家介紹 2021年 Google SEO 搜尋引擎優化的全方位指南,包括 2021 年穀歌搜尋引擎優化的 8 個重要趨勢,以及針對這些趨勢的有效可執行的優化策略
  • 搜尋引擎工作的基礎流程與原理
    搜尋引擎為了滿足對速度苛刻的要求(現在商業的搜尋引擎的查詢時間單位都是微秒數量級的),所以採用緩存支持查詢需求的方式,也就是說我們在查詢搜索時所得到的結果並不是及時的,而是在其伺服器已經緩存好了的結果。那麼搜尋引擎工作的大體流程是什麼樣子呢?我們可以理解為三段式。本文僅僅是對著三段工作流程進行大體上的講解與綜述,其中一些詳細的技術細節將會用其它的文章進行單獨的講解。
  • 因Google被美國司法部起訴,蘋果抓緊自研搜尋引擎
    據英國《金融時報》報導,監管機構正在仔細審查 Google 每年為確保其搜尋引擎安裝在蘋果設備而支付的數十億美元。美國司法部上周就 Google 向蘋果支付手機默認搜索工具的款項提起了訴訟。美國司法部引用 「公開估計」 稱,Google 每年向蘋果支付 80 億至 120 億美元,來作為蘋果產品的默認搜尋引擎。
  • 搜尋引擎工作原理
    百度是如何在浩如煙海的網際網路資源中,以如此之快的速度將您的網站內容展現給用戶?這背後蘊藏著什麼樣的工作流程和運算邏輯?事實上,百度搜尋引擎的工作並非僅僅如同首頁搜索框一樣簡單。搜尋引擎為用戶展現的每一條搜索結果,都對應著網際網路上的一個頁面。每一條搜索結果從產生到被搜尋引擎展現給用戶,都需要經過四個過程:抓取、過濾、建立索引和輸出結果。
  • 如何使用Google?
    順著上例的思路,你也可以瞭解到如何縮小搜索範圍,迅速找到目的資訊的一般方法:目標資訊一定含有的關鍵字(用「 」連起來),目標資訊不能含有的關鍵字(用「-」去掉),目標資訊可能含有的關鍵字(用「OR」連起來)。7,雜項語法7.1,通配符問題很多搜尋引擎支援通配符號,如「*」代表一連串字元,「?」代表單個字元等。Google對通配符支持有限。
  • 搜尋引擎工作原理是什麼
    SEOer們要想更好的理解SEO,做好SEO的工作,學習和理解搜尋引擎的基本架構和原理,是非常有必要的,下面我來講一下搜尋引擎的一些組成部分。
  • 全文搜尋引擎高效搜索圖片
    一、什麼是搜尋引擎  百度百科上是這樣定義:搜尋引擎(Search Engine)是指根據一定的策略
  • 如何用搜尋引擎快速搜索到你所需要的資源
    在這裡億恩網將自己多年的搜索方法整理出來供廣大跨境電商從業者研究學習,從而提高工作效率。什麼是搜尋引擎(Search Engine)搜尋引擎(Search Engine)是指根據一定的策略,運用特定的電腦程式從網際網路上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。
  • 如何得到 Google 的工作機會?
    努力成為領域內最優秀的人咯(文|Tony,授權商務範發布)問:如何得到 Google 的工作機會?Disclaimer:答者是Google員工。非招聘部門。一切言論為個人觀點,與官方無關。一切信息來源屆來自網絡,不含內部機密信息。
  • 搜尋引擎基本語法
    搜尋引擎是我日常工作中用得最多的一款工具,國內常用的搜尋引擎包括Baidu,sougou,bing,以及信息安全從業人員必備的幾款網絡搜尋引擎。
  • 篇四:搜尋引擎的工作原理
    提起搜尋引擎,我們會想到早期的 Yahoo 、Google 、百度、搜狗這些網際網路企業,最早期的時候搜索業務就是它們的核心業務,正是搜索業務奠定了它們其他業務發展的基礎。知其然,也要知其所以然,我們應該了解了解其工作原理。搜尋引擎工作原理大致可以分為3個步驟1. 爬行與抓取2. 預處理3.
  • 如何進行Google關鍵詞分析(2021最全策略)
    那麼接下來我們就一起來了解一下如何進行全面的關鍵詞研究。什麼是關鍵詞?關鍵詞就是用戶在搜尋引擎上輸入的搜索詞,就是隱藏著用戶搜索意圖的詞語或者短句。研究關鍵詞就是研究用戶的搜索意圖,了解我們應該提供什麼內容才能儘可能地符合用戶的搜索需求,吸引他點擊,並且引導他完成轉化。一、如何挖掘關鍵詞我們知道關鍵詞非常重要,但是我們怎麼能夠找到與我們業務相關的更多的關鍵詞呢?
  • Google的搜尋引擎如何賺錢
    Google(GOOG)在「金融時報全球500強」中以市值排名世界第四,更重要的是Google是世界上最大的搜尋引擎,市場份額約為71%。
  • 科研技巧—如何用搜尋引擎快速搜索科研資料(附搜尋引擎和資料庫詳細名單)
    搜尋引擎是我們信息資料搜集的最重要的渠道之一,用搜尋引擎查找信息資料需要使用恰當的關鍵詞和一些搜索技巧。下面小編就給大家重點講解幾點搜尋引擎進階技巧:首先我們需要學會組合關鍵詞,關鍵詞之間要有間隔。一般我們在搜索資料時更換不同的關鍵詞組合會搜尋引擎會更直接的展示我們所需的結果。