2020 年 9 月的某個清晨,美國北加州地區的民眾一覺醒來,發現野火濃煙後的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來的景象,很多人在現實生活中可能從未見過。
圖:LA Times
到底發生了什麼?
自然而然地,就像國內大多數網民會打開百度甚至知乎搜索答案一樣,一時間加州人民也紛紛潮湧至 Google,鍵入了類似「為什麼天空是橙色的」這樣的搜索關鍵字 —— 這些在搜尋引擎眼裡或許有點無釐頭的問題,依然通過信息卡片、精選新聞資訊的方式得到了精準而及時的解答。
當時的 Google 搜索頁面
以上是 Google 不久前[1] 分享的一個案例。當我們將 Google 搜尋引擎從上面這個事件中剝離出來仔細審視時,不少人應該都會心生疑竇:Google 是如何知道用戶要搜什麼的,為什麼針對加州地區的當地資訊會排在頁面頂部,其它地區的人搜索同樣的問題會得到類似的答案嗎,結果頁面左側的知識面板在這樣的搜索中發揮了怎樣的作用……
為了讓你多了解一點這個世界上最受歡迎的搜尋引擎,Google自 2018 年以來就開始陸續在 The Keyword 博客中分享關於 Google 搜尋引擎的各種細節與原理。如果你也有上面這些疑問,不妨跟隨本文一起探究 Google 搜尋引擎背後的秘密。
▍搜索建議是怎麼「蹦」出來的?每天我們都要和搜尋引擎打交道,而每次使用 Google 搜索信息時,鍵入搜索關鍵字的同時搜索框下方都會不斷「蹦」出各種各樣根據已輸入詞彙擴展而來的搜索建議。是此時的 Google「能掐會算」,早就知道了你心裡的那點小心思嗎?
這種「能掐會算」的背後是 Google 的一項名為自動填充(auto complete)的技術。從我們錄入開始,Google 就開始在搜索框的下方顯示它所猜測的搜索關鍵字結果。只要有任意一條「猜測」命中,我們就能快速完成輸入。
這種「猜測」(官方稱為「預測」)其實是系統在不斷使用我們鍵入的詞彙進行聯想查詢,我們不斷輸入的同時,搜索框下方提示的文字內容也會根據「猜測」結果不斷調整。這其實也是為什麼網絡環境不太好的時候搜索建議可能會表現得反應遲滯甚至完全不會「蹦」出搜索建議的原因。
為了提高這些搜索建議的命中率,Google 還會進一步引入相關因素來進行預測校準,進行搜索的用戶所處的地理位置、當下的熱門甚至用戶所使用的設備……這些都會對自動填充生成的搜索建議產生影響 —— 當然了,很多人應該也知道,我們在 Google 上保存的搜索歷史和各種搜索設置同樣也會影響到具體的預測結果。
搜索設置會影響搜索結果,但只是眾多影響因素的一部分
舉個例子,在 Google 搜尋引擎使用率更高的歐美地區,Google 往往會根據搜索用戶所處的地理位置預判他們使用的是英式英語還是美式英語,進而提供差異化的內容顯示 —— 在英式英語的語境下「football」通常會是足球,而在美式英語下往往是橄欖球,Google 也會這麼做;與之對應的,Google 還會在單詞拼寫上進行建議,比如根據搜索者的所在地區對「center」和「centre」的寫法進行區分。
注意觀察圖中位置與單詞的拼寫
由此其實也可以得出一個事實:每個人在 Google 中進行的每一次搜索都是高度個性化的,即便我們使用瀏覽器的隱私瀏覽模式排除個人搜索和瀏覽記錄的幹擾,實際搜索結果還是會根據其它因素進行調整。
▍精選摘要:不用翻查、即問即答我只是要找個答案而已,並不想點開網頁。
經常使用搜尋引擎獲取信息的人一定會有類似的想法,讓他們養成這個習慣的原因之一,很有可能就是 Google 經常會在搜索結果頁面上方直接生成的那個信息卡片 —— 直接、乾脆,你問、它答。
這個答案是怎麼來的?
首先,這個卡片也有一個特定的名字:精選摘要(featured snippets),套用一句俗話,「生活就像水中的鴨子,表面上從容淡定,其實水底下在拼命划水」。精選摘要的來源也是這樣 —— 在我們鍵入、搜索的過程中,Google 表面上只是從容淡定地搜索、跳轉,背後的零點幾秒時間裡,幕後其實也在「拼命划水」。搜索系統算法會根據我們所搜索的問題檢索一些相對具備權威性的高質量網站頁面,然後從這些網站中提取關鍵內容來生成摘要,最後把這份摘要呈送到我們眼前,即上面所說的「精選摘要」。
然而算法畢竟是算法,也會有陰溝翻船的時候,其中最著名的例子莫過於「古羅馬人夜間如何計時」這個問題,最初 Google 給出的答案是:
日晷。羅馬人最初使用日晷來測量時間流逝。通過這種方法他們不僅可以相對準確地獲取日出、日落和正午時間,還能根據日影長度估算一天中的其它時刻。日晷這種新工具的引入給了羅馬人一種更好的測量時間的方法……
那麼夜間沒有太陽如何用日晷計時呢?Google 的精選摘要那時也不知道。是不是有點你學生時代答非所問但一定要把試題紙寫滿的味道了……
了解更多:Google 精選摘要的運作方式[2]
▍知識圖譜:強力的信息補充上面我們已經了解了「精選摘要」,也見識了它的「胡說八道」,那當我們意識到精選摘要似乎在「亂侃」的時候怎麼辦?或者這個搜索頁面根本就沒有精選摘要……
你可能已經有這個習慣了:向右看。頁面右側可能會出現一個知識面板,它包含了當前搜索話題相關的知識信息,沒準也能在你的搜索中派上用場。這個知識面板(Knowledge Panel)與早年 Google 精心搭建的知識圖譜(Knowledge Graph)體系密切相關。
圖片來自於維基百科
簡單來說,知識圖譜是一個由各種不同頁面、不同來源的信息構成的小「知識庫」,根據話題的不同,Google 通過語義算法自動整理、歸納不同內容的相關信息,這些信息同時會隨著原始來源頁面的變化而自動更新。
因此當我們在搜索人物、地點、組織等信息的時候,知識面板可以直接將相關內容匯總為一張知識面板放在搜索頁面右側。目前這個面板中所收納的內容已經相當豐富了,以 Apple 的知識面板為例,我們可以直接在知識面板中找到 Apple 這家公司的基本信息介紹、股價信息、業務範圍、售後電話、社交帳戶頁面、熱門產品甚至換電池業務頁面……比起跳轉到某個網際網路犄角旮旯裡才能找到官網的體驗來說這樣的知識面板能夠大幅提高話題信息的檢索效率。
儘管知識面板偏居一隅,但是 Google 對它還挺上心的。按照 Google 的說法[3],截至 2020 年 5 月,知識面板已經收集了約 50 億個實體、超過 5000 億個名詞實例,說它是一本藏在 Google 搜尋引擎裡的「百科全書」不過分吧?
▍哪些結果排前面?不是錢說了算精選摘要也好,知識面板也罷,這些都可以簡單歸納到快速答案範疇內。假如把整個搜索過程比作是一頓飽餐,精選摘要、知識面板只不過是餐前甜點,頁面主體內容裡的搜索結果才是正餐。
所以很多人在瀏覽 Google 搜索結果的時候,隨著滑鼠的滾輪不斷滑動、藍色的搜索連結飛速掠過,很自然地就會有一個不成熟的小想法:這麼多的搜索結果是如何排序的,前面這幾個會不會跟某些搜尋引擎一樣是收了錢的?
「犯罪嫌疑人」是這樣說的
這個問題就涉及到了搜索排名算法了。
這裡最為大眾所熟知的搜索排名算法應該就是 PageRank 了。這也是 Google 最早使用的[4] 對網頁進行的排名算法。對,就是你的潛意識裡的那個名字,拉裡·佩奇(Larry Page),這個算法正是用 Google 創始人(之一)的名字命名。
雖然 Google 主要靠廣告掙錢,影響搜索結果排名的主要還是算法本身,但金無足赤,算法同樣也有問題。PageRank 的缺陷就包括「舊的頁面的排名往往會比新頁面高」,也同樣因此成為了一些人「刷排名」的漏洞。因此 Google 在 2016 年 關閉了[5] PageRank 數據開放的大門。
所謂條條大路通羅馬,儘管時間在變、算法在變,不過 Google 表示保證搜索結果排名質量的初心並沒有變。按照 Google 的說法,目前 Google 搜尋引擎的排名系統是以質量為導向的,它由一系列算法組成,在搜索過程中,我們搜索的字詞、搜索目標網頁的相關性、可用性、來源專業程度等等都會影響到算法和頁面的最終排名。用戶搜索話題的性質不同也會影響頁面的內容排序。
所以從某種程度上來說,Google 搜尋引擎現階段的排名算法其實是有點「黑盒子」,它不像早年 PageRank 那樣公開透明,但依然維持著較高的搜索結果排名質量 —— 當然,Google 用來「養家餬口」的廣告往往還是會排在搜索結果的上面,好在它們和少數派網站一樣都標註得蠻清楚。
▍用人力保證搜索結果質量沒錯,講了這麼多預測、知識圖譜與算法,保證 Google 搜索結果質量最後一環的竟然還是人。
就像上面提到的那個「羅馬人夜間用日晷計時」的笑話一樣,搜索結果詞不達意甚至答非所問的情況是有的,而算法很難自查。為了減少類似的情況發生,Google 充分調動這樣幾波人的智慧:
專家、權威機構。在搜索健康財務、公民信息( civic-information )和危機情況等話題的時候,我們能直接在搜索結果中優先看到來自當地政府、衛健、選舉等權威機構的信息。這樣我們就能從源頭上得到靠譜的信息。
Google 內部團隊。這當中不得不提到的有兩支團隊:一支是專門的研究團隊,一支是內容合規團隊(enforcement team)。前者通過對世界各地的具體情況進行「實地考察」來改進個性化搜索質量;後者依照 Google 的政策處理那些系統沒有攔住的違規內容。
搜索質量評分員(Search Quality Rater)。他們是對搜索質量進行 E-A-T[6] 評級的人,E-A-T 評級反映了搜索結果的專業性(Expertise)、權威性(Authoritativeness)和可信度(Trustworthiness);評分員同時也是幫助 Google 評估我們在搜索行為上實際體驗的人。根據 Google 的數據,目前參與這些工作的評分員有 10000 多人。
P.S. 評分員在開始提供評級服務之前,需要學習 Google 發布的《搜索質量評分者指南》[7] 並且通過相應考試。整個評估工作也要遵照該《指南》進行。
除了以人之智慧補算法之不足之外,Google 同樣沒有放棄對算法優化的努力。以「網頁的相關性和可用性」而言,Google 擁有多種語言理解系統。這些語言理解系統中既有對應拼寫錯誤、同義詞等內容系統,又有基於 AI 的系統。通過這些系統,Google 得以了解與我們搜索最相關的結果並進行改善。
配合人為主導的並行實驗、實時流量實驗等一系列的工作,最終 Google 得以保證我們在 Google 搜尋引擎中的實際體驗。根據 Google 披露的數據,2019 年他們與搜索質量評分者一共進行了 383605 餘次搜索質量測試[8]、62937 次並行實驗、17523 次實時流量實驗,這些努力幫助 Google 對搜索算法進行了 3600 多次改進。
修正前與修正後的精選摘要答案對比
▍小結一次簡單的搜索行為、一個稀鬆平常的搜索結果頁面,背後的算法、原理、構成和人力因素其實都複雜且精妙。
太陽每天都是新的、網際網路發展不斷向前,我們的搜索需求也水漲船高,回首來路,也正是因為 Google 在「搜索」這件事情上的不斷改進和優化,才讓它最終成為了不少人心中那個最靠譜的首選。
本文編譯自 How Search Works[9] 系列博文。
封面來自 Unsplash :Solen Feyissa[1] 不久前:
https://blog.google/products/search/why-sky-orange-how-google-gave-people-right-info/[2] Google 精選摘要的運作方式:
https://support.google.com/websearch/answer/9351707?p=featured_snippets&hl=zh-Hans[3] Google 的說法:
https://blog.google/products/search/about-knowledge-graph-and-knowledge-panels/[4] 最早使用的:
https://en.wikipedia.org/wiki/PageRank[5] 關閉了:
https://www.searchenginejournal.com/google-pagerank-official-shuts-doors-public/161874/[6] E-A-T:
https://blog.searchmetrics.com/us/google-e-a-t-ranking-factor/[7] 《搜索質量評分者指南》:
https://guidelines.raterhub.com/searchqualityevaluatorguidelines.pdf[8] 383605 餘次搜索質量測試:
https://www.google.com/search/howsearchworks/mission/users/[] How Search Works:
https://blog.google/products/search/how-search-works/