谷歌1月19日表示,它已經改善了其搜尋引擎理解同義詞的方式,這是該公司努力使搜索服務更像人類或人工智慧那樣以計算機行業的眼光來看的重要一步。解析同義詞是Hakia,Yebol和Microsoft的Powerset(現在為Bing提供動力)之類的搜尋引擎創業公司也在語義搜索的旗幟下開展的工作。這個想法是對搜尋引擎進行微調,以區分具有相似含義的單詞。
谷歌搜索質量的工程師已經超過五年的研究,導致該公司的「同義詞系統」,其中更折磨了「分析同義詞影響和質量,」在寫的谷歌軟體工程師史蒂芬·貝克的博客文章1月19日 「我們的系統分析PB級的Web文檔和歷史搜索數據」,以了解「不同上下文中的單詞含義」。
貝克說,該公司發現「同義詞在Google支持的100多種語言中影響了70%的用戶搜索」。
他說:「使計算機能夠理解語言仍然是人工智慧中最困難的問題之一。」 「搜尋引擎的目標是為您的搜索返回最佳結果,理解語言對於返回最佳結果至關重要。其中的關鍵部分是我們的同義詞理解系統。」
貝克說,人工智慧挑戰的一個很好的例子是幫助谷歌的搜尋引擎區分「圖片」和「照片」這兩個詞,它們通常是同一回事。
如果用戶搜索「用咖啡製成的照片」以查看如何使用咖啡粉作為顯影劑來顯影照片,則Google必須理解,即使頁面上顯示的是「照片」而不是「照片」,它仍然與搜索相關」,貝克說。請參閱此處的示例。
Google現在還在其搜索結果摘要中以粗體字母顯示搜索同義詞,以幫助搜索用戶了解顯示該結果的原因,即使該結果不包含原始搜索字詞也是如此。例如,對於「用咖啡衝印的照片」搜索,第一個結果的標題的單詞「 photos」以粗體顯示。
這是一個簡單的例子。谷歌還指出了涉及可能具有更複雜的同義詞的術語的查詢,例如「 GM」。請在此處查看Google對術語的解析。正如貝克所說:
「大多數人都知道最主要的含義:通用汽車。對於[通用汽車]的搜索,您可以看到Google在搜索結果中加粗了「通用汽車」的字樣。這表明,對於該搜索,我們認為「通用汽車」 」的含義與「 GM」相同。...GM可以表示[GM大學]中的George Mason,[GM Screen Star Wars]中的遊戲管理員,[GM College]中的Gangadhar Meher,[nba gm]總經理,甚至[海軍通用]的槍手隊友。」
Google處理同義詞的準確性如何?貝克說:「每50個使用同義詞可以顯著改善搜索結果的查詢中,[Google]只有一個真正糟糕的同義詞。」
同時,偶然發現不良同義詞的用戶應該了解幾件事。一是同義詞背後的AI並不完美,二是Google不會手動修復錯誤的同義詞,因為它傾向於對其搜索算法進行迭代改進。
Baker邀請了用戶在網絡搜索幫助中心論壇上發布問題,或者通過Twitter將其發送給井號#googlesyns。用戶還可以通過在特定術語之前添加「 +」或將這些單詞放在引號中來關閉特定術語的同義詞。
谷歌的搜索質量工程師之一馬特·卡茨(Matt Cutts)歡呼貝克的帖子,並呼籲谷歌為其搜索質量工作提供更多的透明度。他還放棄了挑戰挑戰兵的競爭者,例如必應,並指出:
「事實是,谷歌比大多數人意識到的要複雜得多。我想說的是,谷歌在「語義學」上做得更多,對文檔和查詢的理解比幾乎任何其他搜尋引擎都要多。」