語義搜尋引擎到底是什麼?為什麼業界都對它大肆的吹捧,認為專業搜索的技術會在這個層面大放光彩?這篇文章帶給你5大語義搜尋引擎的介紹和藏在它背後的東西。
在搜尋引擎的圈圈裡,」語義「是一個帶有魔幻光環的字眼。對它的大肆渲染會讓你猜想說這可能是第二次搜索的高潮。這些宣傳讓我覺得有些許懷疑,我也一直在等待著這個技術變得成熟。這個時刻到了,我現在很高興給大家介紹一下5個頂級的語義搜尋引擎。
什麼是語義搜索呢?
一個語義搜尋引擎試圖通過上下文來解讀搜索結果的。它可以自動識別文本的概念結構。例如,如果你搜索「選舉」,語義搜尋引擎可能會獲取包含「投票」,「競選」和「選票」的文本信息,但是「選舉」這個詞可能根本沒有出現在這些信息來源中。(編者註: 也就是說語義搜索可以對關鍵詞的相關詞和類似詞進行解讀,從而擴大搜索信息的準確性和相關性。)
在語義搜索的過程中,有一個重要組成部分,那就是針對查詢的信息和網絡上的內容,進行 消歧(消除模稜兩可的情況)。這意味著,搜尋引擎通過自然語言處理 - - 當你搜索「美洲虎「 (捷豹轎車), 尋找會知道你要找一輛車還是一個大型貓科動物 。(編者註:目前普遍的搜尋引擎所做到的基本上是對於關鍵詞的關注度,哪個關鍵詞搜索的人多,基本上哪種結果會出現在前列。)
下面要給你介紹的這些搜尋引擎都多少採用了語義分析來篩選和詮釋數據。但是,你也將會看到,這幾個搜尋引擎採用了不同的方式並且展示了五種不同的產品。
什麼時候使用語義搜尋引擎呢?
語義搜索擁有一種能夠提高傳統網頁搜索體驗的能力,但是它卻起不到替代性的作用。網絡上大部分的搜索問題都是很隨性的瀏覽,對結果的要求也不精益求精,所以語義搜索的用處不大,倒是有針對性的研究搜索,會得益於語義搜索的結果。
現在來看看我們這個5個最牛的語義搜索的名單,來看看他們將如果提高你的搜索體驗。
HaKia
Hakia是一個通用語義搜尋引擎,和下面要介紹的Powerset,Cognition不同,其搜索結果是像維基百科一樣的語料庫。
Hakia的搜索結果是通過Tabs(標籤)來組織的:網頁結果,可靠站點,圖像和新聞,可靠站點涉及的結果是那些經過Hakia邀請的圖書館員和其他信息專家認證的。(編者註:美國的圖書館員都是非常有學問和學歷的信息專家,每個學科分支都有專門的圖書館員,他們擅長信息分類檢索,每年在華盛頓都有圖書館協會的會議,全國各地的圖書員會聚集在一起探討新的信息分類,科技檢索。很多現今的技術和搜索模式都是他們最先開始倡導和開發的。)
相對於一些簡單的搜索問題(比較典型的是那些流行的問題和缺少歧義的搜索問題),HaKia會給出一個類似於簡歷一樣的東西。這是一個各種基於主題的相關信息匯總。每個「簡歷」都由一些信息的連結匯成索引,並且給出了快速引用,在頁面上即時呈現。
這些「簡歷」的內容會根據搜索問題的特性變化(例如:個人檔案,文獻目錄,大事件,可以是關於個人的,政府,經濟,文化,也可以是關於國家的信息。) 這個「簡歷」對於我來說是我最喜歡Hakia的特色,特別是我搜索一些話題的時候。
Hakia通常會給你推薦一些相關的搜索,這對研究來說都是挺棒的支持。
舉個例子,如果我搜索歐巴馬,HaKia 會推薦我是否對他老婆,希拉蕊,民主黨,共和黨薩拉培林,約翰麥卡恩等等人也感興趣。
但是有一些問題HaKia也會給出質量比較差的結果,不過HaKia還是在測試階段,相信會有快速提高的。
SenseBot
SenseBot是一款將搜索結果提煉總結為一個精煉的文摘形式的搜尋引擎。它試圖去理解這些搜索結果的界面的意義。從這個出發點來看,它使用的是文本挖掘,試圖分析網頁並鑑定他們關鍵的語義概念。
Sensebot從這個方式幫助你迅速的掌握哪些相關的信息到底是什麼。從這個角度來看你不需要自己去尋找大量的網頁,甚至梳理出現的結果中不完整的專家的定義(甚至不需要理會任何定義。)
這個精煉的總結的作用是幫助消化你搜索的主題,將各種搜索結果的相關、重要內容匯聚在一起。它還提供給你由各種相關概念以及一個被認為是定義總結了你的搜索問題的語句的表單匯聚成的標籤雲。每個語句後面還包括了它們的出處的連結。
也不是所有的總結都是信息廣泛或者容易理解的,但卻是極有可能被改進的。Hakia,SenseBot都還在測試階段。這些振奮人心的先進科技每天都在與時俱進。
Powerset
Powerset現在不是一個正規的網頁網際網路搜尋引擎。它相對小型,語料庫相對有限。
該技術提供了相對全面的信息資料。您可以在維基百科上進行測試,但是你會發現Powerset更擅長這方面的搜索,它對用於研究目的搜索而構建信息和表述的方式,是基於維基百科的巨大改善。
你可以在搜索欄輸入關鍵詞,短語,或者一個簡單的問題。Powerset通常會直接在搜索結果的界面上直接回答問題。我最喜歡的一個特色就是Powerset把多個文章中的信息綜合在一起。
」Factz「是往往會出現在搜索結果中一個盒子,它是一個囊括基於可用信息建議出來的參考資料。例如,當我搜索歐巴馬,Powerset提供了一些歐巴馬對羅伯特蓋茨,中東,巴基斯坦,貿易的看法的信息的連結。點擊搜索結果中一個連結,將顯示出一個小的對話框,裡面會有歐巴馬的在提到文章中發言的引用,還有被引用話語的原文連結。
DeepDyve
DeepDyve (編者註: Deepdyve是目前比較有發展前途的一個語義搜索,編者在去年就注意到這家公司,還聯繫上了這家公司的幾個程式設計師,發現有很多中國人在這裡工作。)
DeepDyve是一個非常強大,專業的研究工具,提供給大眾免費的服務。(編者註:Deepdyve的搜索服務是免費的,但是如果你要閱讀搜索出來的學術期刊,還是要付費的。)
這是一個研究引擎幫助你進入專業內容的「深層網絡」:那是網際網路中沒有被傳統的搜尋引擎索引或收錄的信息(比如一些專業資料庫,期刊等)。
學者,研究員,學生,技術專家,商業等Deepdyve的用戶和其他信息消費者可以在以下分類中搜索維基百科和「深層網絡「的信息: 生命科學,醫學,物理科學,人文和社會科學,商業和金融,專利,法律,清潔能源科技,電子工程。
研究網站的搜尋引擎往往依賴於布爾語言或硬編碼的分類(編者註:邏輯運算計算機語言),這些語言是有門檻和一定的學習曲線,一般人從業者是很難使用它們的。 Deepdyve是目前擁有呈現這些有價值的信息來源的較簡易界面的服務搜尋引擎。
你的搜索問題可以是任何獨立單詞甚至25000的字的問題構成的。這個搜索的結果會以一種複雜的方式呈現,包括了許多高級的選項:提煉,分離,存儲你的搜索。即使有複雜型的存在,這個搜索結果還是相對來說很容易瀏覽的。
Cognition
Cognition 的搜索業務是基於語義地圖,在它成立的24年後,Cognition得以自稱是如今可用的最全最精的英語搜索地圖
你可以使用Cognition的技術來搜索下面四個載體內的信息。
1、Public.Resource.org(目前一共有675,704個聯邦案例法文件,1,858卷,全部都是XHTML格式的文件。) 這次發布的信息由自1950年開始高等法院和上訴法院的決定組成。
2、MEDLINE(醫療文獻分析及在線檢索系統)摘要庫:此資料庫內的摘要來自於世界文獻資料庫內的生命科學和生物醫藥科學信息。它囊括了醫藥,護理,醫藥學,牙醫學,獸醫學,和健康關懷的信息,還有一些和醫學沒有直接聯繫的領域的信息,例如分子進化論。(目前有18,005,903個文件)。
3、 全部英文版本的維基百科內容
4、最全面的新英語翻譯內容,包涵文本和諸如福音書theGospels of Matthew, Luke, John and Mark的譯者筆記。
我們在維基百科內測試了Cognition.在這個擁有大量文本的資料庫中,Cognition在對複雜問題的意思分類上表現的尤為出色。
1、詞彙:比如區別「古老的禮拜堂 和古老的廟宇」
2、意思區分:「罷工的工人」 對比「加州的石油黃金」
3、分類 :例如「拉丁美洲的印第安部落」 或是「 北美洲樹木疾病」
這些Cognition使用的去解決搜索問題的技術是給人以深刻的印象,Cognition給使用者提供了一種友好的方式去更有價值地的控制意義和分類。
我認為我對Cognition搜索結果的表述還不是很完善,但是我殷切地希望Conition團隊也可以借鑑一下Hakia或者Powerset的經驗。
來源:譯言網 原文地址:https://article.yeeyan.org/view/119269/119625?all=1