學習搜尋引擎的優化:五個頂級語義搜尋引擎

2020-11-30 站長之家

語義搜尋引擎到底是什麼?為什麼業界都對它大肆的吹捧,認為專業搜索的技術會在這個層面大放光彩?這篇文章帶給你5大語義搜尋引擎的介紹和藏在它背後的東西。

在搜尋引擎的圈圈裡,」語義「是一個帶有魔幻光環的字眼。對它的大肆渲染會讓你猜想說這可能是第二次搜索的高潮。這些宣傳讓我覺得有些許懷疑,我也一直在等待著這個技術變得成熟。這個時刻到了,我現在很高興給大家介紹一下5個頂級的語義搜尋引擎。

什麼是語義搜索呢?

一個語義搜尋引擎試圖通過上下文來解讀搜索結果的。它可以自動識別文本的概念結構。例如,如果你搜索「選舉」,語義搜尋引擎可能會獲取包含「投票」,「競選」和「選票」的文本信息,但是「選舉」這個詞可能根本沒有出現在這些信息來源中。(編者註: 也就是說語義搜索可以對關鍵詞的相關詞和類似詞進行解讀,從而擴大搜索信息的準確性和相關性。)

在語義搜索的過程中,有一個重要組成部分,那就是針對查詢的信息和網絡上的內容,進行 消歧(消除模稜兩可的情況)。這意味著,搜尋引擎通過自然語言處理 - - 當你搜索「美洲虎「 (捷豹轎車), 尋找會知道你要找一輛車還是一個大型貓科動物 。(編者註:目前普遍的搜尋引擎所做到的基本上是對於關鍵詞的關注度,哪個關鍵詞搜索的人多,基本上哪種結果會出現在前列。)

下面要給你介紹的這些搜尋引擎都多少採用了語義分析來篩選和詮釋數據。但是,你也將會看到,這幾個搜尋引擎採用了不同的方式並且展示了五種不同的產品。

什麼時候使用語義搜尋引擎呢?

語義搜索擁有一種能夠提高傳統網頁搜索體驗的能力,但是它卻起不到替代性的作用。網絡上大部分的搜索問題都是很隨性的瀏覽,對結果的要求也不精益求精,所以語義搜索的用處不大,倒是有針對性的研究搜索,會得益於語義搜索的結果。

現在來看看我們這個5個最牛的語義搜索的名單,來看看他們將如果提高你的搜索體驗。

HaKia

Hakia是一個通用語義搜尋引擎,和下面要介紹的Powerset,Cognition不同,其搜索結果是像維基百科一樣的語料庫。

Hakia的搜索結果是通過Tabs(標籤)來組織的:網頁結果,可靠站點,圖像和新聞,可靠站點涉及的結果是那些經過Hakia邀請的圖書館員和其他信息專家認證的。(編者註:美國的圖書館員都是非常有學問和學歷的信息專家,每個學科分支都有專門的圖書館員,他們擅長信息分類檢索,每年在華盛頓都有圖書館協會的會議,全國各地的圖書員會聚集在一起探討新的信息分類,科技檢索。很多現今的技術和搜索模式都是他們最先開始倡導和開發的。)

相對於一些簡單的搜索問題(比較典型的是那些流行的問題和缺少歧義的搜索問題),HaKia會給出一個類似於簡歷一樣的東西。這是一個各種基於主題的相關信息匯總。每個「簡歷」都由一些信息的連結匯成索引,並且給出了快速引用,在頁面上即時呈現。

這些「簡歷」的內容會根據搜索問題的特性變化(例如:個人檔案,文獻目錄,大事件,可以是關於個人的,政府,經濟,文化,也可以是關於國家的信息。) 這個「簡歷」對於我來說是我最喜歡Hakia的特色,特別是我搜索一些話題的時候。

Hakia通常會給你推薦一些相關的搜索,這對研究來說都是挺棒的支持。

舉個例子,如果我搜索歐巴馬,HaKia 會推薦我是否對他老婆,希拉蕊,民主黨,共和黨薩拉培林,約翰麥卡恩等等人也感興趣。

但是有一些問題HaKia也會給出質量比較差的結果,不過HaKia還是在測試階段,相信會有快速提高的。

SenseBot

SenseBot是一款將搜索結果提煉總結為一個精煉的文摘形式的搜尋引擎。它試圖去理解這些搜索結果的界面的意義。從這個出發點來看,它使用的是文本挖掘,試圖分析網頁並鑑定他們關鍵的語義概念。

Sensebot從這個方式幫助你迅速的掌握哪些相關的信息到底是什麼。從這個角度來看你不需要自己去尋找大量的網頁,甚至梳理出現的結果中不完整的專家的定義(甚至不需要理會任何定義。)

這個精煉的總結的作用是幫助消化你搜索的主題,將各種搜索結果的相關、重要內容匯聚在一起。它還提供給你由各種相關概念以及一個被認為是定義總結了你的搜索問題的語句的表單匯聚成的標籤雲。每個語句後面還包括了它們的出處的連結。

也不是所有的總結都是信息廣泛或者容易理解的,但卻是極有可能被改進的。Hakia,SenseBot都還在測試階段。這些振奮人心的先進科技每天都在與時俱進。

Powerset

Powerset現在不是一個正規的網頁網際網路搜尋引擎。它相對小型,語料庫相對有限。

該技術提供了相對全面的信息資料。您可以在維基百科上進行測試,但是你會發現Powerset更擅長這方面的搜索,它對用於研究目的搜索而構建信息和表述的方式,是基於維基百科的巨大改善。

你可以在搜索欄輸入關鍵詞,短語,或者一個簡單的問題。Powerset通常會直接在搜索結果的界面上直接回答問題。我最喜歡的一個特色就是Powerset把多個文章中的信息綜合在一起。

」Factz「是往往會出現在搜索結果中一個盒子,它是一個囊括基於可用信息建議出來的參考資料。例如,當我搜索歐巴馬,Powerset提供了一些歐巴馬對羅伯特蓋茨,中東,巴基斯坦,貿易的看法的信息的連結。點擊搜索結果中一個連結,將顯示出一個小的對話框,裡面會有歐巴馬的在提到文章中發言的引用,還有被引用話語的原文連結。

DeepDyve

DeepDyve (編者註: Deepdyve是目前比較有發展前途的一個語義搜索,編者在去年就注意到這家公司,還聯繫上了這家公司的幾個程式設計師,發現有很多中國人在這裡工作。)

DeepDyve是一個非常強大,專業的研究工具,提供給大眾免費的服務。(編者註:Deepdyve的搜索服務是免費的,但是如果你要閱讀搜索出來的學術期刊,還是要付費的。)

這是一個研究引擎幫助你進入專業內容的「深層網絡」:那是網際網路中沒有被傳統的搜尋引擎索引或收錄的信息(比如一些專業資料庫,期刊等)。

學者,研究員,學生,技術專家,商業等Deepdyve的用戶和其他信息消費者可以在以下分類中搜索維基百科和「深層網絡「的信息: 生命科學,醫學,物理科學,人文和社會科學,商業和金融,專利,法律,清潔能源科技,電子工程。

研究網站的搜尋引擎往往依賴於布爾語言或硬編碼的分類(編者註:邏輯運算計算機語言),這些語言是有門檻和一定的學習曲線,一般人從業者是很難使用它們的。 Deepdyve是目前擁有呈現這些有價值的信息來源的較簡易界面的服務搜尋引擎。

你的搜索問題可以是任何獨立單詞甚至25000的字的問題構成的。這個搜索的結果會以一種複雜的方式呈現,包括了許多高級的選項:提煉,分離,存儲你的搜索。即使有複雜型的存在,這個搜索結果還是相對來說很容易瀏覽的。

Cognition

Cognition 的搜索業務是基於語義地圖,在它成立的24年後,Cognition得以自稱是如今可用的最全最精的英語搜索地圖

你可以使用Cognition的技術來搜索下面四個載體內的信息。

1、Public.Resource.org(目前一共有675,704個聯邦案例法文件,1,858卷,全部都是XHTML格式的文件。) 這次發布的信息由自1950年開始高等法院和上訴法院的決定組成。

2、MEDLINE(醫療文獻分析及在線檢索系統)摘要庫:此資料庫內的摘要來自於世界文獻資料庫內的生命科學和生物醫藥科學信息。它囊括了醫藥,護理,醫藥學,牙醫學,獸醫學,和健康關懷的信息,還有一些和醫學沒有直接聯繫的領域的信息,例如分子進化論。(目前有18,005,903個文件)。

3、 全部英文版本的維基百科內容

4、最全面的新英語翻譯內容,包涵文本和諸如福音書theGospels of Matthew, Luke, John and Mark的譯者筆記。

我們在維基百科內測試了Cognition.在這個擁有大量文本的資料庫中,Cognition在對複雜問題的意思分類上表現的尤為出色。

1、詞彙:比如區別「古老的禮拜堂 和古老的廟宇」

2、意思區分:「罷工的工人」 對比「加州的石油黃金」

3、分類 :例如「拉丁美洲的印第安部落」 或是「 北美洲樹木疾病」

這些Cognition使用的去解決搜索問題的技術是給人以深刻的印象,Cognition給使用者提供了一種友好的方式去更有價值地的控制意義和分類。

我認為我對Cognition搜索結果的表述還不是很完善,但是我殷切地希望Conition團隊也可以借鑑一下Hakia或者Powerset的經驗。

來源:譯言網        原文地址:https://article.yeeyan.org/view/119269/119625?all=1

相關焦點

  • SEM(搜尋引擎營銷)與SEO(搜尋引擎優化)的區別
    今天講講SEM(搜尋引擎營銷)與SEO(搜尋引擎優化)這兩個網際網路術語的區別 SEO看看百度每次發布的算法升級公告和百度搜索優化公告即可,這一切都是免費的。 2、時間成本 SEM本質上是你交錢給百度,百度通過自家技術給你網站特權,扶持上排名(一般都是首頁第一名),所以這是一手交錢一手交貨的買賣,你交完錢了,服務很快生效。
  • 新手對搜尋引擎優化seo誤區解讀
    優化工作不是一個一成不變的工作,他需要優化人員時時刻刻去尋找和優化用戶體驗的過程,而不是時時刻刻去研究百度,不要天天抱著大姨媽理論,百度不是每個月都大姨媽,那些所謂的姨媽理論已經不適合現在的優化方式了,在大數據已經普及的現在,搜尋引擎的算法更新是時時刻刻的,而唯一不變的是用戶體驗的提升,所以我們無論是在做白帽優化
  • 搜尋引擎機制原理及規則分解
    劉少慶SEO培訓發現很多朋友都在討論,如今網站搜尋引擎優化越來越難做,無論是網站的頁面收錄還是關鍵詞排名,雖然做了大量的優化工作,但結果卻極不理想。個人認為,之所以網站SEO優化沒有獲得理想的效果,其根本原因在於沒有把握搜尋引擎的核心。
  • 搜尋引擎營銷SEM是什麼意思?
    搜尋引擎營銷(SEM)是一種利用多種方法來提高品牌,產品或服務的市場知名度和曝光度的過程。SEM 機制包括搜尋引擎優化(SEO),社交網絡,出價,每次點擊付費(PPC),內容相關廣告,付費收錄,地理位置,AdSense 和 AdWords,以及多種媒體格式。
  • 提高文章搜尋引擎優化質量的十八個小技巧
    英文單詞和中文之間用空格隔開雖然現在的搜尋引擎基本解決了中英文分詞問題,但是空格仍然能夠在一定程度上突出文中英文關鍵詞的地位。2. 標題言簡意賅長標題容易分散關鍵詞的權重,標題應該儘量簡潔,並且包含重點關鍵詞。3.你應當使用 『alt』 標籤來放置關鍵詞現在的人不再信任 『alt』 標籤了。
  • AI算法入駐Google搜尋引擎,詞條再冷也可手到擒來!
    日前,搜尋引擎巨頭Google在自家搜尋引擎中引入一種名為RankBrain的基於人工智慧技術開發的算法,以優化搜尋引擎的網頁排名。具體是怎麼操作的呢?排序:在上述三個步驟完成後,根據搜索詞,搜尋引擎將會從索引資料庫中找出所有包含搜索詞的網頁,然後根據排名算法計算出哪些網頁應該排在前面,最後按照一定格式返回到"搜索"頁面。
  • 2020 國外搜尋引擎匯總
    InfoSpace – InfoSpace結合搜尋引擎讓你找到網頁,圖像和視頻和新聞。 Giga Blast -Giga Blast可以檢索數十億個網頁,提供了快速,最新信息。 Naver – Naver是韓國第一門戶網站,允許搜索網頁,定義,圖片,新聞,文章,視頻和更多。
  • 常見客戶SEO問題解答:搜尋引擎的優化規則是什麼
    1、搜尋引擎的具體優化規則是什麼? 搜尋引擎的優化規則是什麼 此類問題實際上很寬泛,相當於問「SEO怎麼做?」
  • 搜尋引擎蜘蛛(爬蟲)工作過程及原理
    什麼是搜尋引擎爬蟲,搜尋引擎爬蟲是如何工作的。搜尋引擎爬蟲也叫做搜尋引擎蜘蛛,是用來抓取網頁信息的,搜尋引擎抓取過程分為大致五個步驟。#Python爬蟲#分別是:抓取 → 存放 → 甄別 → 收錄 → 權重衡量分配排名搜尋引擎蜘蛛首先會抓取網頁信息
  • 小聲嗶嗶幾個好玩的搜尋引擎
    百度作為全球最大的中文搜尋引擎,有著超過千億的中文網頁資料庫。也可以算是我們接觸網際網路的第一個窗口。同時,隨著數字經濟的發展,各種類型的搜尋引擎也層出不窮。也向我們展示了不一樣的使用方向。所以哦,這是一篇滿滿的幹活哦下面阿貓給你們看看還有什麼好玩的搜尋引擎。
  • 搜尋引擎的工作原理分哪幾步?弄清原理更好優化
    很多seo工作人員都不清楚搜尋引擎的工作原理,其實搞懂原理更好優化,那麼今天小編就來講講搜尋引擎工作過程的三個階段:1,爬行和抓取搜尋引擎對網站進行爬取,收集網站的頁面數據,存入自己的資料庫;接下來就詳細講解搜尋引擎工作時可能涉及到的幾個概念:1,跟蹤連結:蜘蛛從任何一個頁面出發,順著連結可以爬行到網上的所有頁面2,地址庫:為了避免重複爬行和抓取網址,搜尋引擎的地址庫會記錄以及被發現、但還沒有抓取的頁面,以及已經被抓取的頁面。
  • 【好口碑】保定sem競價服務搜尋引擎關鍵詞優化公司
    天津華陽在線專注於SEO關鍵詞排名優化,品牌網站建設,營銷型網站建設,App、小程序開發,搜尋引擎seo優化,競價託管sem,品牌口碑建設與代運營等服務。企業通過引進前BAT產品經理不斷豐富產品線優化技術實力,力爭為企業提供更優,更全,更精的網絡營銷服務。
  • ​Google SEO搜尋引擎優化入門指南,用小細節建成的高樓大廈...
    最簡單的解釋可以這麼說: 1)用過一系列的優化方法,讓搜尋引擎「看懂」你網站的內容 2)搜尋引擎看懂後,會根據算法決定是否把你的網站排在自然搜索結果頁面的最上方 3)網站的排名越靠前就能夠獲得越多的自然流量 看了上邊的步驟解釋,你大概也明白SEO是怎麼一回事了!
  • 中國首個醫學術語搜尋引擎成功落地 連接臨床表型、疾病、基因三類...
    迄今為止,HPO已被國際20餘家頂級科研機構廣泛應用於人類遺傳學的臨床診斷,人類表型異常與細胞和生物化學網絡之間關係的生物信息學研究,人類和模型生物體表型之間的映射,以及為臨床資料庫提供標準化的詞彙表。HPO項目鼓勵醫學和遺傳學界投入對「本體」本身和臨床注釋的開發和研究。
  • seo搜尋引擎工作原理簡介是怎麼樣的
    東莞seo搜尋引擎工作原理簡介搜尋引擎工作過程非常複雜,那麼搜尋引擎是怎樣實現網頁排名的。搜尋引擎過程大致分成三個階段。1、爬行和抓取:搜尋引擎蜘蛛通過跟蹤連結發現和訪問網頁,讀取頁面HTML代碼,存入資料庫。
  • 百度搜尋引擎蜘蛛喜歡什麼樣的網站結構?
    目前人們經常用的搜尋引擎是谷歌和百度,在國內佔據絕對優勢的當之無愧的是百度,而且各位站長做搜尋引擎優化的時候也主要是針對百度進行優化,希望能在百度獲得好的排名、更多優質低價的流量,這個前提就是網站得有好的結構,百度蜘蛛才能順利
  • 關於SEO搜尋引擎蜘蛛的幾個知識點
    關於SEO搜尋引擎蜘蛛的幾個知識點一、搜尋引擎地址庫為了避免重複爬行和抓取網址,搜尋引擎會建立一個地址庫,記錄已經被發現、但是還沒有抓取的頁面,以及已經被抓取的頁面。大部分主流搜尋引擎都提供一個表格,讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜尋引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤連結而得到的。可以說提交頁面作用微乎其微,搜尋引擎更喜歡自己沿著連結發現新頁面。
  • 【英文SEO】搜尋引擎工作原理
    >第一:什麼是搜尋引擎?搜尋引擎是一個龐大複雜的電腦程式,它通過網際網路搜集信息並且加以一定組織和處理提供用戶查詢服務(如百度,谷歌,好搜,搜狗等)包括阿里巴巴集團下的電子商務平臺,ebay,亞馬遜都可以說是搜尋引擎,只不過對於整個網際網路來說它們是站內的,它們都是在為用戶提供有價值信息。
  • Google 發布了新的書籍搜尋引擎,就像是在跟書聊天
    Google 近日發布了一個語義體驗網站(Semantic Experiences),裡面有一個全新的書籍搜尋引擎和兩個基於機器學習的單詞遊戲。 新書籍搜尋引擎名為 Talk to Books。據 Google,這個書籍搜尋引擎中的技術已經被用來改進 Gmail 的智能回復,他們還在探索可以適用該技術的其他應用,但並未說會在什麼時候正式上線取代現有的圖書搜索功能。題圖:chuttersnap on Unsplash
  • 什麼是搜尋引擎蜘蛛?工作原理是什麼?
    通過昨天的分享,我們知道了如何發布文章更容易被搜尋引擎收錄,我們同時提到了「蜘蛛」這個程序,今天帶大家認識一下搜尋引擎蜘蛛。1、搜尋引擎蜘蛛介紹網絡爬蟲,是一種負責收集網絡信息的程序,每個搜尋引擎都配有蜘蛛程序。