搜尋引擎決戰暗網 百度搜索開放平臺初露鋒芒

2020-12-21 TechWeb

幾乎任何有抱負的通用搜尋引擎都有一個共同的夢想:整合人類所有信息,並讓大家用最便捷的方式各取所需。

對此,百度說:「讓人們最便捷地獲取信息,找到所求」;谷歌說:「整合全球信息,使人人皆可訪問並從中受益」。

這兩者表達的實際上是同一個願景。

然而,這註定是一項不可能完成的任務。據科學家估測,人類信息大概只有0.2%實現了web化,並且這個比例很可能在持續降低。更甚的是,即便在已經web化的信息中,搜尋引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。

萬裡長徵的第一步即是對付「暗網」。所謂「暗網」,簡言之即為「搜尋引擎抓取不到的網頁數據」。點亮「暗網」早已納入各大搜尋引擎的日程之中,很明顯,這將是一場曠日持久的戰爭。

  「暗網」之謎

1994年,學者JillEllsworth 提出了一個名為「Invisible Web」(不可見網絡,即暗網)的新詞彙,並對其下了定義:這些網站可能已經被合理地設計出來了,但是它們卻沒有被任何搜尋引擎索引,以至於事實上沒有人能找到它們。

而從信息量來講,與現在能夠索引的數據相比,「暗網」更是要龐大得多。根據Bright Planet公司此前發布的一個名為《TheDeep WebSurfacing The Hidden Value》(深層次網絡,隱藏的價值)白皮書中提供的數據,「暗網」包含100億個不重複的表單,其包含的信息量是「非暗網」的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享信息,如此一來,「暗網」已經成為網際網路新信息增長的最大來源,也就是說,網際網路正在變得「越來越暗」。

當然,所謂「暗網」,並不是真正的「不可見」,對於知道如何訪問這些內容的人來說,它們無疑是可見的。

  迎戰「暗網」

對於龐大的「暗網」,目前搜索業界通行的策略主要有兩種:其一,構建更有針對性的「暗網」爬蟲,以便獲取後臺資料庫;其二,與「暗網」網站合作,實現信息的對接和上浮。

對於第一種策略,它始終貫穿搜尋引擎的發展過程。百度產品部相關人士對此表示,目前針對搜尋引擎的升級和更新中,大部分與「暗網」問題有關,只不過對普通用戶來講,他們很難察覺。

第二種策略似乎更成效。不管是國外的谷歌、雅虎,還是國內的百度,都有針對性的計劃,並且用戶已經體驗到了它們帶來的變化。

  巨頭的較勁

股民劉先生最近在百度搜索時無意中發現,當關鍵詞為股票代碼時,得到的結果第一項便是該股票的K線圖,還有當日的成交量等信息。而切換到谷歌,得到的結果如出一轍。他體驗到的這一技術,在百度被稱為「阿拉丁」,在谷歌則叫「onebox」。

除了股票,在百度搜索英文單詞、人民幣匯率、天氣預報、電視節目表等等,網民都會有意外收穫。這一點,網民的感觸要比在谷歌中深,一個典型的例子是,在百度和谷歌中分別輸入「天氣」,百度將直接根據用戶的IP判斷其所處位置,給出當地的天氣情況,而谷歌則在第一個結果中給出了一個搜索框,讓用戶進一步查詢。

顯然,在用戶體驗上,百度佔了上風。這得益於其上線不久的「搜索開放平臺」,這一平臺是「阿拉丁」計劃的一部分。其運作邏輯是:百度開放API接口,各大網站提交已經結構化的數據,設定好關鍵詞和展示方式、位置,獲得百度審核後,當網民檢索設定的關鍵詞,則自動觸發這一機制,展現最直接的信息。

對比百度搜索開放平臺和谷歌onebox,兩者的最大區別就是與網站的互動,前者更為充分。換句話說,onebox更多是谷歌自己在使勁,而搜索開放平臺則是百度與站長一起在努力。據百度阿拉丁項目負責人透露,平臺上線兩個月以來,站長提交的資源數量超過3000個。

  搜索的變革

在對付「暗網」的過程中,搜尋引擎正在完成它的蛻變,不論是後臺還是前臺,這才是這場戰役的真正意義。「搜尋引擎越來越聰明了,它能看穿我的心思。」90後網民小龔說。他是一個球迷,平時最喜歡看意甲,一天在百度搜索「意甲射手榜」,「居然結果中直接就是榜單,讓人意外。」

一位業內人士表示,搜尋引擎試圖讓人們以最小的成本獲得最直接的信息,「哪怕是少一次滑鼠點擊,也是巨大進步。」

有意思的是,隨著百度搜索開放平臺、谷歌onebox、雅虎Search Monkey等計劃的展開,搜索結果真正變得「亂糟糟」的——你總能看到網頁連結的結果中間夾雜著圖片、新聞、視頻,或者圖形、表格等信息,這種變革對網民的體驗大有裨益。

而評論人士則指出,這些計劃將搜尋引擎從「只讀時代」帶入了「可寫時代」。或許未來,對於每一個網站,每一個用戶,都有資格改變搜尋引擎。

相關焦點

  • 瞄準「暗網」信息 百度披露新搜索平臺
    ◆每經記者 莊春暉 發自上海  昨日,李彥宏在上海宣布百度成立上海研發中心,並向外界首次透露百度新的搜索平臺計劃,從華為跳槽百度就任首席技術官的IT奇人李一男低調亮相。李彥宏還透露,雖然目前金融危機造成各大企業都在壓縮投資,但百度的計劃不會改變,不久還將在東京成立研發中心。
  • 百度研發新搜尋引擎 抓取和檢索"暗網"信息
    百度研發新搜尋引擎 抓取和檢索"暗網"信息 2008年12月23日 11:19 來源:廣州日報 發表評論   日前,百度宣布在上海成立研發中心
  • 百度「阿拉丁」:「暗網」世界的探照燈(圖)
    "百度有2000名核心工程師,現在有超過1000名的技術力量投入了"阿拉丁平臺"的研發。"李一男表示,"上海研發中心成立後,還會有更多的工程師加入到這一搜索"暗網"的團隊中。"阿拉丁平臺是在百度宣布推出"有啊"、進軍C2C電子商務業務之後,又一次引發業內大震動的舉措。
  • 今日頭條將上線全網搜索,百度的危機來了?
    於是今日頭條開始在平臺內搜索上進行了技術上的突破,如今我們在今日頭條即將可以進行全網搜索,而這意味著今日頭條已經開始在全網搜索領域與百度開始了正面對抗,已經好多年沒有人敢去挑戰百度了,沒想到這第一個卻是今日頭條?如果你打開今日頭條進行搜索的時候就會發現,一些關鍵詞的搜索結果已經可以連結到站外,平臺對這些信息進行了特別的站外標註。
  • 百度、360、搜狗、神馬搜索份額多少?2018中國搜尋引擎排行榜
    百度、360、搜狗、神馬搜索份額多少?2018中國搜尋引擎排行榜時間:2018-05-07 09:53   來源:電腦百事網   責任編輯:沫朵 川北在線核心提示:原標題:百度、360、搜狗、神馬搜索份額多少?
  • 搜尋引擎的大數據時代
    具體分析如下:一、比暗網更暗的大數據網聚合所有網絡上的信息,一直是有抱負的搜尋引擎的夢想,但這是不可能完成的任務。94年Dr.Jill Ellsworth便提出」暗網「的概念。指存儲在網絡資料庫裡、不能通過超連結訪問,不屬於那些可以被標準搜尋引擎索引的表面網絡。
  • 第三代搜索力推開放平臺
    【天極網IT新聞頻道】「網際網路的趨勢是開放的,搜尋引擎也將是開放的,這是網際網路技術的必然趨勢。如果將來人們還用現在的搜尋引擎,那說明搜索技術沒有進步,這是網際網路行業的悲哀。」中搜總裁陳沛對記者說。  2012年搜尋引擎行業波瀾不斷,遠比兩年前谷歌退出中國市場更加猛烈,並且這個搜索市場正朝多元化、開放化和移動化發展,競爭也更加白熱化。  而在2011年,中搜即推出了第三代搜索,但是從用戶角度來講,究竟什麼是第三代搜索?「早在2003年的時候,我就提出了第三代搜尋引擎的概念,到去年我們推出,中間經歷了9年的磨鍊。
  • 百度搜索都是廣告!不如試試這幾個搜尋引擎
    閒話少敘,今天爆哥給大家聊聊搜尋引擎那些事兒眾所周知,百度是國內搜尋引擎中的老大,但由於長期位於霸主之位,居安而不思危,終於日日頹廢而漸漸式微,大家也送給它一個「名副其實」的稱號——「百毒」大家在用百度搜索時,常常搜索一些關鍵詞後出現的詞目,前幾條都是廣告這些廣告,都是後面的商家競價排名在百度買的,也就是說,只要有錢就行,管他什麼質量好與壞!
  • 搜尋引擎的大數據時代-虎嗅網
    如何應對這些爆炸的數據,既是搜尋引擎面臨的挑戰,也是搜尋引擎們的機遇。具體分析如下:一、比暗網更暗的大數據網聚合所有網絡上的信息,一直是有抱負的搜尋引擎的夢想,但這是不可能完成的任務。1994年Dr.Jill Ellsworth便提出」暗網「的概念。指存儲在網絡資料庫裡、不能通過超連結訪問,不屬於那些可以被標準搜尋引擎索引的表面網絡。暗網的規模也遠超我們的想像,據科學家研究,人類信息只有不到1%的實現了WEB化,而WEB化的網頁中,搜尋引擎能抓取的大概為1%500。
  • 百度搜尋引擎工作原理
    關於百度以及其它搜尋引擎的工作原理,其實大家已經討論過很多,但隨著科技的進步、網際網路業的發展,各家搜尋引擎都發生著巨大的變化,並且這些變化都是飛快的。我們設計這個章節的目的,除了從官方的角度發出一些聲音、糾正一些之前的誤讀外,還希望通過不斷更新內容,與百度搜尋引擎發展保持同步,給各位站長帶來最新的、與百度高相關的信息。
  • 南京百度|百度推廣-百度雲搜索推廣解決方案SEM Solution
    簡單來說,搜尋引擎營銷就是基於搜尋引擎平臺的網絡營銷,利用人們對搜尋引擎的依賴和使用習慣,在人們檢索信息的時候將信息傳遞給目標用戶。搜尋引擎營銷的基本思想是讓用戶發現信息,並通過點擊進入網頁,進一步了解所需要的信息。企業通過搜尋引擎付費推廣,讓用戶可以直接與公司客服進行交流、了解,實現交易。
  • 深網的底層:神秘暗網的所在
    深網全球資訊網自1991年8月在網際網路上向公眾開放,到2001年為止,短短十年,全球資訊網上就有超過5500億份文檔,大多數文件都在不可見的「深網」。什麼是深網?絕大部分這些隱藏的信息是須通過動態請求產生的網頁信息,而標準的搜尋引擎卻無法對其進行查找。傳統的搜尋引擎「看」不到,也獲取不了這些存在於深網的內容,除非通過特定的搜查這些頁面才會動態產生。於是相對的,深網就隱藏了起來。
  • 今日頭條新一代搜尋引擎誕生 頭條通用搜尋引擎7大類搜索
    今日頭條新一代搜尋引擎誕生 頭條通用搜尋引擎7大類搜索 2019年11月29日 HuangJiang來源:網際網路
  • 百度沈皓瑜:搜尋引擎洞悉2011網遊三大趨勢
    對於搜索與網遊行業的關係和發展成為行業代表們討論的焦點。百度高級副總裁沈皓瑜在會上表示,搜尋引擎其實已經成為各大遊戲運營商日常調整運營、營銷策略的『隱形舵手』,並指出還可以通過搜索洞察2011年網遊行業發展趨勢,而且對於營銷推廣創新實踐也有著諸多啟示。
  • 搜尋引擎技術論壇實錄(全文)
    今天上午大家已經知道了百度的阿拉丁開放平臺,這樣一個開放平臺也是我們和廣大網民企業以及各種共同努力,一起發掘「暗網」,提供更多的更高質量的信息的重要來源之一,預祝今天下午能夠取得圓滿的會議,謝謝。主持人:感謝一男的精彩支持,今天上午第一場的演講題目是:搜尋引擎的現實問題和發展新視點。為我們演講的是百度首席產品設計師孫雲豐。
  • 查資料必備,同時在多個搜尋引擎搜索,搜索結果乾淨,多屏顯示!
    我們幾乎每天都在使用搜尋引擎,不管是用百度搜索想要的答案,還是用搜狗等搜索資料。但,每次搜索出來的都會有很多廣告,基本排在第一個前三個的都是廣告。不能第一時間找到想要的內容,很是讓人煩躁。今天我就分享一個同樣是使用這些搜尋引擎,但是搜索出來的結果很乾淨,沒有任何廣告。gobaidugleWebgobaidugle 是一個非常強大的聯合搜尋引擎 。
  • 世界十大搜尋引擎一覽,百度的排名怎麼樣?
    我們大家一般知道的搜尋引擎應該是,百度,谷歌,bing,360,搜狗,可能對於其他的搜尋引擎了解的不多,其實百度在國內是霸主地位,但是它在世界搜尋引擎佔據的份額怎麼樣呢?這篇文章我們一起來了解下世界上其他的搜尋引擎。
  • 2019年搜尋引擎市場份額百度全平臺、PC和移動均第一
    這兩天新聞報導及博客文章到處都在刷屏 2019 年搜尋引擎市場份額市場佔有率的事兒,但是一會有人說百度第一、神馬第二,一會又有人說百度第一、搜狗第二,但是用來用去的圖片都是同一張,最關鍵是文字說是神馬第二,配圖確實搜狗第二,而且大多數都是據說、根據最近消息了解等。
  • 什麼是暗網?關於暗網的真實事件
    網絡世界本就紛繁複雜,暗網又以其「暗」的屬性,發展成了猖獗犯罪的庇護所——兒童色情、黑市武器交易、人口販賣和毒品等在暗網大行其道,犯罪組織認為他們通過暗網實施犯罪可以逃脫法律的懲罰。暗網到底是什麼,暗網與深網是怎樣的關係?下面咱們來聊一點暗網的真事兒。什麼是暗網?
  • 「百度知道」開放平臺正式發布
    6月24日上午消息,百度知道開放平臺今日正式推出。這一開放平臺提供頻道合作和數據合作兩種模式,頻道帶寬和伺服器空間均由百度免費提供。目前,新東方、遊久網、電玩巴士等網站已加入這一開放平臺之中。五周年的百度知道,正在嘗試推動產業布局調整,並加快產業鏈的延伸拓展。開放平臺正是這一戰略的起點。