幾乎任何有抱負的通用搜尋引擎都有一個共同的夢想:整合人類所有信息,並讓大家用最便捷的方式各取所需。
對此,百度說:「讓人們最便捷地獲取信息,找到所求」;谷歌說:「整合全球信息,使人人皆可訪問並從中受益」。
這兩者表達的實際上是同一個願景。
然而,這註定是一項不可能完成的任務。據科學家估測,人類信息大概只有0.2%實現了web化,並且這個比例很可能在持續降低。更甚的是,即便在已經web化的信息中,搜尋引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。
萬裡長徵的第一步即是對付「暗網」。所謂「暗網」,簡言之即為「搜尋引擎抓取不到的網頁數據」。點亮「暗網」早已納入各大搜尋引擎的日程之中,很明顯,這將是一場曠日持久的戰爭。
「暗網」之謎
1994年,學者JillEllsworth 提出了一個名為「Invisible Web」(不可見網絡,即暗網)的新詞彙,並對其下了定義:這些網站可能已經被合理地設計出來了,但是它們卻沒有被任何搜尋引擎索引,以至於事實上沒有人能找到它們。
而從信息量來講,與現在能夠索引的數據相比,「暗網」更是要龐大得多。根據Bright Planet公司此前發布的一個名為《TheDeep WebSurfacing The Hidden Value》(深層次網絡,隱藏的價值)白皮書中提供的數據,「暗網」包含100億個不重複的表單,其包含的信息量是「非暗網」的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享信息,如此一來,「暗網」已經成為網際網路新信息增長的最大來源,也就是說,網際網路正在變得「越來越暗」。
當然,所謂「暗網」,並不是真正的「不可見」,對於知道如何訪問這些內容的人來說,它們無疑是可見的。
迎戰「暗網」
對於龐大的「暗網」,目前搜索業界通行的策略主要有兩種:其一,構建更有針對性的「暗網」爬蟲,以便獲取後臺資料庫;其二,與「暗網」網站合作,實現信息的對接和上浮。
對於第一種策略,它始終貫穿搜尋引擎的發展過程。百度產品部相關人士對此表示,目前針對搜尋引擎的升級和更新中,大部分與「暗網」問題有關,只不過對普通用戶來講,他們很難察覺。
第二種策略似乎更成效。不管是國外的谷歌、雅虎,還是國內的百度,都有針對性的計劃,並且用戶已經體驗到了它們帶來的變化。
巨頭的較勁
股民劉先生最近在百度搜索時無意中發現,當關鍵詞為股票代碼時,得到的結果第一項便是該股票的K線圖,還有當日的成交量等信息。而切換到谷歌,得到的結果如出一轍。他體驗到的這一技術,在百度被稱為「阿拉丁」,在谷歌則叫「onebox」。
除了股票,在百度搜索英文單詞、人民幣匯率、天氣預報、電視節目表等等,網民都會有意外收穫。這一點,網民的感觸要比在谷歌中深,一個典型的例子是,在百度和谷歌中分別輸入「天氣」,百度將直接根據用戶的IP判斷其所處位置,給出當地的天氣情況,而谷歌則在第一個結果中給出了一個搜索框,讓用戶進一步查詢。
顯然,在用戶體驗上,百度佔了上風。這得益於其上線不久的「搜索開放平臺」,這一平臺是「阿拉丁」計劃的一部分。其運作邏輯是:百度開放API接口,各大網站提交已經結構化的數據,設定好關鍵詞和展示方式、位置,獲得百度審核後,當網民檢索設定的關鍵詞,則自動觸發這一機制,展現最直接的信息。
對比百度搜索開放平臺和谷歌onebox,兩者的最大區別就是與網站的互動,前者更為充分。換句話說,onebox更多是谷歌自己在使勁,而搜索開放平臺則是百度與站長一起在努力。據百度阿拉丁項目負責人透露,平臺上線兩個月以來,站長提交的資源數量超過3000個。
搜索的變革
在對付「暗網」的過程中,搜尋引擎正在完成它的蛻變,不論是後臺還是前臺,這才是這場戰役的真正意義。「搜尋引擎越來越聰明了,它能看穿我的心思。」90後網民小龔說。他是一個球迷,平時最喜歡看意甲,一天在百度搜索「意甲射手榜」,「居然結果中直接就是榜單,讓人意外。」
一位業內人士表示,搜尋引擎試圖讓人們以最小的成本獲得最直接的信息,「哪怕是少一次滑鼠點擊,也是巨大進步。」
有意思的是,隨著百度搜索開放平臺、谷歌onebox、雅虎Search Monkey等計劃的展開,搜索結果真正變得「亂糟糟」的——你總能看到網頁連結的結果中間夾雜著圖片、新聞、視頻,或者圖形、表格等信息,這種變革對網民的體驗大有裨益。
而評論人士則指出,這些計劃將搜尋引擎從「只讀時代」帶入了「可寫時代」。或許未來,對於每一個網站,每一個用戶,都有資格改變搜尋引擎。