在幾乎沒有任何媒體宣傳的情況下,騰訊旗下搜尋引擎搜搜上線了自主搜索技術。眾所周知搜搜之前的網頁搜索結果是使用來自Google的技術,估計這個時候雙方的合作協議也剛好到期,目前搜搜的幫助文檔還沒有作相應的更新。
搜搜網頁搜索相較之前增加了類似有道的預覽功能,搜搜保留的是基本的文字內容和超連結,有道保留的是文字和基本的CSS樣式。其他部分也有細微差別,不過這兩個功能並不存在實質差別,都可以幫助用戶快速獲取目標網頁的相關信息,提供除了快照以外的更多一種選擇。
騰訊當然是想要藉助自有搜索技術的上線在搜索市場分一杯羹,不過是騾子是馬拉出來遛遛,我們來看看騰訊新搜索的表現怎麼樣。
錯詞糾正
由於中國文化博大精深,同音字太多導致我們可能有時候會遇到輸入錯誤,當然這種情況也可能發生在英文的拼寫錯誤,這個測試項目選用一個中文關鍵詞與一個英文關鍵詞進行測試。
周於明:用戶想要搜索的是F4裡面的周渝民,中文的錯詞糾錯根據拼音庫進行判斷,搜搜、百度、谷歌都給出了「周渝民」這樣的正確提示,搜搜和百度都顯示為錯誤輸入的搜索結果,谷歌勝出的點是是它對所有可能拼寫錯誤的搜索結果都會給出所提示的關鍵詞的兩個搜索結果,這讓它的搜索結果具備更多的可用性。
Michel Jackson:MJ的粉絲應該可以很容易看出這是一個拼寫錯誤,正確的拼寫應該是「Michael Jackson」。搜搜並沒有給出正確的拼寫提示,搜索結果顯示為錯誤拼寫的搜索結果;百度給出了正確的拼寫提示,第一二項結果具有可讀性(MJ粉絲網站和維基百科),其餘為錯誤拼寫的搜索結果;谷歌給出了正確的拼寫提示,搜索結果為正確拼寫的搜索結果。
索引數量與索引速度
這兩個指標直接關係著搜尋引擎能否為用戶提供快速的搜索體驗和優秀的搜索質量,這裡將會使用兩個隨機選擇的熱門關鍵詞進行測試。
網癮:搜搜、百度、谷歌的完成搜索時間分別為0.104秒、0.002秒、0.20秒,百度以巨大的優勢領先,搜搜與谷歌緊跟其後,需要說明的是這樣短的差距對於普通用戶幾乎是沒有差別。接下來是索引網頁數量的較量,搜搜搜索到了2,570,000項結果,百度搜索到了6,090,000項結果,谷歌這個數字為8,640,000,百度領先搜搜接近200%,而谷歌又領先百度超過40%。搜搜落敗在意料之中,畢竟Sosospider的出道時間比另外兩家實在是晚太多。
鬱可唯:中國頭號選秀節目的熱門選手,鬱可唯自然適合用來作為測試關鍵詞。搜搜、百度、谷歌的完成搜索時間分別為0.051秒、0.003秒、0.30秒,三方趨勢與上一個關鍵詞相同不再贅述;索引網頁數量這一指標,搜搜為1,370,000項搜索結果,百度為1,020,000項搜索結果,谷歌為11,700,000項搜索結果,搜搜在這一輪反超百度,而谷歌大幅擴大了優勢,大有打著望遠鏡都找不著對手的感覺。
中文分詞技術
中文分詞一直都是各大搜尋引擎相互比拼的領域,中文分詞技術的提升能夠最有效提升用戶的搜索體驗,所謂中文分詞簡而言之就是讓電腦知道用戶想要什麼,儘管用戶的搜索是那麼千奇百怪,仍然選用兩個中文關鍵詞進行測試。
學生會組織義演活動:搜搜的分詞為學生會\組織\義演\活動,正確;百度的分詞為學生會組織\義演\活動,錯誤將學生會組織這樣一個動賓短語識別為一個名詞;谷歌的諷刺結果為學生會\組織\義演\活動,正確。
勝利取決於勇氣:搜搜的分詞為勝利\取決於\勇氣,正確;百度的分詞為勝利\於\勇氣,取決那個詞直接被忽略,讓人比較困惑;谷歌的分詞為勝利\取決於\勇氣,正確。
百度在這一回合的落敗讓人意外,畢竟幾年前百度曾經叫囂著最懂中文,搜搜的分詞與谷歌基本相同。
搜索質量實測
這一回合避開單項測試可能造成的誤判,採用最直觀的搜索結果來作一個較量,同樣是兩個關鍵詞,一個是問答式的需要得到解答,另一個熱門關鍵詞,考驗搜索結果內容質量。
2010世博會在哪裡開:搜搜在第三位提供了來自百度知道的搜索結果,前兩位搜索結果並不能提供相關性了解;百度在第六位提供了來自百度知道的搜索結果,上方的搜索結果皆為世博官方網站或者對應的門戶專題,這體現了百度越來越明顯的傾向於門戶站點;谷歌在第三位提供了來自搜搜問問的搜索結果,前兩位為來自世博官方網站的搜索結果。如果要排序的話谷歌第一,搜搜第二,百度第三。
周杰倫:周董的關注度絕對是毋庸置疑,用這個詞來考察搜尋引擎第一頁內容的豐富程度。搜搜的第一頁搜索結果包含兩條歌迷網站、兩條音樂搜索(百度MP3、搜搜音樂)、一條圖片搜索(搜搜圖片)、一條百科(百度百科)、四條網站專題(新浪、騰訊、TOM);百度的第一頁搜索結果包含兩條歌迷網站、一條音樂搜索(百度音樂)、一條圖片搜索(百度圖片)、一條百科(百度百科)、兩條網站專題(新浪、騰訊)、一條相關新聞(百度新聞)、一條貼吧、一條視頻(百度視頻);谷歌的第一頁搜索結果包含一條歌迷網站、兩條音樂搜索(百度MP3、谷歌音樂)、一條百科(百度百科)、七條網站專題(新浪、騰訊、TOM、搜狐、網易、人民網)、一條相關新聞(谷歌資訊)、一條博客搜索,值得指出的是谷歌音樂、谷歌資訊、谷歌博客都是沒有算進十條搜索結果的,也就是谷歌有十三條搜索結果。排序依次為谷歌第一、百度第二、搜搜第三。
搜搜如果想要爭得一席之地需要走得路還很長,搜尋引擎很大程度上並不能從騰訊在IM的強勢獲利太多,搜搜需要面對的更多是技術提升和用戶習慣的教育,百度的崛起是因為當時在中文搜索的技術優勢與用戶習慣而,谷歌市場份額回升是因為技術的改進和用戶教育,而這兩方面都是搜搜缺乏的。So,騰訊仍須努力。
原文:https://www.xjp.cc/2009/09/03/new-soso-search/