搜狗網頁搜索3.0版本介紹
1. 面臨的問題
搜尋引擎已經是網際網路上一個非常成熟的應用產品了,但是長期以來,中文用戶對於搜尋引擎的表現,卻不盡如人意。在國外做的一次搜尋引擎用戶滿意度調查中,發現英文搜索用戶的滿意程度大致在70%,但是在國內做的搜尋引擎用戶滿意度調查中,用戶滿意度卻只有大概40%。
這裡面其實有一個很大的原因就在於頁面的收錄量,因為比如像Google這樣的英文搜尋引擎,它檢索了大概200億的英文搜索頁面,可以評估英文的網際網路網頁的數量大概在300億左右,這時可以看到Google已經覆蓋了英文網頁數據量的60%到70%,在這個前提條件下,它能做到的用戶滿意度也能達到60%到70%。
對於中文網頁,現在各大中文搜尋引擎,包括現在的搜狗、百度和Google,其頁面收錄量都在40億到50億之間。而網際網路上中文網頁有效數量大致在100到150億之間,可以看到目前市場上各家搜尋引擎對於中文數據的收錄量遠比英文數據的收錄量低很多,導致了用戶想要的信息找不到,這也就是中文搜尋引擎的用戶滿意度要比英文的低很多的一個主要原因。
此外,由於Web2.0概念的普及,博客、論壇、社區、圈子等應用的湧現,網際網路上越來越多的用戶從信息的獲取者變成了信息的發布者。經評估,目前網際網路上網頁數量每天新增1%,更新10%,而目前中文搜尋引擎市場上沒有產品能夠支持每天上億網頁的數據更新,導致用戶認為搜尋引擎只能找到非常陳舊的信息,加劇了用戶對於中文搜尋引擎的不滿意程度。
同時,面對如此巨大的網頁收錄量,很多關鍵字在搜索的時候,命中的結果都在百萬千萬數量級,大量的重複結果、作弊結果、無關結果,已經不可能再靠人眼一目十行的掃描來濾除。艾瑞市場諮詢根據來自Keynote的數據顯示,中國搜尋引擎用戶不滿意的因素中,有50%的用戶對搜索結果重複表示不滿。同時,搜索結果排序欠佳、搜索結果太雜亂、搜索結果不合時宜的比例分別為43%、37%和36%。前十條搜索結果的不精準,成為了用戶不滿意中文搜尋引擎的又一座大山。
2. 解決方法
為了解決廣大中文網民面對的數據量大、更新慢、結果不精準這三大問題,搜狗將於2007年1月1日推出網頁搜索3.0的版本。該版本的特點是:海量全、及時新、精準。
2.1. 海量全——收錄百億網頁
歷史上,搜狗就一直重視數據量的積累。但是由於搜狗起步較晚,因此在2004年的8月發布的時候,數據量實際上非常小,大概只有有2億,以致當時剛剛用搜狗搜尋引擎的用戶普遍反映在搜狗上有很多內容查不出來。但是,一直致力於後臺技術研發和數據積累的搜狗,只用了兩年時間,在2006年8月份的時候,就成功支持了50億中文網頁的查詢,成為了全球首個中文網頁收錄量達到50億的搜尋引擎。
我們知道,每一次數據量的大幅提升,都需要後臺技術對於抓取、頁面分析、濾重、索引、排序、反垃圾等一系列的功能模塊進行全方位的升級,以支持更大的容量;因此,數據量的大小,從一定程度上反映了搜尋引擎研發團隊的技術實力。在2007年1月1日搜狗3.0發布的時候,搜狗更是將數據量拓展到了100億,自主研發的超流水線並行抓取技術自主研發的並行協同抓取技術,進一步拉開了與競爭對手的差距。值得一提的是,由於採用了自行開發的文件系統和資料庫,搜狗大幅提升了伺服器利用率,用遠少於競爭對手的投入,就達到了收錄百億網頁目標。
搜狗對於數據量的積累,實際上是按照指數級的速度在增長的。而大家對網際網路的一個普遍認識:中文網際網路的網頁數量也是按照指數級的方式在增長的。因此可以非常有信心地說搜狗的增長是能夠跟上中文互聯速度增長或者說爆炸速度的。
2.2. 及時新——每天更新五億網頁
我們知道,網際網路上不同網頁之間的更新速度差異是巨大的。比如新聞網站,每天都會有大量新內容的產生;而一個顯示圓周率的網站,可能三年都不會更新一次。因此,在抓取速度上,搜狗通過智能分析技術,對於不同網站、網頁採取了差異化的抓取策略,充分地利用了帶寬資源來抓取高時效性信息,確保網際網路上的最新資訊能夠在第一時間被用戶檢索到。
此外,依託於搜狐內容頻道這一中國最領先的,覆蓋了幾乎所有國內外重要新聞的新媒體資訊平臺,搜狗能直接獲取到最新的高質量新聞內容,在很大程度上保證了搜狗對於及時性超快的響應,成為搜狗網頁搜索獨一無二的優勢。
在網頁搜索3.0平臺上,每天搜狗的伺服器集群並行更新超過五億的網頁。在強大的更新能力下,用戶不必再到專門的新聞搜尋引擎上,就能獲得最新的資訊。
為了滿足對及時性要求極高的用戶的需求,搜狗還特意提供了按時間排序的功能,使得搜狗網頁搜索3.0強大的網頁更新能力,能夠幫助用戶更快地找到想要的信息。
2.3. 精準——評測指標業內領先
眾所周知,Google較之於第一代搜尋引擎(如Yahoo! Directory)在搜索結果的準確性上有大幅提高,很大程度上得益於它名為「Page Rank」的網頁排名算法。在網際網路上,如果一個網頁被很多其它網頁所連結,說明它受到普遍的承認和信賴,那麼它的排名就應當高。這就是 Page Rank 的核心思想。但是,由於Google對於中文網際網路的收錄量不足,因此對於連結關係的考量不夠全面,導致其中文搜索效果不如英文。
搜狗在搜索結果的排名上採用了被業界廣泛認可的搜狗網頁評級體系。網頁評級是搜狗衡量網頁重要性的指標,不僅考察了網頁之間連結關係,同時考察了連結質量、連結之間的相關性等特性,是機器根據Sogou Rank算法自動計算出來的,值從0至100不等。網頁評級越高,該網頁在搜索中越容易被檢索到。
搜狗網頁評級依託搜狗百億中文網頁的儲備,分析最全的中文網際網路連結庫,確保評級的客觀公正。由於有了網頁評級體系的保證,搜狗的搜索結果能夠做到更加精準。
在學術界,網頁搜索的查詢被分為導航型和信息事務型兩類。導航型是指用戶輸入「搜狐」、「搜狗」、「ChinaRen」等關鍵字的查詢,他們預期在第一條結果得到準確的站點結果。信息事務型是指用戶輸入「綠茶」、「張靚穎」等關鍵字的查詢,他們預期找到包含該關鍵字的各種網頁,從中獲取有用信息。經過人工對於隨機選取的上千個查詢詞進行測試,搜狗在導航型和信息事務型查詢的表現,分別達到了94%和67%的準確度,處於業內領先水平。
另外一方面,用戶對於搜索結果的點擊,代表了用戶對搜索結果的認可。數據分析表明,用戶每次搜索後,點擊結果的次數越多,說明搜索結果越精準。搜狗從用戶體驗出發,將結果點擊次數與搜索次數的比率,即點擊通過率,作為評估搜索結果精準性的重要指標,進行優化,確保我們的算法滿足用戶對於「精準」的理解。
3. 效果
通過搜狗網頁搜索3.0在海量在全、及時新、精準三方面的努力,搜狗網頁搜索的效果得到了大幅提升,有效解決了中文搜索用戶面臨的三大困擾。
在海量方面,由於數據量大,保證了有價值的信息能被找到。比如搜索「中國站長大會」,搜狗的結果相對於百度的結果,明顯能看見數據量大所產生的優勢。
在及時性方面,搜狗在多次網際網路熱點事件後,均在第一時間內搜索到了大量相關結果,滿足了網友對於新信息的獲取。經過測試,網際網路上的熱點新聞,搜狗3.0僅需1分鐘時間就能完成從抓取到頁面分析到建立索引到上線的全部過程。在這樣的速度下,每天搜狗的伺服器集群並行更新了上億的網頁。在強大的更新能力下,用戶不必再到專門的新聞搜尋引擎上,就能獲得最新的資訊。
在精準方面,用戶對於搜索結果的點擊,代表了用戶對搜索結果的認可。數據分析表明,用戶每次搜索後,點擊結果的次數越多,說明搜索結果越精準。搜狗從用戶體驗出發,將結果點擊次數與搜索次數的比率,即點擊通過率,作為評估搜索結果精準性的重要指標,進行優化,確保我們的算法滿足用戶對於「精準」的理解。搜狗在3.0版本上線後,網頁搜索的點擊通過率提升了10%。從數據統計上,證明了網頁搜索3.0的強大能力。
(責任編輯:水漲船高)