搜狗網頁搜索3.0版本介紹

2020-12-18 搜狐網

  搜狗網頁搜索3.0版本介紹

  1. 面臨的問題

  搜尋引擎已經是網際網路上一個非常成熟的應用產品了,但是長期以來,中文用戶對於搜尋引擎的表現,卻不盡如人意。在國外做的一次搜尋引擎用戶滿意度調查中,發現英文搜索用戶的滿意程度大致在70%,但是在國內做的搜尋引擎用戶滿意度調查中,用戶滿意度卻只有大概40%。

  這裡面其實有一個很大的原因就在於頁面的收錄量,因為比如像Google這樣的英文搜尋引擎,它檢索了大概200億的英文搜索頁面,可以評估英文的網際網路網頁的數量大概在300億左右,這時可以看到Google已經覆蓋了英文網頁數據量的60%到70%,在這個前提條件下,它能做到的用戶滿意度也能達到60%到70%。

  對於中文網頁,現在各大中文搜尋引擎,包括現在的搜狗、百度和Google,其頁面收錄量都在40億到50億之間。而網際網路上中文網頁有效數量大致在100到150億之間,可以看到目前市場上各家搜尋引擎對於中文數據的收錄量遠比英文數據的收錄量低很多,導致了用戶想要的信息找不到,這也就是中文搜尋引擎的用戶滿意度要比英文的低很多的一個主要原因。

  此外,由於Web2.0概念的普及,博客、論壇、社區、圈子等應用的湧現,網際網路上越來越多的用戶從信息的獲取者變成了信息的發布者。經評估,目前網際網路上網頁數量每天新增1%,更新10%,而目前中文搜尋引擎市場上沒有產品能夠支持每天上億網頁的數據更新,導致用戶認為搜尋引擎只能找到非常陳舊的信息,加劇了用戶對於中文搜尋引擎的不滿意程度。

  同時,面對如此巨大的網頁收錄量,很多關鍵字在搜索的時候,命中的結果都在百萬千萬數量級,大量的重複結果、作弊結果、無關結果,已經不可能再靠人眼一目十行的掃描來濾除。艾瑞市場諮詢根據來自Keynote的數據顯示,中國搜尋引擎用戶不滿意的因素中,有50%的用戶對搜索結果重複表示不滿。同時,搜索結果排序欠佳、搜索結果太雜亂、搜索結果不合時宜的比例分別為43%、37%和36%。前十條搜索結果的不精準,成為了用戶不滿意中文搜尋引擎的又一座大山。

  2. 解決方法

  為了解決廣大中文網民面對的數據量大、更新慢、結果不精準這三大問題,搜狗將於2007年1月1日推出網頁搜索3.0的版本。該版本的特點是:海量全、及時新、精準。

  2.1. 海量全——收錄百億網頁

  歷史上,搜狗就一直重視數據量的積累。但是由於搜狗起步較晚,因此在2004年的8月發布的時候,數據量實際上非常小,大概只有有2億,以致當時剛剛用搜狗搜尋引擎的用戶普遍反映在搜狗上有很多內容查不出來。但是,一直致力於後臺技術研發和數據積累的搜狗,只用了兩年時間,在2006年8月份的時候,就成功支持了50億中文網頁的查詢,成為了全球首個中文網頁收錄量達到50億的搜尋引擎。

  我們知道,每一次數據量的大幅提升,都需要後臺技術對於抓取、頁面分析、濾重、索引、排序、反垃圾等一系列的功能模塊進行全方位的升級,以支持更大的容量;因此,數據量的大小,從一定程度上反映了搜尋引擎研發團隊的技術實力。在2007年1月1日搜狗3.0發布的時候,搜狗更是將數據量拓展到了100億,自主研發的超流水線並行抓取技術自主研發的並行協同抓取技術,進一步拉開了與競爭對手的差距。值得一提的是,由於採用了自行開發的文件系統和資料庫,搜狗大幅提升了伺服器利用率,用遠少於競爭對手的投入,就達到了收錄百億網頁目標。

  搜狗對於數據量的積累,實際上是按照指數級的速度在增長的。而大家對網際網路的一個普遍認識:中文網際網路的網頁數量也是按照指數級的方式在增長的。因此可以非常有信心地說搜狗的增長是能夠跟上中文互聯速度增長或者說爆炸速度的。

  2.2. 及時新——每天更新五億網頁

  我們知道,網際網路上不同網頁之間的更新速度差異是巨大的。比如新聞網站,每天都會有大量新內容的產生;而一個顯示圓周率的網站,可能三年都不會更新一次。因此,在抓取速度上,搜狗通過智能分析技術,對於不同網站、網頁採取了差異化的抓取策略,充分地利用了帶寬資源來抓取高時效性信息,確保網際網路上的最新資訊能夠在第一時間被用戶檢索到。

  此外,依託於搜狐內容頻道這一中國最領先的,覆蓋了幾乎所有國內外重要新聞的新媒體資訊平臺,搜狗能直接獲取到最新的高質量新聞內容,在很大程度上保證了搜狗對於及時性超快的響應,成為搜狗網頁搜索獨一無二的優勢。

  在網頁搜索3.0平臺上,每天搜狗的伺服器集群並行更新超過五億的網頁。在強大的更新能力下,用戶不必再到專門的新聞搜尋引擎上,就能獲得最新的資訊。

  為了滿足對及時性要求極高的用戶的需求,搜狗還特意提供了按時間排序的功能,使得搜狗網頁搜索3.0強大的網頁更新能力,能夠幫助用戶更快地找到想要的信息。

  2.3. 精準——評測指標業內領先

  眾所周知,Google較之於第一代搜尋引擎(如Yahoo! Directory)在搜索結果的準確性上有大幅提高,很大程度上得益於它名為「Page Rank」的網頁排名算法。在網際網路上,如果一個網頁被很多其它網頁所連結,說明它受到普遍的承認和信賴,那麼它的排名就應當高。這就是 Page Rank 的核心思想。但是,由於Google對於中文網際網路的收錄量不足,因此對於連結關係的考量不夠全面,導致其中文搜索效果不如英文。

  搜狗在搜索結果的排名上採用了被業界廣泛認可的搜狗網頁評級體系。網頁評級是搜狗衡量網頁重要性的指標,不僅考察了網頁之間連結關係,同時考察了連結質量、連結之間的相關性等特性,是機器根據Sogou Rank算法自動計算出來的,值從0至100不等。網頁評級越高,該網頁在搜索中越容易被檢索到。

  搜狗網頁評級依託搜狗百億中文網頁的儲備,分析最全的中文網際網路連結庫,確保評級的客觀公正。由於有了網頁評級體系的保證,搜狗的搜索結果能夠做到更加精準。

  在學術界,網頁搜索的查詢被分為導航型和信息事務型兩類。導航型是指用戶輸入「搜狐」、「搜狗」、「ChinaRen」等關鍵字的查詢,他們預期在第一條結果得到準確的站點結果。信息事務型是指用戶輸入「綠茶」、「張靚穎」等關鍵字的查詢,他們預期找到包含該關鍵字的各種網頁,從中獲取有用信息。經過人工對於隨機選取的上千個查詢詞進行測試,搜狗在導航型和信息事務型查詢的表現,分別達到了94%和67%的準確度,處於業內領先水平。

  另外一方面,用戶對於搜索結果的點擊,代表了用戶對搜索結果的認可。數據分析表明,用戶每次搜索後,點擊結果的次數越多,說明搜索結果越精準。搜狗從用戶體驗出發,將結果點擊次數與搜索次數的比率,即點擊通過率,作為評估搜索結果精準性的重要指標,進行優化,確保我們的算法滿足用戶對於「精準」的理解。

  3. 效果

  通過搜狗網頁搜索3.0在海量在全、及時新、精準三方面的努力,搜狗網頁搜索的效果得到了大幅提升,有效解決了中文搜索用戶面臨的三大困擾。

  在海量方面,由於數據量大,保證了有價值的信息能被找到。比如搜索「中國站長大會」,搜狗的結果相對於百度的結果,明顯能看見數據量大所產生的優勢。

  在及時性方面,搜狗在多次網際網路熱點事件後,均在第一時間內搜索到了大量相關結果,滿足了網友對於新信息的獲取。經過測試,網際網路上的熱點新聞,搜狗3.0僅需1分鐘時間就能完成從抓取到頁面分析到建立索引到上線的全部過程。在這樣的速度下,每天搜狗的伺服器集群並行更新了上億的網頁。在強大的更新能力下,用戶不必再到專門的新聞搜尋引擎上,就能獲得最新的資訊。

  在精準方面,用戶對於搜索結果的點擊,代表了用戶對搜索結果的認可。數據分析表明,用戶每次搜索後,點擊結果的次數越多,說明搜索結果越精準。搜狗從用戶體驗出發,將結果點擊次數與搜索次數的比率,即點擊通過率,作為評估搜索結果精準性的重要指標,進行優化,確保我們的算法滿足用戶對於「精準」的理解。搜狗在3.0版本上線後,網頁搜索的點擊通過率提升了10%。從數據統計上,證明了網頁搜索3.0的強大能力。  

(責任編輯:水漲船高)

相關焦點

  • 搜狗搜索3.0版本APP發布 推個性化閱讀
    《搜狗搜索3.0版本APP發布 推個性化閱讀》文章已經歸檔,不再展示相關內容,編輯建議你查看最新於此相關的內容:微信滲透職場生活,朋友圈成爭議重災區——無憂精英網發布《職場精英微信使用報告》不知何時開始流行這樣一句話
  • 搜狗搜索公開課 詳解搜尋引擎技術應用及趨勢
    尤其是與騰訊的深度合作,更是讓搜狗搜索強大的信息處理能力得到業內認可,不少人對於搜狗搜索的「技術秘籍」充滿了好奇。  7月14日,搜狗搜索舉辦了主題為「搜索算法解密」的技術公開課,與超過80位搜索行業的技術精英、搜索愛好者以及合作夥伴來共同探討搜尋引擎的技術應用。搜狗CEO王小川、副總裁茹立雲、通用搜索部高級總監張闊也在公開課現場現身,與到場參與者分享了搜狗舉辦此次公開課的初衷。
  • 24款違法App被曝光:搜狗搜索、搜狗瀏覽器等在內
    具體App如下:《深圳航空》(版本5.3.1)、《遨遊旅行》(版本5.6.2)、《筐鮮生採購端》(版本1.2.1)。2、未向用戶明示申請的全部隱私權限,涉嫌隱私不合規。具體App如下:《12306買票》(版本2.3.11)、《訂票助手12306高鐵搶票》(版本8.1.2)、《搶火車票》(版本8.0.0)、《高鐵票務》(版本8.1.2)、《高鐵管家》(版本7.3.1)、《鐵友火車票-12306搶票》(版本9.0.0)、《飛常準》(版本4.8.1)、《航旅縱橫》(版本5.1.3)、《東方航空》(版本7.3.13)、《山航掌尚飛》(版本4.10.1)、《飛行加》(版本3.4.11
  • 雲輸入更準確 搜狗拼音5.0最新功能首評(組圖)
    第2頁:搜狗拼音5.0新功能體驗 第3頁:搜狗拼音5.0功能改進  華軍-蘇熠淵  2006年6月,搜狗拼音輸入法橫空出世,其超高的輸入準確率帶來了中文輸入法的革命,贏得了80%的市場佔有率;2009年11月,搜狗又推出了獨立於客戶端的雲輸入法,其基於雲計算技術的創新使得用戶無須安裝客戶端就可以直接在網頁上輸入高準確率的漢字;2010年3月,搜狗將客戶端輸入法和雲輸入法合二為一,推出了集眾多新功能於一身的搜狗拼音5.0。
  • 微信7.0「開屏送花」 搜狗搜索帶你一起解「花語」
    12月21日,微信 iOS 版7.0.0發布,首次打開新版微信,一段開屏動畫映入眼帘:在動畫中,一支粉紅色的小花在湛藍廣袤的天空下馮虛御風、自在搖曳,背景音樂則是加拿大已故歌手萊昂納德·科恩的名曲《In My Secret Life》,畫面上方還配上了文案:因你看見,所以存在。
  • 脈脈連接搜狗搜索,打造動態職場百科全書
    日前,職場社交平臺「脈脈」牽手國內第二大搜尋引擎搜狗搜索,在搜狗引擎上上線 「職場社交數據」為求職者打開一個求職快捷通道。眾所周知,招聘行業最大的痛點就是漫長、繁瑣、不夠人性化的流程,這在某種程度上造成人才和企業的不匹配。
  • 搜狗五周年:打造中國最有特色的搜尋引擎
    2004年8月3日,搜狗搜尋引擎正式上線,這標誌著全球首個第三代互動式中文搜尋引擎的誕生。2009年8月3日,時隔五年,根據2009年最新的調查數據顯示,搜狗搜索已經穩坐搜尋引擎市場前三甲的位置,並成為本土市場中用戶體驗最好、增長速度最快的搜尋引擎產品。
  • 搜狗搜索APP3.0「掃碼比價」助你變身購物達人
    2.14情人節的腳步還沒有走遠,3.14白色情人節就將馬上趕來「接檔」浪漫,你是不是已經摩拳擦掌,準備開始「買買買」,為心儀的TA送上心意的節奏呢? 搜狗搜索移動客戶端的「掃碼比價」功能,首先會看到該商品的官方認證資料,即正品對應條形碼、參考價和製造商,精準找到自己想要購買的商品。
  • 脈脈連接搜狗搜索 打造動態職場百科全書
    日前,職場社交平臺「脈脈」牽手國內第二大搜尋引擎搜狗搜索,在搜狗引擎上上線 「職場社交數據」為求職者打開一個求職快捷通道。  眾所周知,招聘行業最大的痛點就是漫長、繁瑣、不夠人性化的流程,這在某種程度上造成人才和企業的不匹配。
  • 搜狗率先推出地圖搜索 開掘搜尋引擎下一個金礦
    搜狗地圖搜索的推出,在為廣大用戶提供了一個全新應用功能的同時,也為中文搜索市場找到了一個嶄新的業務空間。據介紹,地圖搜索在為用戶提供地圖、交通指引諮詢的同時,也為廣大的商家,尤其是小型服務類機構提供了一個針對性極強的營銷新模式,在數以百萬計的地圖數據中,蘊含著一個巨大的廣告市場,捷足先登的搜狗無疑佔據了市場先機。
  • 搜狗瀏覽器公開測試 獨創頁面假死處理功能
    搜狗瀏覽器1.0公測版界面  搜狗瀏覽器1.0版本第一次提出了「多任務異步瀏覽」(multi-task asynchronous browsing)的概念,實現了每個頁面異步獨立讀取,有效的避免了單個頁面的性能下降對於整個瀏覽器的影響。使搜狗瀏覽器的運行速度、運行流暢度都超越了同類瀏覽器。
  • 騰訊欲花百億拿下搜狗,搜索市場波瀾再起
    對於一直深受虧損之苦的搜狐,暢遊和搜狗支撐著其營收。今年4月,暢遊宣布完成被搜狐私有化,從美股退市。推進暢遊私有化後,追求「盈利」的搜狐,開始把目光放在了搜狗身上。根據騰訊的私有化要約建議,搜狗控股股東搜狐的實際控制人張朝陽已同意該交易,其持有搜狗6.4%股權以及0.9%投票權。
  • 搜狗搜索等在列
    中新經緯客戶端1月14日電 又有24款APP被曝涉嫌超範圍採集個人隱私信息,涉及「航旅縱橫」「搜狗搜索」等。此次病毒中心公布的24款有害App中,未經用戶同意收集個人隱私信息,涉嫌隱私不合規的具體App包括「深圳航空」(版本5.3.1)、「遨遊旅行」(版本5.6.2)、「筐鮮生採購端」(版本1.2.1)。
  • 「百度一下」變成「搜狗搜索」?搜狗不正當競爭,用戶不知情跳坑
    說到網絡搜索,一般情況下我們能想到的都是百度,作為全球最大的中文搜尋引擎,憑藉超過千億的中文網頁資料庫,百度能夠幫助網友瞬間找到相關的搜索結果,而那句"百度一下,你就知道"對於眾多網友來說是耳熟能詳。2014年開始,陸續有網友在網絡上反映自己通過百度搜索結果卻跳轉至了搜狗搜索,而這些網友的共同點就是使用了搜狗拼音輸入法。自此,長達四年的"搜狗惡意劫持百度流量案"進入了曠日持久的拉鋸期。
  • 搜狗翻譯網頁版在線翻譯 搜狗翻譯app有哪些功能
    搜狗翻譯作為國內一款比較受歡迎的翻譯工具,有著不少的用戶人群,與其他的翻譯軟體相比,搜狗翻譯有哪些獨特的功能呢,以下我們來看下搜狗翻譯的幾個特色功能介紹。
  • 搜狗搜索升級,新推日文韓文搜索
    PingWest品玩 1 月 24 日報導, 1 月 24 日,在 2018 搜狗合作夥伴大會上,搜狗CEO王小川在演講中透露,繼 2017 年 1 月推出英文搜索後,搜狗搜索已在近期推出日文及韓文搜索。同時,搜狗輸入法也將進行功能升級。
  • 24款APP被通報涉嫌超範圍採集個人隱私信息,航旅縱橫、搜狗搜索在列
    楚天都市報1月13日訊(見習記者 姚崗)據新華社消息,國家計算機病毒應急處理中心近期在「淨網2020」專項行動中通過網際網路監測發現,多款違法、違規有害移動應用存在隱私不合規行為,違反《網絡安全法》相關規定,涉嫌超範圍採集個人隱私信息。
  • APEC假期去哪玩 和搜狗搜索一起開「泡」
    可是,假期去哪玩又成了難題,對此,業內領先的搜尋引擎——搜狗搜索給大家支招,深秋時節最宜泡溫泉,消疲養生,這就和搜狗搜索一起開「泡」吧。據了解,只要在搜狗搜索的主頁面搜索欄中輸入「北京溫泉」,貼心的搜狗搜索就能快速提供查詢結果,包括北京周邊的各家溫泉度假村的官方網頁、旅遊攻略、跟團線路、北京溫泉綜合網站等相關信息被一一列出。
  • 搜狗拼音輸入法慶三歲 張朝陽寄語天下網民
    2009年6月5日,搜狗拼音輸入法迎來了它3周歲生日。當天,搜狐不僅推出更加智能和人性化的4.2版本搜狗拼音輸入法,搜狐公司董事局主席兼執行長張朝陽更是寄語天下網民,感謝網民對搜狗輸入法的厚愛和支持,稱6月5日是值得網民慶祝的節日,希望搜狗輸入法為網民帶來更多生活的便利和快樂。
  • 騰訊入股搜狗,搜索領域將有怎樣有趣的新變?
    2020年第一季度虧損為3110萬美元,同比擴大10倍;第二季度淨虧損850萬美元,有所收窄,第三季度虧損更一步惡化,淨虧損為4200萬美元,同比擴大3.9倍。從2017年上市以來,今年或許是搜狗財務成績最糟糕的一年。時間線回到2013年9月16日,那天王小川發了一條微博:「網際網路行業格局因此而變。新搜狗,大夢想!」 他所指的事件正是騰訊入股搜狗。