搜狗搜索事業部總經理:從識圖搜索談未來大勢

2020-12-16 CSDN技術社區

[CSDN專訪專稿 付江]經過近半年的獨立研發,搜狗搜索推出了識圖搜索功能,即可通過上傳圖片等方式搜索找到相似群組圖片和資料。日前,就這一新功能以及搜索領域熱點話題,CSDN記者專訪了搜狗公司搜索事業部總經理茹立雲。

搜狗公司搜索事業部總經理茹立雲

深度調研和數據挖掘用戶需求

CSDN記者:請談談搜狗做識圖搜索功能的初衷是什麼?

搜狗公司搜索事業部總經理茹立云:主要基於用戶需求的轉變,包括兩個層面。第一個層面是整個網際網路技術都在提升,用戶背後的需求一直得不到滿足,以前大家搜索主要靠文字,隨著時代的進步,媒介使用設備的更新,用戶對基於圖片、音頻、視頻等跨媒體搜索需求越來越大。比如說,在搜狗的搜尋引擎裡面,過去搜一張圖片是誰,會有1000萬以上的結果。到現在,更多用戶不再滿足於僅僅看到圖片,而想了解圖片背後的故事是什麼。第二,隨著新興媒體的誕生,像微博,對識圖搜索的需求越來越大,用戶想知道要加的這個人是不是真實的那個人,包括北京下暴雨網上出現了大量通過PS出來的虛假圖片,還有動車事故也有很多虛假的圖片,廣大網友難辨真偽,所以要增加辨別能力,識圖技術就可以辨別事情的真偽。此外,我們也考慮到了搜狗的優勢,識圖能夠更加便捷,搜狗通過跟瀏覽器結合,用戶使用識圖越來越方便。

記者:當時開發識圖搜索功能的時候搜狗團隊內部有沒有一些分歧?

茹立云:初期做了比較多的調研,最主要的調研包括三個方面:1.首先是用戶的潛在需求到底會有多大,這個我們對相關數據做了挖掘和分析;2.另外就是調研了識圖或者圖片相關技術,要支撐這麼一個識圖的產品在技術層面是不是成熟;3.同時現在用戶使用的話是不是便捷,如何能夠給用戶提供更好的體驗。通過調研,搜狗發現,一旦發現用戶背後的需求非常巨大,做這麼一個產品自然而然成為大家的共識。一開始討論比較多的是用什麼樣的技術方案研發出來,並且能夠很好的做好。但是對於這個功能,我們內部是一直看好的。

記者:與Google推出的識圖搜索功能相比如何?

茹立云:搜狗的識圖搜索跟Google比較有幾個比較重大的創新,我們發現用戶在之前的識圖需求裡面,除了想找到跟這張圖片及文化一樣的圖片之外,很多同組的圖片可能也是他感興趣的,比如說搜一張搞笑的圖片,能不能把其他的搞笑的圖片搜在一起。搜狗已經不僅僅是基於圖像的內容,同時把它文字上的含義,或者說它的語意結合在一起,找到同組合的圖片,這是一個創新。第二塊兒就是發現用戶在使用識圖的時候,如果單純用一種網絡服務的形式的話,使用環節會非常不便利,但是如果把它和瀏覽器很好的緊密結合在一起,使用識圖的過程就變得特別簡單了,隨時隨地都可以識圖,不用像之前要記住這個網址,拷下來輸進去。

技術門檻較高 在微博領域可發揮大作用

記者:採訪之前,我也找業界的人諮詢了識圖搜索技術,據說難度非常大。能否用通俗的語言解釋一下技術上的實現方式?

茹立云:搜狗識圖主要包括以下幾個技術:

首先,圖像有效特徵的抽取。有一句話叫做「一圖勝千言」,圖片包含了大量的語意,是用各種各樣的顏色、紋理特徵表現,怎樣能夠找到一種有效地特徵來描述,對圖像壓縮、變形、光照的變化都不會受它的影響,這些特徵不是搜狗定的,這是裡面比較困難的點,就是圖像有效特徵的抽取。

其次,要抽取這個特徵的話怎麼把它理想化,一旦理想化之後才可能成為一種索引,否則就沒有辦法進行索引,後續的效力就沒有辦法得到保證。搜狗對識圖效果的要求非常高,一張圖在匹配這塊兒要求在10秒以內把結果反饋回來,有效特徵的表示是其中一大難點,以及怎麼樣建立一個索引。

第三,去偽存真。有了大量跟當前圖片類似的圖片,怎麼樣從裡面能夠提取出表示這個圖片含義的語意,現在中文網際網路的情況比外文網際網路的情況複雜很多,比如說很多明星的照片,比如說減肥,都會被網上盜用,怎麼能夠去偽存真,真正找到這張圖對應的是誰。

第四,搜狗做了同主題圖片的識別。有別於之前一般的做法,僅僅根據圖片的特徵和語意,搜狗技術還用到了圖片之間的連結關係,怎麼樣能夠把這種連結的關係應用起來,同時提高識圖的精度。

記者:我們在圖片上可能會存在一些關鍵字或敏感詞,能否對這些關鍵詞進行識別?

茹立云:從技術上來講,如果不是手寫的話,印刷體內容的識別技術是非常成熟的,在90年代末的時候,OCR(Optical Character Recognition光學字符識別)的技術已經非常成熟,裡面唯一有困難的是怎麼樣對圖片進行切割。所以OCR的技術本身是非常成熟的,另外搜狗目前還沒有應用,但是搜狗這塊兒技術有儲備,我們跟清華有聯合實驗室,在90年代末的時候基本上已經可以做到極致了。之前的四庫全書的數位化已經做到了這個工作,現在我們會看到微博上有印刷體的圖,印刷體的識別現在是非常成熟的技術。

記者:現在微博上需要進行關鍵字審核,很多人可以先發內容,然後再截一張圖下來。這樣基於圖的內容審核會比較麻煩。

茹立云: 對。這個不在於識圖,在監控裡面如果有這種需求,已經有非常成熟的技術,基本上國內的高校都有這樣的技術。

記者:搜狗的識圖搜索技術在業內是什麼樣的水平?

茹立云:之前我們也做過精度測試,都不遜於當前任何主流的識圖產品,另外在信息的及時度上,當天出現的熱點,當天能否搜索出來,搜狗可以當天搜索出來,但是我們看到其他的同類產品還不支持(到這個及時度)。圖像這塊兒搜狗在搜尋引擎領域有7年的積累,在圖像技術上不能說比別人一定強,但是不會比其他家落後,現在大概是這個情況。整個研發到最後推出與創新點結合在一起,速度非常迅速。

任何有道德的公司都不會去觸犯保護用戶隱私的底線

記者:網上有些圖片是有所有權,搜狗識圖是怎麼處理的?

茹立云:現在對於網際網路來講,圖片搜索還沒法辨別它是不是有所有權,什麼人擁有這個所有權,要通過投訴的渠道。另外,會做一些比較敏感的圖片的過濾。

記者:如何看待識圖搜索可能會涉及用戶個人隱私的問題?

茹立云:據現在的了解,之前也跟國內的圖像權威人士做了比較多的交流,基於頭像識別的技術,或者人臉識別的技術在開放性方面是不完備的,效果有待於進一步提升。首先在技術上這個門檻還沒有跨越;其次就是保護層面,由於技術的不成熟,用人臉識別這種方式的話,本身這種擔心是有必要的,但是也並不是非常有必要的事情。作為任何一家有社會責任的公司,推出任何可能涉及隱私產品的時候,一方面要多聽一聽公眾的意見,都不會去侵犯這個底線,隱私是需要保護的。另外一方面需要通過一些技術手段或者其他一些手段能夠保護用戶的隱私。

記者:但是普通的用戶並不是很了解,他們就覺得隱私被侵犯了。

茹立云:現在搜狗的識圖搜索技術還不會用人臉識別的技術在裡面。

推薦和整合功能是關鍵

記者:您對目前搜索市場怎麼看?尤其是國內,百度在搜尋引擎市場基本處於壟斷地位,你對搜狗的未來是如何規劃的?

茹立云:對搜尋引擎市場來講,其實現在還是處於蓬勃發展的階段,無論是全球範圍內還是中國範圍內,市場的潛力還是非常巨大的,尤其是國內市場潛力更加巨大,主要是幾方面。

第一,國內的網民還在繼續增長,不只在說PC端,無線端也在高速成長。

第二,中國有2000萬家中小企業,現在進行網際網路營銷的有20幾萬家,規模跟國際上比起來還小很多,整個中國的經濟處於高速的發展中,網際網路以及電子商務在不斷地普及,從企業需要營銷的方面來講未來也會有很大的增長。整個行業處於比較好的發展時期,當然現在也面臨一些問題,比如說搜尋引擎在網際網路上營銷的控制可能是其中的一個問題,不能讓一些虛假的廣告傷害到用戶,所以這也是大家盡力去解決的事情。

具體到搜狗來說,裡面的機會在於:

第一,我們有跟客戶端,瀏覽器有協同作戰的做法,在用戶入口方面有優勢。

第二,搜狗搜索有比較多的技術創新,像剛才提到的識圖搜索,以及前期提到的全搜索技術。用戶在使用搜索的時候更加便捷、全面、及時。通過入口的把握以及對產品的創新使得用戶越來越多的用搜狗並且喜歡搜狗,這也是過去的一年我們為什麼會這麼快速成長的原因之一。

另外,未來搜狗會更多的探索瀏覽器跟搜索結合的搜索模式,現在的搜索還是稱作為第二代搜索,那麼第三代搜索需要轉變一種形式,不再像現在這樣簡單的關健詞搜索,是一種無處不在的搜索,用戶要看到一篇新聞的時候,搜尋引擎可以告訴你背後是什麼,給你推薦相關的內容,從整個網際網路發展來講,第一代是瀏覽器,第二代是搜索,第三代我們把它稱為總推薦,其實是搜索的延伸。搜狗未來希望在這個領域做出比較大的創新性的產品出來,搜索不再像現在靠關健詞做的搜索,可以把它稱為探索式的搜索,用戶看這篇文章背後的需求是什麼,我可以告訴你進一步你想做的一些什麼事情。

記者:搜狗搜索跟瀏覽器整合,目前大概的進展是什麼樣的?

茹立云:目前我們已經在做這個層面的整合,像識圖功能通過跟瀏覽器結合,使得用戶使用的便捷和體驗有非常好的提升。另外,之前的消息盒子會做視頻的推薦,比如說用戶看過某一個連續劇,這是一個更新的連續劇,如果有新的出現的話,將第一時間推薦給你,不需要用戶自己不停的搜索看看有沒有新的,是這種推薦的概念。像音樂搜索,也會搜索頁面上是不是存在一些應用,如果你感興趣的直接就可以在頁面上應用,會非常的便捷。未來像電子商務、軟體、旅遊酒店這塊兒都會跟推薦引擎結合在一起。

興趣為先 紮實基本功最重要

記者:對於一些想進入搜索領域的學生或技術人士,您有什麼建議?

茹立云:想跨入搜索領域有很多種方式,本身跟搜索相關的領域要有特別全面的人才,比如說是一個技術人員的話,基本功一定要紮實,比如說編程基本功打好了,才能夠做很多比較高深尖的技術。此外,還要選好入門搜尋引擎領域的方向,如果本身對網際網路的產品非常喜歡,就可以做跟產品相關的工作。如果對網民這塊兒有感覺,跟他們聯絡有感覺,你就可以做產品應用的工作,搜尋引擎這個行業出來的人才是多種多樣的,關鍵是你是不是對這個感興趣,只要感興趣並且有基礎,又為之去努力,做這個行業並不是太難的事情。

記者:技術人員的基本功具體包括哪些部分?

茹立云:這跟計算機科學的基礎技術比較相關,比如說像作業系統、編程基礎課程等等。你想在裡面有更進一步的發展,最好還要會程式語言處理、自然語言處理、技術學識這些計算機領域的專長。

備註:

關於搜狗識圖搜索:能實現以圖搜圖,即通過上傳圖片、滑鼠拖拽、滑鼠選圖、輸入圖片URL地址等多種方式搜索,找到網際網路上與這張圖片相似的其他圖片,並且利用圖片識別技術,進一步分析圖片內容的主題,找到與這張圖片同主題的其他圖片。

相關焦點

  • 搜狗CEO王小川:識圖搜索與網絡打假
    在訪談中,王小川還強調,識圖搜索是搜狗走出「關鍵詞搜索」的第一步,藉助於搜狗瀏覽器與搜索技術的結合,今後還會有更多的創新作品。訪談全文:王小川:各位網友好。說到搜狗最近發布的識圖搜索與網絡打假,先給大家上一張圖片。
  • 搜狗圖片搜索與小米手機深度合作 攜手為用戶帶來AI識圖新體驗
    日前,搜狗圖片搜索宣布與小米手機達成深度合作,在小米MIX 2S、小米6X、小米8等三款旗艦手機的AI圖像識別功能—「智能識物」中,為用戶帶來優質的「識圖」新體驗,也再一次展現了搜狗搜索在人工智慧技術及跨界賦能方面的超強實力。
  • 搜狗識圖搜索打出「組合拳」 率先實現12306圖形驗證碼自動識別
    據悉,搜狗瀏覽器之所以成為市面上首款、也是唯一一款實現了新版12306驗證碼自動識別的瀏覽器軟體,正是藉助了深厚的搜狗識圖搜索技術積澱,和強大的大數據處理能力, 打出了「OCR技術+圖像分類技術」相結合的組合拳。
  • 【搜狗如何維新】搜狗微信公眾平臺搜索的產品邏輯
    搜狗的微信搜索就是圍繞用戶的這一痛點而建立的搜索平臺。用戶需求產生的意義什麼是微信搜索?它既不是搜索微信好友,也不是去搜索朋友圈內容的,它主要搜索的是微信公眾帳號以及公眾帳號的文章。包括 PC 端和無線端兩個終端的服務。目前搜狗的微信搜索主要提供了公眾號搜索和文章搜索兩個功能。在 PC 端搜索上,搜狗搜索為用戶提供了掃碼一鍵關注的功能。
  • 搜狗效仿谷歌推識圖搜索功能 可實現以圖搜圖
    搜狗推「識圖搜索」功能(騰訊科技配圖)騰訊科技訊(樂天)8月16日消息,經過近半年的獨立研發和緊張籌備,搜狗圖片搜索昨日正式推出了具備以圖搜圖功能的新產品——識圖搜索,可通過上傳圖片等方式搜索找到相似其他圖片。
  • 從「信息」到「服務」 搜狗加快移動搜索場景整合創新步伐
    競爭也體現在品牌保持率方面,在移動端,渠道優勢不夠明顯,未來競爭將趨向於品牌、服務競爭。對此,業內人士分析指出, 2014年上半年,隨著智慧型手機對功能手機的替代已經基本完成,智慧型手機對網民普及率增長的拉動效果減弱。未來一段時間我國手機搜尋引擎網民增長,將主要依靠創新類移動應用迎合網民個性化需求來拉動。
  • 「搜狗識圖」時代 如何保護好自己?
    近期搜狐公司旗下搜尋引擎搜狗正式推出了以圖搜圖功能的新產品——搜狗識圖,可通過上傳圖片等方式搜索找到相似其他圖片。傳統搜尋引擎是通過輸入文本關鍵詞的形式搜索圖片資源,而搜狗識圖搜索能實現以圖搜圖,即通過上傳圖片、滑鼠拖拽、滑鼠選圖、輸入圖片URL地址等多種方式搜索,找到網際網路上與這張圖片相似的其他圖片,並且利用圖片識別技術,進一步分析圖片內容的主題,找到與這張圖片同主題的其他圖片。
  • 騰訊欲收購搜狗,搜索江湖大戰將至,究竟鹿死誰手?
    然而,在持續投入重金,並挖來谷歌三位大將:Google圖片搜索創始人朱會燦、Google中國工程研究院副院長顏偉鵬、Google中日韓文搜索算法的主要設計者吳軍之後,騰訊的搜索業務仍不見起色。最終,騰訊不得不在不追求絕對控股的前提下,於2013年9月宣布以4.48億美元戰略入股搜狗,並將搜搜和QQ輸入法併入搜狗現有業務中,換取搜狗36.5%的股份,而搜搜引擎則就此消失。
  • 搜狗上線英文搜索 帶你搜索全世界
    日前,搜狗宣布與微軟必應達成合作,上線搜狗英文垂直頻道,並在搜狗通用搜索結果中加入相關英文內容,為用戶提供權威、全面、準確的英文搜索結果及英譯漢詞典詞條。
  • 為英文服務類產品提供內容,牛津大學出版社與搜狗搜索達成合作
    芥末堆1月23日訊,牛津大學出版社與搜狗搜索在京舉行籤約儀式,籤署了牛津詞典授權協議書,宣布雙方就牛津詞典的授權使用達成合作。合作達成後,搜狗搜索旗下的搜狗翻譯APP、搜狗詞典APP、搜狗英文搜索等英文服務類產品將引進牛津詞典內容,為搜狗翻譯APP、搜狗詞典APP、搜狗英文搜索提供30多萬條單詞、短語及釋義方面的內容,具體包含新詞新義、科技術語和百科知識條目,以此完善搜狗搜索為用戶提供的翻譯及查詞等服務。同時,牛津大學出版社將在牛津詞典的內容方面引入搜狗搜索的英文服務類產品。
  • 搜狗微信搜索起步 搜索重新變成入口?
    6月9日,搜狗搜索放出大招,宣布正式接入微信公眾號數據。這是微信開放平臺以後首次可以實現全面權威展示。根據介紹,用戶在搜索結果頁可以瀏覽到與查詢詞相關的微信公眾號及全部文章。這次改變絕不僅僅針對公眾號,未來微信的一切功能都可能會受到影響,移動網際網路甚至會重回搜索時代,不過這次的主角將不再是百度。
  • 搜狗搜索的困獸之鬥
    國內PC搜索市場目前分為兩個梯隊,第一梯隊為百度,百度搜索進入市場早,用戶人群廣。以其強大的優勢坐上PC搜索市場的頭號交椅。第二梯隊為360搜索。第三梯隊才是搜狗,搜狗與前兩個相比,並無太多優勢可言,還需繼續耕耘。未來的PC搜索,競爭方向在於個性化搜索和智能化發展。一,個性化要求搜尋引擎緊跟用戶需求,精準定位用戶搜索意圖,擴充市場份額。
  • 搜狗圖片跨界賦能小米手機 為小米全機型提供獨家圖片搜索服務
    (圖:搜狗圖片搜索提供的迪麗熱巴美圖)  值得一提的是,在全局搜索中輸入不含圖片字樣卻包含用戶潛在搜圖意圖的關鍵詞時,系統也能呈現搜狗圖片搜索的優質結果。如秋冬季節是去挪威、芬蘭、冰島等北歐國家追極光的黃金時段,驢友們在做旅行攻略過程中需要瀏覽大量的實景圖做參考。想知道挪威的景色如何,直接在全局搜索中輸入「挪威風景」,搜狗圖片搜索在搜索結果頁第一條即為驢友們提供了大量與挪威相關的高清風景圖,其中還包含版權機構的原創正版圖片,並以「版權」字樣清晰標示,可更好地滿足用戶對這些優質圖片的欣賞、使用需求。
  • 搜狗搜索納入日韓資訊翻譯結果 助國人用中文搜索全世界
    1月24日,搜狗舉辦「2018合作夥伴大會」,CEO王小川對搜狗的AI戰略及布局進行了詳細闡釋,並公布了搜狗在翻譯領域的最新動作之一:搜狗搜索實現重要升級,突破中英兩大語種及內容來源,新增日文、韓文前沿資訊的翻譯結果。此次升級是繼掃除中英文語言理解及信息獲取障礙之後,搜狗搜索再度利用人工智慧技術打破中日、中韓語言邊界,讓用戶用中文即可無時差獲取、無障礙閱讀日韓前沿資訊。
  • 拼音之後 搜狗搜索
    5月8日,不少搜索用戶意外發現搜狗搜索「變臉」了。當天下午,搜狗搜索舉行了盛大的發布會,宣布啟用全新LOGO,並正式發布移動搜索App。這透露出一個強烈的信號:在拼音輸入法之後,搜狗正在加快節奏,為6億中國網民醞釀下一場顛覆。顛覆拼音輸入之後下一個是搜索一提到「搜狗」,網民首先想到的便是「搜狗輸入法」。
  • 搜狗搜索發布新產品搜狗翻譯App
    6月12日,搜狗搜索發布產品搜狗翻譯App,並在溝通會中全面介紹了搜狗英文搜索。搜狗英文搜索產品負責人趙絢表示,中文資訊只佔全球信息的10%,各領域最前沿的學術信息、購物資訊、時尚知識等大量優質內容都集中在英文世界。全球化趨勢下,國人在旅遊、留學、海淘等各場景中對英文資訊的需求增長迅猛,卻面臨著語言障礙等眾多門檻。
  • 搜狗搜索升級,新推日文韓文搜索
    PingWest品玩 1 月 24 日報導, 1 月 24 日,在 2018 搜狗合作夥伴大會上,搜狗CEO王小川在演講中透露,繼 2017 年 1 月推出英文搜索後,搜狗搜索已在近期推出日文及韓文搜索。同時,搜狗輸入法也將進行功能升級。
  • 【搜索如何維新】搜狗移動搜索中的生活服務
    搜狗搜索 App 介紹在今年 5 月份,搜狗搜索舉行了一場比較盛大的發布會,推出了搜狗搜索客戶端(App)產品。當時主要的產品方向分為三塊:第一塊是多元化的輸入方式,在產品裡面的體現是語音搜索。第二塊是個性化定製,比如首頁上推出的「便利貼」功能。
  • 巨頭搜索爭戰下半場:騰訊收購搜狗,百度怎麼辦?
    2017年,搜狗在美國上市,但在資本市場的表現並不如人意,市值從最初的53億美元跌到如今的32億美元。一大原因是搜狗長期依賴傳統廣告業務,這幾乎佔到搜狗營收的九成。圖/視覺中國雖然躋身行業第二,但搜狗的市場份額和百度差距懸殊。
  • 從好奇心到雄圖:搜狗發布英文搜索
    值得一提的是,這一消息是搜狗CEO王小川通過發布英文演講視頻對外公布的。那麼,上線搜狗英文搜索,究竟對搜狗意味著什麼?又透露了搜狗哪些信息呢?東樓不妨來分析解讀一下:填補國內空白的英文搜索市場首先,搜狗與微軟必應的合作是一個雙贏的選擇。