日前在國家主席習近平和巴西總統迪爾瑪•羅塞夫共同見證下,百度高調推出葡語搜索進軍巴西市場,這是百度繼泰語搜索、阿拉伯搜索後的又一非中文語種搜索。隨後幾天,百度發布超預期的2014年Q2財報,雙重利好引發股價一路飆升,市值已近800億。
百度股價一路飆升,市值市值已近800億。
一名貼近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。
看來,在推出一個又一個新語種搜索後,依靠此前的技術沉澱再結合「土狼」打法,百度勢必將會拿下越來越多的「新大陸」,而這也可能助力百度以更快的速度挺進市值「千億俱樂部」。
新「土狼」打法背後的Rank技術
搜尋引擎是十分複雜的系統,但流程又可一句話說清楚:收錄WEB數據,接入結構化數據,構建索引;理解用戶搜索需求,查詢索引找到一堆結果,排序並進行輸出。
數據處理和用戶需求理解靠的是NLP(自然語言處理)。經過十多年演進百度NLP技術已經處於國際領先水平。而百度WD團隊則負責接入結構化數據、組織全網資源。還有一個關鍵環節並且是離用戶最近的環節同樣十分重要:RANK。
RANK排序是計算機算法裡最重要的分支,也是搜尋引擎最重要的環節。早期搜尋引擎比拼結果集大不大(召回率),響應時間快不快。人類進入信息過載時代後,尤其是移動搜索的崛起則讓搜索結果準不準成為最重要考量。「準」,即結果與用戶需求的相關性。NLP理解用戶需求,WD準備數據,決定結果相關性的是RANK策略。
整個搜尋引擎技術體系就像一支足球隊伍,排兵布陣上需要後衛、中場和前鋒,如果說NLP/WD等部門是後衛和中場,那麼RANK就是前鋒。一場足球比賽的勝利,固然需要後衛們堅固的防守和中場靈巧的組織協調,但是想最終贏得比賽,最需要的還是前鋒的衝鋒陷陣。
作為支撐數億用戶的搜尋引擎,百度RANK策略十分複雜和智能。但要理解RANK並不困難。通過海量參數和權重對不同結果的相關性進行打分,分數高的排前面。參數是文本相似性,語義相關性,用戶特徵,搜索歷史,甚至用戶位置。總之,RANK要做的便是讓最前面的結果最接近用戶彼時的搜索需求。
進軍新語種 RANK的快與準
百度RANK部門為了更好支持國際化,對原有架構進行深度重構,實現了對新語種的即插即用。能做到這點與百度RANK新技術有關。RANK算法本身也在智能化,在國際化這塊RANK部門利用內部代號為LTR的機器學習技術,對排序模型進行改造,包括樣本訓練,樣本數據,本向算法和調優,都進行了深度改造。排序模型則面向不同語種自我進化。
在中文上,百度RANK能夠根據不同用戶、不同位置、不同時間等特性反饋個性化的結果排序,面向場景的RANK技術使得每個用戶在不同結點都能找到自己想要的。譬如用戶平時搜「馬航」,一年前最可能想買馬航的機票,了解航班和折扣信息,現在搜「馬航」,用戶就不大可能是買機票而是看新聞。但是這些例子是不能窮舉的,海量搜索需求對應海量場景,因此百度工程師不可能窮舉每一個場景進行算法優化,只能讓RANK模型自我學習,智能起來。
實際上,百度RANK系統正是深度學習的智能系統,進入一個新語種搜索後,工程師把相關語料訓練好,相關label標註好,放到RANK模型裡自動訓練後相關性效果非常好,在充分考慮國際化的RANK架構支持下,百度中文搜索的一些特有內容已經被集成到最新版的葡語搜索:直接在結果頁展示表單、排序和篩選控制項的知心搜索,直接在結果頁面播放視頻的直達搜索。不同用戶,不同時間,不同場景搜索到的結果都不一定相同,隨需而變。
讓RANK在不同語種下智能化理論上是可行的。百度首席科學家吳恩達曾帶領團隊利用深度學習技術自動識別貓,要用深度學習讓機器理解一門新的語言自然不在話下,目前百度RANK團隊裡沒有葡文,泰文等語言專家,但對應搜索的相關性做得特別好,而RANK能夠繼續生效就在於深度學習排序技術的成功應用。
百度海外土狼戰術鏖戰Google
自從李彥宏在2012年底提出狼性之後,2013年百度種種動作已在體現其狼性文化,而在海外市場上,百度就要做一頭土狼去搶食Google市場份額。土狼戰術被華為證明。華為的國際化採用「農村包圍城市」,先易後難,首先進入香港,然後是俄羅斯。1997年,華為進入非洲市場,緊接著是拉美和東南亞,最後是歐洲腹地和美國,就像中國解放後的外交戰術。現在百度則是先打阿拉伯,泰語和葡語,日後再繼續從「農村」包圍歐美等Google腹地市場。
在五年前百度和谷歌曾在中國正面交鋒。兩個搜尋引擎有著不同思路,百度更重視結構化數據,有阿拉丁計劃,同時強化UGC頻道如知道、百科和貼吧,Google過分信仰和依賴技術導致其對數據和運營的輕視。結果便是百度搜索結果頁面內容更加豐富多元,有直達、知心、百科結果。現在百度搜索結果頁右側則是知識圖譜應用,結合用戶需求和結果數據挖掘相關知識並展示出來,從各種CASE來看百度知識圖譜效果已經比Google更強。這說明百度RANK,WD,NLP等技術團隊已經聯手成功狙擊Google,就算Google不退出中國,就算Google重返中國,依然打不過百度。
百度與Google再次在海外市場狹路相逢,在新語種上百度用類似思路逐個擊破。譬如以知識圖譜為例,巴西百度一方面與大量第三方合作接入結構化數據,另一方面在垂直類目上開展了大量的實體挖掘、清洗和合併工作,這樣在短短的半年時間內便上線了幾十個垂直類目、積累了幾千萬實體數據,從而在實體覆蓋面上將google遠遠甩在了身後。因為Google面向全球市場,自上而下、全面覆蓋。在戰略上鋪得太開只能打大戰,百度則是逐個擊破,是打遊擊戰的土狼思路。在技術上Google傾向於通用方案以低成本,高效率覆蓋,百度則在每個本土市場推出本土化的產品並精耕細作。在運營上尤其是數據運營一直是Google弱項,百度擅長。
即便Google已有先發優勢,百度還是可憑藉著垂直和本土策略攻破一個個海外市場,最終再到英文市場與Google交鋒是大概率事件,那時候兩個搜索巨頭之爭將更加好看。