百度搜索進攻新市場「土狼」打法:RANK技術當尖兵 | 獵雲網

2020-11-27 獵雲網

一名接近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。

日前在國家主席習近平和巴西總統迪爾瑪•羅塞夫共同見證下,百度高調推出葡語搜索進軍巴西市場,這是百度繼泰語搜索、阿拉伯搜索後的又一非中文語種搜索。隨後幾天,百度發布超預期的2014年Q2財報,雙重利好引發股價一路飆升,市值已近800億。

一名接近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。

在推出一個又一個新語種搜索後,依靠此前的技術沉澱再結合「土狼」打法,百度勢必將會拿下越來越多的「新大陸」,而這也可能助力百度以更快的速度挺進市值「千億俱樂部」。

新「土狼」打法背後的Rank技術

搜尋引擎是十分複雜的系統,但流程又可一句話說清楚:收錄WEB數據,接入結構化數據,構建索引;理解用戶搜索需求,查詢索引找到一堆結果,排序並進行輸出。

數據處理和用戶需求理解靠的是NLP(自然語言處理)。經過十多年演進百度NLP技術已經處於國際領先水平。而百度WD團隊則負責接入結構化數據、組織全網資源。還有一個關鍵環節並且是離用戶最近的環節同樣十分重要:RANK。

RANK排序是計算機算法裡最重要的分支,也是搜尋引擎最重要的環節。早期搜尋引擎比拼結果集大不大(召回率),響應時間快不快。人類進入信息過載時代後,尤其是移動搜索的崛起則讓搜索結果準不準成為最重要考量。「準」,即結果與用戶需求的相關性。NLP理解用戶需求,WD準備數據,決定結果相關性的是RANK策略。

整個搜尋引擎技術體系就像一支足球隊伍,排兵布陣上需要後衛、中場和前鋒,如果說NLP/WD等部門是後衛和中場,那麼RANK就是前鋒。一場足球比賽的勝利,固然需要後衛們堅固的防守和中場靈巧的組織協調,但是想最終贏得比賽,最需要的還是前鋒的衝鋒陷陣。

作為支撐數億用戶的搜尋引擎,百度RANK策略十分複雜和智能。但要理解RANK並不困難。通過海量參數和權重對不同結果的相關性進行打分,分數高的排前面。參數是文本相似性,語義相關性,用戶特徵,搜索歷史,甚至用戶位置。總之,RANK要做的便是讓最前面的結果最接近用戶彼時的搜索需求。

進軍新語種 RANK的快與準

百度RANK部門為了更好支持國際化,對原有架構進行深度重構,實現了對新語種的即插即用。能做到這點與百度RANK新技術有關。RANK算法本身也在智能化,在國際化這塊RANK部門利用內部代號為LTR的機器學習技術,對排序模型進行改造,包括樣本訓練,樣本數據,本向算法和調優,都進行了深度改造。排序模型則面向不同語種自我進化。

在中文上,百度RANK能夠根據不同用戶、不同位置、不同時間等特性反饋個性化的結果排序,面向場景的RANK技術使得每個用戶在不同結點都能找到自己想要的。譬如用戶平時搜「馬航」,一年前最可能想買馬航的機票,了解航班和折扣信息,現在搜「馬航」,用戶就不大可能是買機票而是看新聞。但是這些例子是不能窮舉的,海量搜索需求對應海量場景,因此百度工程師不可能窮舉每一個場景進行算法優化,只能讓RANK模型自我學習,智能起來。

實際上,百度RANK系統正是深度學習的智能系統,進入一個新語種搜索後,工程師把相關語料訓練好,相關label標註好,放到RANK模型裡自動訓練後相關性效果非常好,在充分考慮國際化的RANK架構支持下,百度中文搜索的一些特有內容已經被集成到最新版的葡語搜索:直接在結果頁展示表單、排序和篩選控制項的知心搜索,直接在結果頁面播放視頻的直達搜索。不同用戶,不同時間,不同場景搜索到的結果都不一定相同,隨需而變。

讓RANK在不同語種下智能化理論上是可行的。百度首席科學家吳恩達曾帶領團隊利用深度學習技術自動識別貓,要用深度學習讓機器理解一門新的語言自然不在話下,目前百度RANK團隊裡沒有葡文,泰文等語言專家,但對應搜索的相關性做得特別好,而RANK能夠繼續生效就在於深度學習排序技術的成功應用。

百度海外土狼戰術鏖戰Google

自從李彥宏在2012年底提出狼性之後,2013年百度種種動作已在體現其狼性文化,而在海外市場上,百度就要做一頭土狼去搶食Google市場份額。土狼戰術被華為證明。華為的國際化採用「農村包圍城市」,先易後難,首先進入香港,然後是俄羅斯。1997年,華為進入非洲市場,緊接著是拉美和東南亞,最後是歐洲腹地和美國,就像中國解放後的外交戰術。現在百度則是先打阿拉伯,泰語和葡語,日後再繼續從「農村」包圍歐美等Google腹地市場。

在五年前百度和谷歌曾在中國正面交鋒。兩個搜尋引擎有著不同思路,百度更重視結構化數據,有阿拉丁計劃,同時強化UGC頻道如知道、百科和貼吧,Google過分信仰和依賴技術導致其對數據和運營的輕視。結果便是百度搜索結果頁面內容更加豐富多元,有直達、知心、百科結果。現在百度搜索結果頁右側則是知識圖譜應用,結合用戶需求和結果數據挖掘相關知識並展示出來,從各種CASE來看百度知識圖譜效果已經比Google更強。這說明百度RANK,WD,NLP等技術團隊已經聯手成功狙擊Google,就算Google不退出中國,就算Google重返中國,依然打不過百度。

百度與Google再次在海外市場狹路相逢,在新語種上百度用類似思路逐個擊破。譬如以知識圖譜為例,巴西百度一方面與大量第三方合作接入結構化數據,另一方面在垂直類目上開展了大量的實體挖掘、清洗和合併工作,這樣在短短的半年時間內便上線了幾十個垂直類目、積累了幾千萬實體數據,從而在實體覆蓋面上將google遠遠甩在了身後。因為Google面向全球市場,自上而下、全面覆蓋。在戰略上鋪得太開只能打大戰,百度則是逐個擊破,是打遊擊戰的土狼思路。在技術上Google傾向於通用方案以低成本,高效率覆蓋,百度則在每個本土市場推出本土化的產品並精耕細作。在運營上尤其是數據運營一直是Google弱項,百度擅長。

即便Google已有先發優勢,百度還是可憑藉著垂直和本土策略攻破一個個海外市場,最終再到英文市場與Google交鋒是大概率事件,那時候兩個搜索巨頭之爭將更加好看。

作者微博@網際網路阿超,微信SuperSofter

1、獵雲網原創文章未經授權轉載必究,如需轉載請聯繫官方微信號進行授權。

2、轉載時須在文章頭部明確註明出處、保留官方微信、作者和原文超連結。如轉自獵雲網(微信號:

ilieyun

)字樣。

3、獵雲網報導中所涉及的融資金額均由創業公司提供,僅供參考,獵雲網不對真實性背書。

相關焦點

  • 挺近千億俱樂部背後:百度葡語搜索的新「土狼」打法
    一名貼近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。
  • 警報:百度文庫要抄了知乎的後路 | 獵雲網
    而百度文庫新一步的動作就是拉攏專業人士入駐。簡單的問題可以在網上搜索,如果很專業的問題,網際網路上不一定有。同時,在網上搜索永遠面臨一個問題,你不知道到底是對還是不對。」經過2年多的發展,知乎的發展速度遠遠超過了同一時期興起的米飯、煩題網等類似問答社區,已經成為獨立問答社區的老大。「創新工場投資的背景,讓知乎擁有了拉攏業內精英的光環。李開復的名頭是知乎最大的廣告。這比其他網站高帥富多了!」一位業界人士和獵雲網交流是如此點評。
  • 阿里巴巴加碼搜索,巨頭戰場迎來「後浪」夸克 | 獵雲網
    獵雲網註:夸克並不是一個許多人熟知的名字,但如果要知道這樣一個新興搜尋引擎屬於阿里巴巴,事情就會變得有趣得多。文章來源:中國企業家雜誌,作者:王雷生。巨頭之間跨越邊界的競爭總是受人矚目,尤其是發生在阿里巴巴、百度、騰訊、字節跳動這樣的公司之間。自然而然的,夸克搜索被認為是阿里巴巴再度向搜索領域發起的新一輪進攻,正如阿里在過去十年間曾經多次嘗試過的那樣。
  • 小度i耳目,邁出百度智能家居的一小環 | 獵雲網
    獵雲網6月9日報導 (編輯:衛閆森) 猶記得百度剛出的小度攝像頭還不叫小度i耳目,以前的熱門場景分享裡人們也頗大度,場景不少,記得有北京大學,小超市,停車場咖啡廳,貌似還有幾個家庭也加入了分享。
  • PageRank系列之二:PageRank算法和Google搜索
    看了第一章《 Pagerank 的歷史》,大家應該知道了 PageRank 的由來,聽過了 PageRank 是怎麼在 Larry Page 和 Sergey Brin 的努力下誕生的。  今天 Google PageRank 是什麼第二章,我會開始帶著大家一起初步認識 PageRank 和 Google 搜索結果,看看 Pagerank 的原理。
  • 搜索=未來?百度搜索82.8%的市場佔比未來想像空間在哪?
    從報告中,可以清晰地勾勒出目前國內搜索市場的競爭格局和發展態勢。首先,在整體搜索市場方面,最近兩個月,百度的市場份額分別為80.6%和82.8%,穩中有升,進一步鞏固了其在搜索市場唯一領導品牌的地位,而且百度近兩個月使用率分別達高達98.5%、9.1%,幾乎實現網民的全覆蓋。
  • 中國十大科技巨頭企業人工智慧領域動態 | 獵雲網
    儘早布局AI領域,就能優先佔領更大的市場,本文梳理了國內網際網路科技巨頭們在人工智慧領域的七月動態,原文如下:目前中國在人工智慧領域的核心技術及產業創新都面臨著良好的發展機遇,有些技術甚至已居世界首位,例如語音識別技術和人臉識別技術。在網際網路圈子裡,有一句話流傳甚廣:得人工智慧者得天下。
  • 百度小輸當贏,360小贏當輸-虎嗅網
    打法篇百度百度在這場大戰中,因為是流量損失方,所以針對360搜索進行了強力的反擊,打法頗具有進攻性,主要的戰法包括:●通過自有的社區產品(百科、知道、貼吧、文庫等)進行防禦,先是對來自於360的流量全部加上提示,建議使用百度搜索,此後更是直接跳轉至首頁。
  • 3B大戰第一回合:百度小輸當贏,360小贏當輸
    打法篇  百度  百度在這場大戰中,因為是流量損失方,所以針對360搜索進行了強力的反擊,打法頗具有進攻性,主要的戰法包括:  ●通過自有的社區產品(百科、知道、貼吧、文庫等)進行防禦,先是對來自於360的流量全部加上提示,建議使用百度搜索,此後更是直接跳轉至首頁。
  • 晚報:蘋果起訴愛立信,學習寶、點融網等獲融資 | 獵雲網
    學習寶、點融網、一品一家、Sensbeat、Dicoding、Instacart獲融資。印度餐館搜索巨頭5000萬美元現金收購美國對手。美工藝品網絡賣場Etsy將IPO。東航攜手微軟推出國內首個人工智慧航班。傳5寸屏魅藍新機僅售599元。
  • 【獵雲早報】字節跳動上線兩款新品;攜程境外打車與百度地圖合作...
    攜程境外打車與百度地圖合作「一鍵打車」攜程境外打車宣布與百度地圖達成戰略合作,上線「一鍵打車」功能。截止到目前,攜程境外打車已在百度地圖全球56個國家,886個城市中覆蓋。攜程境外打車一站式整合了Grab等境外主流打車的平臺,攜程方面表示,2019年暑期打車訂單環比增長192%,同比去年增長385%。
  • 新加坡10大「不差錢」網際網路創業公司 | 獵雲網
    就隨獵雲網編輯君一起來看看新加坡十大資金雄厚的公司吧! 獵雲網3月5日報導  (編譯:圈圈)獵雲網註:新加坡,亞洲初創企業的首選之地,融資環境的優越,讓企業的發展勁頭十足。
  • 2016開啟人工智慧元年,改變人類社會的變革正發生 | 獵雲網
    而谷歌利用人工智慧已經成熟的技術,利用現代科技提供的龐大計算能力,利用網際網路提供的圍棋大數據,把傳統的蒙特卡洛樹搜索與深度學習結合,擊敗了人類的頂級高手。雲計算、大數據、積層神經網絡、深度學習帶來的人工智慧飛躍震撼性的顯露在大眾面前。人們突然發現,科幻片中的場景突然變得不再科幻,而是觸手可及。
  • 高榕資本副總裁鍾南海確認出席NFS2020年度CEO峰會暨獵雲網創投...
    2020年12月2日到4日,NFS2020年度CEO峰會暨獵雲網創投頒獎盛典(New Force Summit新勢力品牌峰會)在北京柏悅酒店舉行。  【獵雲網(微信:ilieyun)北京】11月27日報導(文/盛佳瑩)  2014年首次提出「雙創」,創業浪潮之下,很多中小公司如雨後春筍般湧現。中國網際網路也正從「上半場」走向網際網路與實體經濟融合的「下半場」。一批優秀創業者,正通過技術創新、模式創新以及產業融合創新,孕育偉大企業。
  • 「克魯」帶給你社交新體驗 | 獵雲網
    【獵雲網成都】7月9日報導(文/溫雨桐)克魯是一款基於地理位置的LBS信息分享類社交應用。你可能會想,現在市場上基於LBS社交應用太多了,能有什麼「新東西」?
  • 鑽石小米:主打「F2F」概念,做一個有溫度的網際網路鑽石品牌 | 獵雲網
    獵雲網了解,團隊的成員主要為90後,經過對鑽石行業的深度分析,用網際網路的思維建立一套新的營銷模式,並將在以眾籌的模式拓展到全國各大城市。很顯然,隨著鑽石的普及,過去大家的所認為的奢侈品,已經變為了必需品。現在市面上鑽石的銷售模式主要有兩種,像謝瑞麟、周大福、周生生等大家耳熟能詳的老字號珠寶首飾招牌和一些出自鑽石小鳥、九鑽、戴維尼等網際網路渠道。
  • 百度「學術搜索」功能上線
    百度「學術搜索」功能上線 記者日前發現,百度悄然上線了「學術搜索」功能,通過與萬方數據知識服務平臺、維普諮詢網等多家國內領先的學術數據提供商合作,收錄上千萬篇學術論文,藉助百度領先的「框計算」技術和數據開放平臺
  • 搜索營銷仍被看好,人工智慧成為百度推廣加速動能
    而在運營商市場收入份額中,百度佔比26.9%同樣位居第一,阿里巴巴23%和騰訊9.1%分別位居二三位。搜索仍是網際網路營銷首要入口從易觀數據可以看出,儘管各類app和社交化廣告造成的衝擊不小,但關鍵字廣告仍然是網際網路廣告市場的「硬通貨」。
  • 「搜索大戰」 字節跳動能撼動百度嗎?
    近日,字節跳動訴百度一審獲賠50萬元,百度表示將提起上訴。12月2日,字節跳動副總裁李亮通過個人頭條號上發文稱百度涉嫌做偽證。兩大網際網路公司已多次對簿公堂,而雙方對搜索市場的爭奪已趨於白熱化。   最終法院判定百度勝訴,責令被告北京淘友天下科技發展有限公司向原告北京百度網訊科技有限公司賠償經濟損失40萬元和合理支出4萬元,被告北京字節跳動科技有限公司就上述經濟損失中的10萬元及合理開支中的1萬元與被告北京淘友天下科技發展有限公司承擔連帶賠償責任。   焦點:百度和字節跳動正面較量   頻頻法律官司的背後,是兩大網際網路巨頭對搜索市場的激烈爭奪。
  • 百度出海那些年:「感覺錯過了一個時代」
    2006年,百度迎來了最大對頭:Google搜索進入中國,並勢如破竹,到2009年底就佔據了中國網際網路搜索流量的三分之一。 李彥宏所指的「和Google真槍真刀地PK」,就是從這時候開始的。在Google的強勢進攻之下,百度啟動了國際業務,試圖在海外和Google一爭高下。