挺近千億俱樂部背後:百度葡語搜索的新「土狼」打法

2020-12-05 TechWeb

日前在國家主席習近平和巴西總統迪爾瑪•羅塞夫共同見證下,百度高調推出葡語搜索進軍巴西市場,這是百度繼泰語搜索、阿拉伯搜索後的又一非中文語種搜索。隨後幾天,百度發布超預期的2014年Q2財報,雙重利好引發股價一路飆升,市值已近800億。

百度股價一路飆升,市值市值已近800億。 

一名貼近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。

看來,在推出一個又一個新語種搜索後,依靠此前的技術沉澱再結合「土狼」打法,百度勢必將會拿下越來越多的「新大陸」,而這也可能助力百度以更快的速度挺進市值「千億俱樂部」。

新「土狼」打法背後的Rank技術

搜尋引擎是十分複雜的系統,但流程又可一句話說清楚:收錄WEB數據,接入結構化數據,構建索引;理解用戶搜索需求,查詢索引找到一堆結果,排序並進行輸出。

數據處理和用戶需求理解靠的是NLP(自然語言處理)。經過十多年演進百度NLP技術已經處於國際領先水平。而百度WD團隊則負責接入結構化數據、組織全網資源。還有一個關鍵環節並且是離用戶最近的環節同樣十分重要:RANK。

RANK排序是計算機算法裡最重要的分支,也是搜尋引擎最重要的環節。早期搜尋引擎比拼結果集大不大(召回率),響應時間快不快。人類進入信息過載時代後,尤其是移動搜索的崛起則讓搜索結果準不準成為最重要考量。「準」,即結果與用戶需求的相關性。NLP理解用戶需求,WD準備數據,決定結果相關性的是RANK策略。  

整個搜尋引擎技術體系就像一支足球隊伍,排兵布陣上需要後衛、中場和前鋒,如果說NLP/WD等部門是後衛和中場,那麼RANK就是前鋒。一場足球比賽的勝利,固然需要後衛們堅固的防守和中場靈巧的組織協調,但是想最終贏得比賽,最需要的還是前鋒的衝鋒陷陣。

作為支撐數億用戶的搜尋引擎,百度RANK策略十分複雜和智能。但要理解RANK並不困難。通過海量參數和權重對不同結果的相關性進行打分,分數高的排前面。參數是文本相似性,語義相關性,用戶特徵,搜索歷史,甚至用戶位置。總之,RANK要做的便是讓最前面的結果最接近用戶彼時的搜索需求。

進軍新語種 RANK的快與準

百度RANK部門為了更好支持國際化,對原有架構進行深度重構,實現了對新語種的即插即用。能做到這點與百度RANK新技術有關。RANK算法本身也在智能化,在國際化這塊RANK部門利用內部代號為LTR的機器學習技術,對排序模型進行改造,包括樣本訓練,樣本數據,本向算法和調優,都進行了深度改造。排序模型則面向不同語種自我進化。

在中文上,百度RANK能夠根據不同用戶、不同位置、不同時間等特性反饋個性化的結果排序,面向場景的RANK技術使得每個用戶在不同結點都能找到自己想要的。譬如用戶平時搜「馬航」,一年前最可能想買馬航的機票,了解航班和折扣信息,現在搜「馬航」,用戶就不大可能是買機票而是看新聞。但是這些例子是不能窮舉的,海量搜索需求對應海量場景,因此百度工程師不可能窮舉每一個場景進行算法優化,只能讓RANK模型自我學習,智能起來。 

實際上,百度RANK系統正是深度學習的智能系統,進入一個新語種搜索後,工程師把相關語料訓練好,相關label標註好,放到RANK模型裡自動訓練後相關性效果非常好,在充分考慮國際化的RANK架構支持下,百度中文搜索的一些特有內容已經被集成到最新版的葡語搜索:直接在結果頁展示表單、排序和篩選控制項的知心搜索,直接在結果頁面播放視頻的直達搜索。不同用戶,不同時間,不同場景搜索到的結果都不一定相同,隨需而變。

讓RANK在不同語種下智能化理論上是可行的。百度首席科學家吳恩達曾帶領團隊利用深度學習技術自動識別貓,要用深度學習讓機器理解一門新的語言自然不在話下,目前百度RANK團隊裡沒有葡文,泰文等語言專家,但對應搜索的相關性做得特別好,而RANK能夠繼續生效就在於深度學習排序技術的成功應用。 

百度海外土狼戰術鏖戰Google

自從李彥宏在2012年底提出狼性之後,2013年百度種種動作已在體現其狼性文化,而在海外市場上,百度就要做一頭土狼去搶食Google市場份額。土狼戰術被華為證明。華為的國際化採用「農村包圍城市」,先易後難,首先進入香港,然後是俄羅斯。1997年,華為進入非洲市場,緊接著是拉美和東南亞,最後是歐洲腹地和美國,就像中國解放後的外交戰術。現在百度則是先打阿拉伯,泰語和葡語,日後再繼續從「農村」包圍歐美等Google腹地市場。     

在五年前百度和谷歌曾在中國正面交鋒。兩個搜尋引擎有著不同思路,百度更重視結構化數據,有阿拉丁計劃,同時強化UGC頻道如知道、百科和貼吧,Google過分信仰和依賴技術導致其對數據和運營的輕視。結果便是百度搜索結果頁面內容更加豐富多元,有直達、知心、百科結果。現在百度搜索結果頁右側則是知識圖譜應用,結合用戶需求和結果數據挖掘相關知識並展示出來,從各種CASE來看百度知識圖譜效果已經比Google更強。這說明百度RANK,WD,NLP等技術團隊已經聯手成功狙擊Google,就算Google不退出中國,就算Google重返中國,依然打不過百度。

百度與Google再次在海外市場狹路相逢,在新語種上百度用類似思路逐個擊破。譬如以知識圖譜為例,巴西百度一方面與大量第三方合作接入結構化數據,另一方面在垂直類目上開展了大量的實體挖掘、清洗和合併工作,這樣在短短的半年時間內便上線了幾十個垂直類目、積累了幾千萬實體數據,從而在實體覆蓋面上將google遠遠甩在了身後。因為Google面向全球市場,自上而下、全面覆蓋。在戰略上鋪得太開只能打大戰,百度則是逐個擊破,是打遊擊戰的土狼思路。在技術上Google傾向於通用方案以低成本,高效率覆蓋,百度則在每個本土市場推出本土化的產品並精耕細作。在運營上尤其是數據運營一直是Google弱項,百度擅長。

即便Google已有先發優勢,百度還是可憑藉著垂直和本土策略攻破一個個海外市場,最終再到英文市場與Google交鋒是大概率事件,那時候兩個搜索巨頭之爭將更加好看。

相關焦點

  • 百度搜索進攻新市場「土狼」打法:RANK技術當尖兵 | 獵雲網
    一名接近葡語搜索的百度攻城獅告訴筆者,我們用的是「土狼」打法,現在百度從數據收錄到效果驗證,只需3到4周便可推出一款新語種搜尋引擎,阿拉伯、泰語和葡語之後,百度可快速且用很少資源推出更多外文搜索或者少數民族語言搜索。
  • 百度復工搜索大數據:多行業透露結構性機會 「新基建」背後是數字...
    3月6日,百度發布復工搜索大數據報告,該報告不僅反映了各行業復工狀態,更反映了當前國內社會的變化趨勢、「疫」後產業發展趨勢,為經濟發展提供決策依據。百度復工搜索大數據顯示,近階段來房地產、裝修、旅遊和酒店的搜索熱度出現了明顯的下滑,受疫情衝擊較大。
  • 百度「學術搜索」功能上線
    有業內專家表示,隨著網際網路信息的不斷增加,網民的搜索需求越發顯示出個性化和精細化的特點,為此百度深耕出細分搜索類目,並將其融合於大網頁搜索之中,從而最便捷地滿足了廣大網民的專業個性搜索需求。在百度搜索頁面下,會針對用戶搜索學術內容的兩類需求精確查詢需求和泛查詢需求,呈現最恰當的展現形式。
  • 百度發布全民讀書搜索大數據報告:90後一邊熬夜一邊搜索養生類書籍
    閱讀之後,人們又有哪些有趣的搜索行為?近日,百度APP聯合人民日報數字傳播《有數青年》工作室發布的《百度全民讀書搜索大數據報告》(以下簡稱「報告」)顯示,疫情宅家使網友閱讀需求激增,近90天,日均超2300萬人次在百度搜索書籍相關內容,累計超21億人次,圖書類智能小程序日活躍用戶環比增長55%,讀書、購書線上化再進一步。
  • 百度移動生態服務化戰略背後的用商一體邏輯
    移動生態事業群(MEG)成立後,百度在搜索的基礎上,進一步提出了人格化和服務化兩大戰略,在移動端重塑內容生態,並探索搜索之外的邊界。2020年5月,沈抖在接受界面新聞採訪時稱,上任之後,沒有太多的精力顧及新產品,而更多的是對現有產品的梳理和整合。沈抖提出的人格化和服務化,指向的是深化百度移動生態各個業務閉環,這是完善百度流量生態的關鍵。
  • 外援經紀人任松江葡語翻譯 對足球理解能力突出
    與其他球隊的翻譯不同,這名新翻譯還是松江隊目前三名外援的經紀人。  本賽季初,天津松江隊引進的三名外援全部來自於葡萄牙語地區,而通過半個賽季的觀察,俱樂部感覺這三名外援與翻譯之間的溝通並不十分順暢,這也在一定程度上影響到這幾名外援的發揮。昆明夏訓期間,作為經紀人,巴西人龐貝兒帶領著新外援盧西奧來到了球隊。由於當時隊內的葡語翻譯已經離隊,龐貝兒就暫時擔任起球隊翻譯的工作。
  • 從百度筷搜看搜索的未來
    記得在一年多前,Google 推出了一款叫做「Google 靈鼻子」的服務,比如搜索「蘋果」的時候,點擊「聞一聞」按鈕就能聞到蘋果的香味,而背後支撐它的是 Google 百味庫所收集的超過千萬個氣味單元。聽到這是不是想立刻試一試?不過,這是 Google 在愚人節給大家開的一個玩笑。
  • 這些公司有望邁入千億市值俱樂部
    給大家展示一組數據:兩市1000億市值以上的股票約144隻,今天上漲概率68.05%,本周上漲概率75.34%,近30天上漲概率63.88%。500-1000億市值的股票約146隻,今天上漲概率58.21%,本周上漲概率67.12%,近30天上漲概率66.4%。
  • 《明日方舟》晶片搜索有什麼打法 晶片搜索打法攻略
    導 讀 明日方舟晶片搜索是遊戲中十分重要的副本,玩家想要精英化自己的角色需要大量的晶片素材,那麼就只能夠通過晶片搜索來獲取了,那麼究竟如何才能夠順利地通關晶片搜索這一關呢
  • 剛剛在百度搜索蜘蛛俠 發現了智能小程序的一個新動作
    百度智能小程序又有了新動作!近日,記者發現,在百度App搜索「蜘蛛俠」,出現了「在線選座購票」的服務。點擊進入後可以看出,「在線選座購票」主要是將愛藝奇票務、貓眼、淘票票等票務類智能小程序,以同一服務的形式聚合到了一起,而價格優惠的智能小程序則會被優先推薦,這也讓用戶免去了比價的煩惱。
  • 2020百度沸點,10億網民搜索大數據鑄就權威社會風向標
    2008年,百度沸點推出十大金曲、年度娛樂圈最熱明星,反應大眾對娛樂的關注。「但隨著項目的進行,關注和參與的網友越來越多,我們也越來越意識到在百度搜索數據的背後,不單單只是一次次普通的搜索行為。每一次搜索的發生,都代表著一個個鮮活的個體行為。他們不僅關心娛樂,更關心社會民生。」尹英利說。
  • 我的搜索年終盤點是什麼哪裡看? 百度答案2020搜索帳單入口一覽
    【我的搜索年終盤點】近日,一則「我的搜索年終盤點」消息引網上關注。據悉,百度2020沸點個人搜索年終盤點(又名答案2020)正式發布。我的搜索年終盤點據悉,與冷冰冰的大數據不同,答案2020完全基於網民自己的搜索數據:每一次搜索的背後都承載著一份好奇,網友既是在看帳單,也是在喚醒2020年的搜索記憶。
  • 搜索=未來?百度搜索82.8%的市場佔比未來想像空間在哪?
    從報告中,可以清晰地勾勒出目前國內搜索市場的競爭格局和發展態勢。首先,在整體搜索市場方面,最近兩個月,百度的市場份額分別為80.6%和82.8%,穩中有升,進一步鞏固了其在搜索市場唯一領導品牌的地位,而且百度近兩個月使用率分別達高達98.5%、9.1%,幾乎實現網民的全覆蓋。
  • 百度學術搜索 真正懂學生的搜索
    而學術搜索這一專業的搜索產品,目標用戶定位非常明確,那就是奮戰在科研一線的老師和學生。為使產品更貼合用戶需求,日前,百度在全國範圍內的高校中發起了百度學術搜索體驗計劃。來自於全國不同高校不同專業的眾多青年教師、博士和碩士研究生給出了積極的反饋和建議,百度學術搜索團隊也將根據這些意見和建議進一步進行產品優化。
  • 「搜索大戰」 字節跳動能撼動百度嗎?
    近日,字節跳動訴百度一審獲賠50萬元,百度表示將提起上訴。12月2日,字節跳動副總裁李亮通過個人頭條號上發文稱百度涉嫌做偽證。兩大網際網路公司已多次對簿公堂,而雙方對搜索市場的爭奪已趨於白熱化。   百度:將提起上訴   11月30日,因人為幹預搜索結果、在搜索頁面詆毀今日頭條,百度網訊科技有限公司被北京市海澱區法院一審判決構成商業詆毀不正當競爭。法院責令百度立即停止上述不正當競爭行為,賠償原告北京字節跳動科技有限公司經濟損失和合理維權費用50萬元,並在其官網和客戶端顯著位置刊登聲明為原告消除影響。
  • 百度攜多家網站 致力開闢學術搜索領域
    有業內專家表示,隨著網際網路信息的不斷增加,網民的搜索需求越發顯示出個性化和精細化的特點,為此百度深耕出細分搜索類目,並將其融合於大網頁搜索之中,從而最便捷地滿足了廣大網民的專業個性搜索需求。  在百度搜索頁面下,會針對用戶搜索學術內容的兩類需求——精確查詢需求和泛查詢需求,呈現最恰當的展現形式。
  • 土狼到底是個啥?
    電影中有一群經典反派被叫做「土狼」的,按照電影中的臺詞就是一群「留著口水,四處晃蕩的傻瓜」,當時腦子裡就蹦出一個問題:「土狼到底是個啥?」當想到這個問題的時候開始在腦子裡搜索我知道的非洲動物,第一個想到的就是有著「非洲二哥」稱號的斑鬣狗,這貨長這樣~~~~~~~~~      是不是生就一副猥瑣的小樣,別看長得不行,地位可不低呢。
  • 曲線救國,旁敲側擊:搜狗、360、新浪搜索「三英」戰百度
    潛心打磨近兩年後,前谷歌中國工程研究院副院長劉駿創辦的云云網今日正式上線。去年底內測的搜狗「探索引擎」將成為「第二支箭」,它將搜索和瀏覽器結合起來,用戶無需輸入關鍵詞即可自動獲取可能感興趣的信息,搜狗將以此試水現有搜尋引擎無法覆蓋的 61% 的網際網路廣告市場。「第三支箭」則是在引人矚目的移動網際網路市場,搜狗正在秘密研發一款革命性新產品。當時的王小川並沒有透露「第三支箭」是什麼,不過很有可能就是在11月26日公布的「搜狗語音搜索」應用。
  • 最高效搜索?100%網際網路手機百度雲搜索評測
    這樣一款高性價比的用機,搭載百度雲系統,能否將百度最大的優勢——搜索,表現出來呢?下面小編針對「搜索」這一個功能,對100%網際網路手機展開深入體驗與評測。1、更佳的用戶體驗:更利於手機的使用習慣在電腦上輸入百度網址進行關鍵詞搜索非常方便。但是在手機上,不僅僅面臨大量時候單手操作的問題,還要面臨尋找搜索入口的問題。
  • 百度攜手多家學術數據網站開闢學術搜索領域
    有業內專家表示,隨著網際網路信息的不斷增加,網民的搜索需求越發顯示出個性化和精細化的特點,為此百度深耕出細分搜索類目,並將其融合於大網頁搜索之中,從而最便捷地滿足了廣大網民的專業個性搜索需求。在百度搜索頁面下,會針對用戶搜索學術內容的兩類需求——精確查詢需求和泛查詢需求,呈現最恰當的展現形式。