【BDTC先睹為快】百度沈國龍:BML百度大規模機器學習雲平臺實踐

2021-01-15 CSDN技術社區

為了更好幫助企業深入了解國內外最新大數據技術,掌握更多行業大數據實踐經驗,進一步推進大數據技術創新、行業應用和人才培養,2015年12月10-12日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協辦的2015中國大數據技術大會(Big Data Technology Conference 2015,BDTC 2015)將在北京新雲南皇冠假日酒店隆重舉辦。

2015中國大數據技術大會

BDTC 2015將為期三天,在大會主會之外,擬設立16個分論壇,包括資料庫、深度學習、推薦系統、安全等6大技術論壇,金融、製造業、交通旅遊、網際網路、醫療健康、教育、網絡通訊等7大應用論壇,以及政策法規和標準化、數據市場及交易、社會治理等3大熱點議題論壇,將邀請近100位國外大數據技術領域頂尖專家與一線實踐者,深入討論Spark、Kudu、PosgreSQL-X2、YARN、HBase、機器學習/深度學習、推薦系統等熱門技術及行業實踐。

在推薦系統論壇,本次大會邀請到了百度基礎架構部高級架構師沈國龍擔任演講嘉賓,進行題為「 BML百度大規模機器學習雲平臺實踐」的主題演講,分享百度機器學習平臺BML的底層框架實現,包括框架演進、算法研究過程等,以及在不同的業務場景下是如何應用這些算法。

沈國龍在接受CSDN的會前採訪中表示,大數據其實是一個綜合學科,開發者需要具備多方面的知識儲備才能勝任。從最基礎的多線程、分布式,到微積分、統計、機器學習理論、算法知識、算法調優經驗,更重要的是對行業的理解,才能讓大數據成功的落地。

對於推薦系統,他認為,覆蓋率、置信度、差異性、採納率、新穎性、隱私性、預測Auc、NDCG、收入波動等,都是考核一個推薦系統的指標。同時冷啟動、模型迭代速度、AB test等也是系統成敗的關鍵。

他還透露,深度學習、在線學習都是他的團隊最近在研究的方向。前者比經典算法在特徵組合和模型表徵上有很大的優越性,更適用於數據維度越來越多的當下,後者主要是為了解決模型迭代速度,使最新的數據更快更好的反映到模型中。同時,他還關注在不同行業數據中,算法的組合應用如何取得最好的效果。

沈國龍

百度基礎架構部高級架構師

沈國龍,百度基礎架構部技術經理、高級架構師。有多年大數據、商業智能、機器學習的研發經驗,在廣告、推薦等業務領域有深厚的知識積累。先後負責百度大規模機器學習算法平臺BML、分布式計算框架ELF、百度深度學習平臺Paddle等的設計研發,在提升機器學習算法分布式計算規模和效率的同時,這個產品組合支持了百度所有重要部門的機器學習需求,先後成功上線上百個智能應用。作為技術負責人參與了百度廣告系統大規模模型訓練、廣告觸發、百度搜索結果排序、移動雲渠道反作弊等戰略級核心項目,取得了巨大的收益。同時擔任百度開放雲大數據解決方案架構師,為合作夥伴提供廣告、推薦系統、自然語言處理等領域的專業技術支持。

以下為沈國龍採訪實錄:

CSDN:請介紹一下您的工作,以及大數據、推薦系統對公司業務的價值。

沈國龍:我的工作有兩個方向,一是大規模機器學習平臺的建設和業務支持,包括框架、算法、平臺的設計和開發,特定業務場景的模型訓練和調優等;二是為百度開放雲的用戶提供大數據解決方案和相關產品。

百度擁有海量的用戶和流量,任何產品都會面臨到大數據的問題。如何使用好大數據,並構建出優秀的轉化率模型、推薦系統等智能應用,是決定產品成敗的關鍵。百度最重要的搜索和廣告業務,都需要大數據的支撐,優化搜索結果和廣告的排序,也屬於廣義上推薦系統的範疇。所以我們是非常重視相關的系統建設,也做了非常多的創新。

CSDN:能否介紹您在項目實施中曾使用過哪些大數據技術?您對這些技術滿意的地方和不滿意的地方分別有什麼?

沈國龍:作為百度的基礎架構部門,在優秀大數據的技術上都有投入,比如hadoop、spark、MPI,我們的規模都做到了世界領先。還有自研的一些大數據計算框架,比如處理流式數據的Dstream、TM,機器學習的計算框架ELF等等。這些產品和技術是我們處理大數據必備的。我對這些產品的性能和易用性都很滿意,利用百度的這套系統,可以很容易的處理各種大數據問題,搭建服務。

CSDN:能否分別從軟體、硬體、開發者的角度談談,大數據在您的行業落地目前主要面臨哪些挑戰?

沈國龍:大數據雖然聽起來很美,但要落地有很多的問題。硬體成本高,是很多初創公司面臨的首要難題。搭建一套從原始數據處理,到數據分析,再到模型訓練、調研,最後到模型上線和迭代,需要大量的存儲和計算資源,對於初創企業,自建IDC實施和運維,是非常昂貴的。軟體層面的問題相反,是開源社區特別活躍,各種工具層出不窮,選擇成了最大的難題,要付出很大的學習成本,並且要承擔日後數據量更大之後系統全面推倒升級的風險。大家現在基本都會選擇雲作為解決方案,百度開放雲也提供了整套的大數據產品組合。大數據其實是一個綜合學科,開發者需要具備多方面的知識儲備才能勝任。從最基礎的多線程、分布式,到微積分、統計、機器學習理論、算法知識、算法調優經驗,更重要的是對行業的理解,才能讓大數據成功的落地。

CSDN:評估一個推薦系統好壞的指標有哪些?技術人員容易犯哪些錯誤導致推薦系統實踐的失敗?

沈國龍:指標有很多,比如覆蓋率、置信度、差異性、採納率、新穎性、隱私性、預測Auc、NDCG、收入波動等,都是考核一個推薦系統的指標。同時冷啟動、模型迭代速度、AB test等也是系統成敗的關鍵。所以技術人員不能夠認為推薦系統只需要一個auc不錯的模型就夠了,這是一個非常複雜的系統,要以最終的收入指標為準,做完備的AB測試才能夠逐步把系統調節到最優的效果。

CSDN:針對您所在的行業,哪些大數據技術、推薦算法是您目前主要觀察和研究的,您為什麼看好這些技術?

沈國龍:深度學習、在線學習都是我們最近在研究的方向。深度學習作為機器學習現在最熱門的方向,比經典算法在特徵組合和模型表徵上有很大的優越性,在數據維度越來越多的情況下,深度學習更能勝任。當然計算複雜度和模型調優的難度也隨之上升。在線學習主要是為了解決模型迭代速度,使最新的數據更快更好的反映到模型中。同時我們也在關注在不同行業數據中,算法的組合應用如何取得最好的效果。

CSDN:請談談您在這次大會上即將分享的話題。

沈國龍:我會分享百度機器學習平臺BML的底層框架實現,包括我們的計算框架演進的歷史、最新的ELF有哪些特點、算法的研發過程等等。另外,重點講我們在不同的業務場景下是如何應用這些算法,最終達成業務目標,算是一個案例講解。相信能給大家帶來一些啟發。

CSDN:哪些聽眾最應該了解這些話題?您所分享的主題可以幫助聽眾解決哪些問題?

沈國龍:基礎架構的架構師,算法開發人員,數據分析師,產品運營人員,都可以了解這些知識。這可以幫助聽眾對機器學習在企業內如何落地有一定認識,並且了解大數據現在的主流趨勢,對未來的開發和決策都有幫助。

CSDN:能否談談您對BDTC2015、其他的講師分享的話題有什麼期待?

沈國龍:希望能夠了解下如火如荼的大數據和人工智慧創業公司,是如何解決技術和行業應用之間的gap的。

90+位講師,16大分論壇,Databricks公司聯合創始人、Apache Spark首席架構師辛湜,Hadoop、HBase和Thrift項目的PMC成員和Committer、Kudu的發明人Todd Lipcon等海外專家將親臨2015中國大數據技術大會。餘票已然不多,預購從速。 

相關焦點

  • 百度祝恆書:百度智能招聘技術和應用實踐
    2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。百度祝恆書帶來報告《百度智能招聘技術和應用實踐》。它已經在百度有了非常廣泛的應用,百度大腦當中的生態合作夥伴提供了相關的DEMO展示和開放能力的輸出,同時在百度內部的招聘系統,比如內推產品當中也都得到使用,同時百度自己的招聘平臺就是面向社會招聘、校園招聘的平臺也得到了應用。之後,祝恆書博士介紹了智能化的筆試和面試評估技術。
  • 護航百度大腦 百度AI安全版圖亮相百度世界大會2020
    眾所周知,隨著萬物互聯和大規模智能協作的逐漸深入,人類正在進入一個經濟深度智能化的發展階段。作為其中的核心議題,AI在安全方面的諸多挑戰不僅關係到整個AI體系的穩定可靠,直接影響到AI算力、算法和數據的落地應用,也為相應的安全能力建設提出了新的要求與新的思維方式。
  • 容器生態再進一步,百度智能雲正式支持Rancher Kubernetes平臺
    2019年8月21日,技術領先的雲計算服務平臺百度智能雲與全球領先的容器管理軟體提供商Rancher Labs正式宣布達成官方戰略合作,在Rancher開源版(v2.2.5及以上版本)和企業版中正式集成百度智能雲集群驅動。
  • 乾貨速遞,百度BML自動超參搜索技術原理揭秘與實戰攻略!
    百度全功能AI開發平臺BML帶著免費算力額度與自動超參搜索能力來了!  先來介紹百度最近全新升級的BML,何方神聖?  全功能AI開發平臺BML(Baidu Machine Learning) ,是為企業和個人開發者提供機器學習和深度學習一站式AI開發服務,並提供高性價比的算力資源,助力企業快速構建高精度AI應用。
  • 百度開放雲更名百度雲 為啥正好選擇在了雲計算十年?
    昨日,百度雲計算業務宣布了品牌升級的公告,原百度開放雲正式更名為「百度雲」,面向企業服務。  掐指一算,今年不正是雲計算提出的第十個年頭嗎?作為雲計算這局棋的重量級玩家,百度雲的品牌發展歷程,其實也正演繹了雲計算十年的變化。不過在這十年中,雲計算習得了不少「變形計」,其內涵發生了重要的改變,甚至超越了最初人們對於雲計算的認知。
  • 「被錯過的天堂」與百度雲開發者平臺的故事
    在日前成功落幕的百度世界2012上,百度雲正式對外發布了面向開發者的「七種武器」,包括百度個人云存儲、百度移動雲測試中心、百度應用引擎等。事實上,已經有一批應用開發商率先享受到了百度云為開發者帶來的工具和服務。《被錯過的天堂》是由創業團隊3000GAME製作的一款逃出類解謎遊戲,很詭異的情節跟手繪畫風是它的特點,遊戲採用flash製作。
  • 智能計算全景圖,背後是百度智能雲的「to B」雄心
    進軍2B,百度智能雲實踐出基因在業界一直有一種所謂的「2B」基因論,主要是說網際網路這批從2C起家的公司,缺乏2B的基因,但在比筆者看來,任何基因都源自市場規則,2B自然有2B市場的運行規則,我們可以來分析一下百度智能雲與2B的距離到底遠不遠?
  • 百度發布全自研崑崙雲伺服器等智能計算領域20個新品
    鞭牛士 8月29日消息,今日百度在「ABC SUMMIT 2019百度雲智峰會」上,發布了智能計算領域20個新品:百度崑崙雲伺服器、CDN邊緣計算節點BEC、邊緣AI伺服器、彈性裸金屬伺服器、GPU虛擬化實例、容器實例BCI、歸檔存儲、主機安全企業版、雲顧問Cloud Advisor、百度機器學習BML4.0、邊緣函數CfC@Edge、雲原生微服務應用平臺、效率雲、邊緣融合解決方案
  • 百度AI的2020
    百度發布了國內首個雲原生量子計算平臺量易伏 Quantum Leaf,提供 QCompute 等量子開發套件,縮短量子編程全生命周期,實現量子工具鏈閉環;此外,量子脈衝計算服務量脈 Quanlse、量子機器學習工具集量槳 Paddle Quantum 全面升級,構建起百度量子平臺為核心的量子生態,開啟屬於中國的量子時代。
  • 華為如何退出百度雲盤登錄不了_華為雲計算ie 培訓 百度雲 - CSDN
    包括大數據計算、數據可視化、大數據搜索與分析、數據開發、大數據應用等在內的大數據系列產品,包括智能語音交互、圖像搜索、自然語言處理、印刷文字識別、人臉識別、機器翻譯、圖像識別、視覺計算、內容安全、機器學習平臺、城市大腦開放平臺等在內的人工智慧(AI)系列產品,阿里雲均有不同程度的「建樹」。另外,企業應用、物聯網應用、開發與運維工具服務......阿里雲也都有所深耕。
  • 百度智能雲過去一年收入增長兩倍,全行業首發」AI工業化智能公式」
    此前,百度雲智峰會每年都以英文「I」為首字母做主題,歷年分別是INTEGRATE、INSPIRE、INCEPTION(融合、賦能、無處不在),今年大會的主題「INDUSTRIALIZE」,體現了百度智能雲助力AI工業化的探索和實踐。
  • 南京百度|百度推廣-百度雲搜索推廣解決方案SEM Solution
    簡單來說,搜尋引擎營銷就是基於搜尋引擎平臺的網絡營銷,利用人們對搜尋引擎的依賴和使用習慣,在人們檢索信息的時候將信息傳遞給目標用戶。搜尋引擎營銷的基本思想是讓用戶發現信息,並通過點擊進入網頁,進一步了解所需要的信息。企業通過搜尋引擎付費推廣,讓用戶可以直接與公司客服進行交流、了解,實現交易。
  • 百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
    近日,百度智能雲正式發布時空數據管理平臺。而這也是繼去年時空資料庫升級為時空時序資料庫之後,百度智能雲在時空數據管理領域的又一次重大升級。  百度智能雲時空數據管理平臺的五大特點:  多源異構時空數據的融合存儲  時空數據管理平臺採用混合式數據存儲分布式架構設計,以時序時空資料庫為核心。
  • 攜手國際AI領袖制定AI硬體全球標準OAI,百度發布超級AI計算平臺
    X-MAN4.0是百度超級 AI 計算平臺 X-MAN 系列產品的第四代,是第一款支持 OAI 標準和液冷散熱的的 AI 計算產品。對此,百度副總裁侯震宇表示:「百度非常高興能夠與 Facebook 和微軟及 OCP 其他成員圍繞 OAI 標準的制定展開合作,該標準將極大提高不同 AI 硬體加速模塊和系統的互操作性,加速新 AI 硬體加速模塊的大規模落地應用。」
  • 釋放雲手機的想像力,百度是怎樣出手的?
    百度雲手機就是其中的佼佼者,在今年4月推出的企業級版本中,百度雲手機便已經實現了對雲遊戲、雲應用、雲VR和雲辦公等四大場景的全面覆蓋,目前已經收穫了3000多萬用戶,一躍成為目前中國乃至全球最大的雲手機服務商。透過數據來看,百度雲手機的快速增長,背後是兩重力量在牽拉:一是蓬勃的應用/手遊創新所支撐著用戶體驗蝶變。
  • 張建偉:百度大數據平臺流式shuffle服務
    中國系統架構師大會來到了第二天,我們迎來了主題為「雲和大數據下的架構實踐及優化」的主場2,今天上午第三位演講嘉賓是百度基礎架構部分布式計算架構師張建偉,他演講的題目是《百度大數據離線計算平臺流式shuffle服務》。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • Spark 在百度開放雲 BMR 上的實踐常見問題
    1月10日舉辦的《高性能Spark應用實踐》沙龍活動,吸引了眾多業界技術專家到場參加。在4位演講嘉賓做了精彩介紹後(詳細報導請見這裡),大家將火熱的討論從線下搬到了線上,在微信群中(百度BMR SPARK交流群)繼續深入探討。面對如此火熱的討論場景,筆者將問題整理出來,供大家更系統的參考。這個FAQ會跟進群友的交流,不定期更新,特別歡迎大家補充修正。
  • 百度全功能AI開發平臺BML自動超參搜索技術全面解析
    百度全功能AI開發平臺BML帶著免費算力額度與自動超參搜索能力來了!先來介紹百度最近全新升級的BML,何方神聖?全功能AI開發平臺BML(Baidu Machine Learning),是為企業和個人開發者提供機器學習和深度學習一站式AI開發服務,並提供高性價比的算力資源,助力企業快速構建高精度AI應用。
  • 百度雲發布ABC3.0 打造「最落地」的AI行業解決方案
    大會現場,百度雲重磅推出了業界唯一、最完整的AI to B平臺,兼具深度學習、對話式搜索、自然語言處理等全面的AI能力;集模型標註平臺、ABC一體機、定製化訓練平臺於一身的多樣化載體;以及涵蓋新零售、新製造、交通與公共安全等各領域的一站式解決方案。