為了更好幫助企業深入了解國內外最新大數據技術,掌握更多行業大數據實踐經驗,進一步推進大數據技術創新、行業應用和人才培養,2015年12月10-12日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中國科學院計算技術研究所、北京中科天璣科技有限公司與CSDN共同協辦的2015中國大數據技術大會(Big Data Technology Conference 2015,BDTC 2015)將在北京新雲南皇冠假日酒店隆重舉辦。
2015中國大數據技術大會
BDTC 2015將為期三天,在大會主會之外,擬設立16個分論壇,包括資料庫、深度學習、推薦系統、安全等6大技術論壇,金融、製造業、交通旅遊、網際網路、醫療健康、教育、網絡通訊等7大應用論壇,以及政策法規和標準化、數據市場及交易、社會治理等3大熱點議題論壇,將邀請近100位國外大數據技術領域頂尖專家與一線實踐者,深入討論Spark、Kudu、PosgreSQL-X2、YARN、HBase、機器學習/深度學習、推薦系統等熱門技術及行業實踐。
在推薦系統論壇,本次大會邀請到了百度基礎架構部高級架構師沈國龍擔任演講嘉賓,進行題為「 BML百度大規模機器學習雲平臺實踐」的主題演講,分享百度機器學習平臺BML的底層框架實現,包括框架演進、算法研究過程等,以及在不同的業務場景下是如何應用這些算法。
沈國龍在接受CSDN的會前採訪中表示,大數據其實是一個綜合學科,開發者需要具備多方面的知識儲備才能勝任。從最基礎的多線程、分布式,到微積分、統計、機器學習理論、算法知識、算法調優經驗,更重要的是對行業的理解,才能讓大數據成功的落地。
對於推薦系統,他認為,覆蓋率、置信度、差異性、採納率、新穎性、隱私性、預測Auc、NDCG、收入波動等,都是考核一個推薦系統的指標。同時冷啟動、模型迭代速度、AB test等也是系統成敗的關鍵。
他還透露,深度學習、在線學習都是他的團隊最近在研究的方向。前者比經典算法在特徵組合和模型表徵上有很大的優越性,更適用於數據維度越來越多的當下,後者主要是為了解決模型迭代速度,使最新的數據更快更好的反映到模型中。同時,他還關注在不同行業數據中,算法的組合應用如何取得最好的效果。
沈國龍
百度基礎架構部高級架構師
沈國龍,百度基礎架構部技術經理、高級架構師。有多年大數據、商業智能、機器學習的研發經驗,在廣告、推薦等業務領域有深厚的知識積累。先後負責百度大規模機器學習算法平臺BML、分布式計算框架ELF、百度深度學習平臺Paddle等的設計研發,在提升機器學習算法分布式計算規模和效率的同時,這個產品組合支持了百度所有重要部門的機器學習需求,先後成功上線上百個智能應用。作為技術負責人參與了百度廣告系統大規模模型訓練、廣告觸發、百度搜索結果排序、移動雲渠道反作弊等戰略級核心項目,取得了巨大的收益。同時擔任百度開放雲大數據解決方案架構師,為合作夥伴提供廣告、推薦系統、自然語言處理等領域的專業技術支持。
以下為沈國龍採訪實錄:CSDN:請介紹一下您的工作,以及大數據、推薦系統對公司業務的價值。
沈國龍:我的工作有兩個方向,一是大規模機器學習平臺的建設和業務支持,包括框架、算法、平臺的設計和開發,特定業務場景的模型訓練和調優等;二是為百度開放雲的用戶提供大數據解決方案和相關產品。
百度擁有海量的用戶和流量,任何產品都會面臨到大數據的問題。如何使用好大數據,並構建出優秀的轉化率模型、推薦系統等智能應用,是決定產品成敗的關鍵。百度最重要的搜索和廣告業務,都需要大數據的支撐,優化搜索結果和廣告的排序,也屬於廣義上推薦系統的範疇。所以我們是非常重視相關的系統建設,也做了非常多的創新。
CSDN:能否介紹您在項目實施中曾使用過哪些大數據技術?您對這些技術滿意的地方和不滿意的地方分別有什麼?
沈國龍:作為百度的基礎架構部門,在優秀大數據的技術上都有投入,比如hadoop、spark、MPI,我們的規模都做到了世界領先。還有自研的一些大數據計算框架,比如處理流式數據的Dstream、TM,機器學習的計算框架ELF等等。這些產品和技術是我們處理大數據必備的。我對這些產品的性能和易用性都很滿意,利用百度的這套系統,可以很容易的處理各種大數據問題,搭建服務。
CSDN:能否分別從軟體、硬體、開發者的角度談談,大數據在您的行業落地目前主要面臨哪些挑戰?
沈國龍:大數據雖然聽起來很美,但要落地有很多的問題。硬體成本高,是很多初創公司面臨的首要難題。搭建一套從原始數據處理,到數據分析,再到模型訓練、調研,最後到模型上線和迭代,需要大量的存儲和計算資源,對於初創企業,自建IDC實施和運維,是非常昂貴的。軟體層面的問題相反,是開源社區特別活躍,各種工具層出不窮,選擇成了最大的難題,要付出很大的學習成本,並且要承擔日後數據量更大之後系統全面推倒升級的風險。大家現在基本都會選擇雲作為解決方案,百度開放雲也提供了整套的大數據產品組合。大數據其實是一個綜合學科,開發者需要具備多方面的知識儲備才能勝任。從最基礎的多線程、分布式,到微積分、統計、機器學習理論、算法知識、算法調優經驗,更重要的是對行業的理解,才能讓大數據成功的落地。
CSDN:評估一個推薦系統好壞的指標有哪些?技術人員容易犯哪些錯誤導致推薦系統實踐的失敗?
沈國龍:指標有很多,比如覆蓋率、置信度、差異性、採納率、新穎性、隱私性、預測Auc、NDCG、收入波動等,都是考核一個推薦系統的指標。同時冷啟動、模型迭代速度、AB test等也是系統成敗的關鍵。所以技術人員不能夠認為推薦系統只需要一個auc不錯的模型就夠了,這是一個非常複雜的系統,要以最終的收入指標為準,做完備的AB測試才能夠逐步把系統調節到最優的效果。
CSDN:針對您所在的行業,哪些大數據技術、推薦算法是您目前主要觀察和研究的,您為什麼看好這些技術?
沈國龍:深度學習、在線學習都是我們最近在研究的方向。深度學習作為機器學習現在最熱門的方向,比經典算法在特徵組合和模型表徵上有很大的優越性,在數據維度越來越多的情況下,深度學習更能勝任。當然計算複雜度和模型調優的難度也隨之上升。在線學習主要是為了解決模型迭代速度,使最新的數據更快更好的反映到模型中。同時我們也在關注在不同行業數據中,算法的組合應用如何取得最好的效果。
CSDN:請談談您在這次大會上即將分享的話題。
沈國龍:我會分享百度機器學習平臺BML的底層框架實現,包括我們的計算框架演進的歷史、最新的ELF有哪些特點、算法的研發過程等等。另外,重點講我們在不同的業務場景下是如何應用這些算法,最終達成業務目標,算是一個案例講解。相信能給大家帶來一些啟發。
CSDN:哪些聽眾最應該了解這些話題?您所分享的主題可以幫助聽眾解決哪些問題?
沈國龍:基礎架構的架構師,算法開發人員,數據分析師,產品運營人員,都可以了解這些知識。這可以幫助聽眾對機器學習在企業內如何落地有一定認識,並且了解大數據現在的主流趨勢,對未來的開發和決策都有幫助。
CSDN:能否談談您對BDTC2015、其他的講師分享的話題有什麼期待?
沈國龍:希望能夠了解下如火如荼的大數據和人工智慧創業公司,是如何解決技術和行業應用之間的gap的。
90+位講師,16大分論壇,Databricks公司聯合創始人、Apache Spark首席架構師辛湜,Hadoop、HBase和Thrift項目的PMC成員和Committer、Kudu的發明人Todd Lipcon等海外專家將親臨2015中國大數據技術大會。餘票已然不多,預購從速。