2015年4月16-18日,由CSDN主辦、CSDN專家顧問團支持的 OpenCloud 2015大會將在北京國家會議中心拉開帷幕。為期三天的大會,以推進行業應用中的雲計算核心技術發展為主旨,聚焦技術創新與應用實踐,設置了「2015 OpenStack技術大會」、「2015 Spark技術峰會」、「2015 Container技術峰會」三大技術峰會及多場深度行業實戰培訓。
本次大會將邀請近40位國內外雲計算技術領域頂尖專家與一線實踐者,深入討論OpenStack、Spark、Docker、Kubernetes等開源技術的最新進展,各個核心項目/組件的演進趨勢,以及它們的最新業界應用。
在「2015 Spark技術峰會」,我們請到了騰訊高級工程師王聯輝擔任演講嘉賓, 他將帶來的分享主題為《騰訊在Spark上的應用與實踐優化 》,主要將會介紹TDW-Spark平臺的實踐情況,以及平臺上部分典型的Spark應用案例及其效果,然後分享騰訊在Spark大規模實踐應用過程中遇到的一些問題,以及如何解決和優化這些問題,使得Spark在騰訊的應用實踐中取得顯著的效果。
王聯輝表示,早在2013年騰訊就開始使用Spark實現了廣告模型的實時訓練和更新,並在廣告推薦業務上取得顯著的效果。而在2014年,更將原有涉及迭代計算、圖計算、DAG-MapReduce和HiveSql等多種計算任務利用Spark來實現,並且取得了良好的性能和應用效果。
王聯輝
騰訊高級工程師
目前就職於騰訊數據平臺部,擔任高級工程師,主要負責騰訊TDW-Spark平臺的研發和運營工作。從2009年開始從事Hadoop和大數據生態系統相關的工作,經歷過Hadoop集群大規模的演變和擴張,對Hadoop、Hive、HBase、Yarn、Spark等開源項目有豐富的實踐經驗。2013年開始從事Spark平臺的研究和使用運營實踐,多年以來一直專注於分布式存儲和計算等領域。
以下為CSDN針對王聯輝的會前採訪實錄:CSDN:首先請介紹下您自己,以及您在Spark 技術方面所做的工作。
王聯輝:目前就職於騰訊數據平臺部,擔任高級工程師,主要負責騰訊TDW-Spark平臺的研發和運營工作。
CSDN:您所在的企業是如何使用Spark 技術的?帶來了哪些好處?
王聯輝:我們的Spark平臺是部署在Gaia(基於YARN進行了大量的優化)資源管理系統之上。在我們的實際應用案例中,發現Spark在性能上比傳統的MapReduce計算有較大的提升,特別是迭代計算和DAG的計算任務。
CSDN:您認為Spark 技術最適用於哪些應用場景?
王聯輝:具有迭代計算的數據挖掘和圖計算應用,以及具有DAG的ETL/SQL計算應用。
CSDN:企業在應用Spark 技術時,需要做哪些改變嗎?企業如果想快速應用Spark 應該如何去做?
王聯輝:企業需要有了解Spark的工程師,如果想做一些Spark任務的調優工作,還需要對Spark內核有一定了解的工程師。如果想快速應用Spark,企業一方面需要培養或者招聘懂Spark的工程師,另一方面需要在實際應用中去使用和實踐Spark。
CSDN:您所在的企業在應用Spark 技術時遇到了哪些問題?是如何解決的?
王聯輝:前期我們的業務工程師在Spark的使用和調優上遇到了一些困難,以及Scala的學習上花了一些時間。我們通過實際應用實例給業務工程師指導編寫Spark計算任務,使得業務工程師通過一個應用實例學會使用Spark,後續他們可以獨立地完成編寫Spark業務計算任務的工作。
CSDN:作為當前流行的大數據處理技術,您認為Spark 還有哪些方面需要改進?
王聯輝:目前Core部分相對來說已經較穩定和成熟,但是其上面的幾個組件如MLlib、SparkSQL、GraphX、Streaming在穩定性或性能上還有優化和改進的空間。另外Spark方面的參考資料比較少以及熟練使用Scala語言的程式設計師也比較少。
CSDN:您在本次演講中將分享哪些話題?
王聯輝:我會介紹TDW-Spark平臺的實踐情況,以及平臺上部分典型的Spark應用案例及其效果,然後分享我們在Spark大規模實踐應用過程中遇到的一些問題,以及我們是如何解決和優化這些問題。
CSDN:哪些聽眾最應該了解這些話題?您所分享的主題可以幫助聽眾解決哪些問題?
王聯輝:想要大規模實踐和應用Spark的人,這些話題一方面幫助大家了解目前我們Spark平臺上的部分典型應用案例,另一方面幫助大家了解我們在Spark大規模實踐應用過程中遇到的一些問題及其解決和優化方法。
除了王聯輝,2015 Spark技術峰會已經邀請Spark Streaming負責人Tathagata Das來華,和國內用戶分享Spark的技術細節,探討Spark未來的發展方向,此外還有Databricks、IBM、Intel、微軟、百度、阿里、騰訊、亞信等公司的Spark技術實踐者,也將同臺分享Spark及其相關項目的實戰經驗。
附:2015 Spark技術峰會全日程(Updating)