王聯輝:Spark在騰訊TDW的實戰

2021-01-09 CSDN技術社區

2015年4月16-18日，由CSDN主辦、CSDN專家顧問團支持的 OpenCloud 2015大會將在北京國家會議中心拉開帷幕。為期三天的大會，以推進行業應用中的雲計算核心技術發展為主旨，聚焦技術創新與應用實踐，設置了「2015 OpenStack技術大會」、「2015 Spark技術峰會」、「2015 Container技術峰會」三大技術峰會及多場深度行業實戰培訓。

本次大會將邀請近40位國內外雲計算技術領域頂尖專家與一線實踐者，深入討論OpenStack、Spark、Docker、Kubernetes等開源技術的最新進展，各個核心項目/組件的演進趨勢，以及它們的最新業界應用。

在「2015 Spark技術峰會」，我們請到了騰訊高級工程師王聯輝擔任演講嘉賓，他將帶來的分享主題為《騰訊在Spark上的應用與實踐優化》，主要將會介紹TDW-Spark平臺的實踐情況，以及平臺上部分典型的Spark應用案例及其效果，然後分享騰訊在Spark大規模實踐應用過程中遇到的一些問題，以及如何解決和優化這些問題，使得Spark在騰訊的應用實踐中取得顯著的效果。

王聯輝表示，早在2013年騰訊就開始使用Spark實現了廣告模型的實時訓練和更新，並在廣告推薦業務上取得顯著的效果。而在2014年，更將原有涉及迭代計算、圖計算、DAG-MapReduce和HiveSql等多種計算任務利用Spark來實現，並且取得了良好的性能和應用效果。

王聯輝

騰訊高級工程師

目前就職於騰訊數據平臺部，擔任高級工程師，主要負責騰訊TDW-Spark平臺的研發和運營工作。從2009年開始從事Hadoop和大數據生態系統相關的工作，經歷過Hadoop集群大規模的演變和擴張，對Hadoop、Hive、HBase、Yarn、Spark等開源項目有豐富的實踐經驗。2013年開始從事Spark平臺的研究和使用運營實踐，多年以來一直專注於分布式存儲和計算等領域。

以下為CSDN針對王聯輝的會前採訪實錄：

CSDN：首先請介紹下您自己，以及您在Spark 技術方面所做的工作。

王聯輝：目前就職於騰訊數據平臺部，擔任高級工程師，主要負責騰訊TDW-Spark平臺的研發和運營工作。

CSDN：您所在的企業是如何使用Spark 技術的？帶來了哪些好處？

王聯輝：我們的Spark平臺是部署在Gaia（基於YARN進行了大量的優化）資源管理系統之上。在我們的實際應用案例中，發現Spark在性能上比傳統的MapReduce計算有較大的提升，特別是迭代計算和DAG的計算任務。

CSDN：您認為Spark 技術最適用於哪些應用場景？

王聯輝：具有迭代計算的數據挖掘和圖計算應用，以及具有DAG的ETL/SQL計算應用。

CSDN：企業在應用Spark 技術時，需要做哪些改變嗎？企業如果想快速應用Spark 應該如何去做？

王聯輝：企業需要有了解Spark的工程師，如果想做一些Spark任務的調優工作，還需要對Spark內核有一定了解的工程師。如果想快速應用Spark，企業一方面需要培養或者招聘懂Spark的工程師，另一方面需要在實際應用中去使用和實踐Spark。

CSDN：您所在的企業在應用Spark 技術時遇到了哪些問題？是如何解決的？

王聯輝：前期我們的業務工程師在Spark的使用和調優上遇到了一些困難，以及Scala的學習上花了一些時間。我們通過實際應用實例給業務工程師指導編寫Spark計算任務，使得業務工程師通過一個應用實例學會使用Spark，後續他們可以獨立地完成編寫Spark業務計算任務的工作。

CSDN：作為當前流行的大數據處理技術，您認為Spark 還有哪些方面需要改進？

王聯輝：目前Core部分相對來說已經較穩定和成熟，但是其上面的幾個組件如MLlib、SparkSQL、GraphX、Streaming在穩定性或性能上還有優化和改進的空間。另外Spark方面的參考資料比較少以及熟練使用Scala語言的程式設計師也比較少。

CSDN：您在本次演講中將分享哪些話題？

王聯輝：我會介紹TDW-Spark平臺的實踐情況，以及平臺上部分典型的Spark應用案例及其效果，然後分享我們在Spark大規模實踐應用過程中遇到的一些問題，以及我們是如何解決和優化這些問題。

CSDN：哪些聽眾最應該了解這些話題？您所分享的主題可以幫助聽眾解決哪些問題？

王聯輝：想要大規模實踐和應用Spark的人，這些話題一方面幫助大家了解目前我們Spark平臺上的部分典型應用案例，另一方面幫助大家了解我們在Spark大規模實踐應用過程中遇到的一些問題及其解決和優化方法。

除了王聯輝，2015 Spark技術峰會已經邀請Spark Streaming負責人Tathagata Das來華，和國內用戶分享Spark的技術細節，探討Spark未來的發展方向，此外還有Databricks、IBM、Intel、微軟、百度、阿里、騰訊、亞信等公司的Spark技術實踐者，也將同臺分享Spark及其相關項目的實戰經驗。

附：2015 Spark技術峰會全日程（Updating）

「2015 OpenStack技術大會」、「2015 Spark技術峰會」、「2015 Container技術峰會」 4月17-18日在北京召開。日程全部公開！ OpenCloud 2015，懂行的人都在這裡！更多講師和日程信息請關注OpenCloud 2015介紹和官網。

相關焦點

Spark運行模式——Local模式

首先需要下載Spark1．官網地址 http://spark.apache.org/2．文檔查看地址 https://spark.apache.org/docs/2.1.1/3．下載地址 https://archive.apache.org/dist/spark/Local
手把手教你在本機安裝spark

本文轉載自【微信公眾號：五角錢的程式設計師，ID：xianglin965】，經微信公眾號授權轉載，如需轉載與原文作者聯繫今天是spark系列的第一篇文章。最近由於一直work from home節省了很多上下班路上的時間，加上今天的LeetCode的文章篇幅較小，所以抽出了點時間加更了一篇，和大家分享一下最近在學習的spark相關的內容。
SparkCore——專業術語及流程圖

1，Applicationapplication（應用）其實就是用spark-submit提交的程序。比方說spark examples中的計算pi的SparkPi。從spark官網截圖的一張圖可以大致了解driver的功能。3，JobSpark中的Job和MR中Job不一樣不一樣。MR中Job主要是Map或者Reduce Job。而Spark的Job其實很好區別，一個action算子就算一個Job，比方說count，first等。4, TaskTask是Spark中最新的執行單元。
停止使用Pandas並開始使用Spark+Scala

我們還需要導入另一個有用的spark函數col，該函數用於引用列。這設置了一些spark配置，還允許您添加依賴項。在這裡，我添加了一個名為vegas的可視化庫。　　要包括的兩個主要內容：　　· build.sbt-以前我們在一個筆記本單元中添加了依賴項，現在我們需要將它們添加到build.sbt文件中　　· SparkSession-在筆記本中我們已經有一個spark會話，這意味著我們能夠執行spark.createDataFrame之類的事情。
sparksql 窗口函數原理

相信大家比較難看懂舉個例子:我們常用的row_number()來說select row_number() over(partitionby col1orderby col2) fromtable上面的語句主要分兩部分window函數部分（window_func）窗口定義部分2.1 window函數部分windows函數部分就是所要在窗口上執行的函數，spark
大數據分析工程師入門9-Spark SQL

// 開啟隱式轉換import spark.implicits._ // 讀入文本文件並最終轉化成DataFrameval peopleDF = spark.sparkContext .textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(attributes =&
這就是街舞中spark亮亮是誰 spark亮亮個人資料介紹

這就是街舞中spark亮亮是誰？　　據悉，Sparkle亮亮是易烊千璽站隊的，節目中，音樂錯了依舊freestyle，實力驚人。是juste debout 世界大賽中國賽區冠軍。而Juste Debout是全球最具權威性的Street Dance大賽。由Poppin界元老級人物Bruce Ykanji從2002年起創立。
Spark在360商業數據部的應用實踐

由於之前大部分數據分析工作都是通過使用hive命令行完成的，為了將遷移至SparkSQL的代價最小，360系統部的同事開發了SparkSQL的命令行版本spark-hive。原有的以hive 命令運行的腳本，簡單的改成spark-hive便可以運行。360系統部的同事也做了大量兼容性的工作。spark-hive目前已經比較穩定，成為數據分析的首選。
大數據掃盲——什麼是spark

spark的出現就彌補了MapReduce的不足。 spark是一種基於內存的快速、通用、可擴展的大數據計算引擎。它集批處理、實時流處理、交互式查詢、圖計算與機器學習於一體Spark應用場景批處理可用於ETL（抽取、轉換、加載）。機器學習可用於自動判斷淘寶的買家評論是好評還是差評。交互式分析可用於查詢Hive數據倉庫。
深入對比數據科學工具箱: SparkR vs Sparklyr

SparkR 文檔：http://spark.apachecn.org/docs/cn/2.3.0/structured-streaming-programming-guide.html Sparklyr 文檔：https://spark.rstudio.com
「sparkr+sparkr mini」打火機手電筒完美合體

「sparkr」與「sparkr mini」將他們「古怪的」設計特色與生產日常用品的願望相結合。這套造型別致的多功能全新系列作品能夠讓使用者們隨時隨地生火或照明。經過無數次的討論，power practical的工業設計師mckay nilson 開始著手模擬「sparkr」可能的外形。設計定稿後，整個團隊立即開始打造產品原型進行測試。
烏海spark培訓_博雅環球教育放心之選

烏海spark培訓，博雅環球教育放心之選，是以網際網路企業技術研發、軟體開發、大數據分析、雲計算、人工智慧開發應用等網際網路技術為依託，以校企專業共建，崗前技能實訓，高薪就業安置，網際網路人才外包服務等業務為核心的高端就業培訓。烏海spark培訓， Oracle認證講師、Microsoft認證講師。
每個數據科學家都得會一點SparkMagic

>RUN mkdir /home/$NB_USER/.sparkmagicRUN wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.jsonRUN mv example_config.json /home/$NB_USER
基於Bert和通用句子編碼的Spark-NLP文本分類

import sparknlpspark = sparknlp.start() # sparknlp.start(gpu=True) >> 在GPU上訓練from sparknlp.base import *from sparknlp.annotator import *from pyspark.ml import Pipelineimport pandas as pdprint
數據分析工程師面試集錦5——Spark面試指南

10、spark有哪些存儲級別？提交一個Spark任務使用spark-submit，加上相關的參數和主jar包進行提交。--master spark://node001:7077,node002:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ..
通過 SAML 統一身份認證登錄騰訊雲控制臺實戰

如：用戶在瀏覽器登錄公司帳號後，可直接跳轉到騰訊雲，不再需要輸入騰訊雲帳號密碼。即，SAML 為安全跳轉登錄提供了可能。在騰訊雲的場景下，無法解決帳號洩露亂買東西誰背鍋的問題。有了公認的認證方法，帳號是誰洩露的一目了然。當然，SAML 本身出現了問題，概率較小，暫不討論。
利用Spark 和 scikit-learn 將你的模型訓練加快 100 倍

import timefrom sklearn import datasets, svmfrom skdist.distribute.search import DistGridSearchCVfrom pyspark.sql import SparkSession # instantiate spark sessionspark
小灶能力派攜手騰訊教育,推動數位化人才培養

日前，小灶能力派與騰訊教育達成戰略合作，雙方就人才培養、線上教育課程共建及實習就業平臺共建等方面達成深度合作。依託於騰訊教育在雲平臺和數據產業化方面的專業能力，以及小灶能力派豐富的課程開發和運營能力，為用戶提供專業化、立體化、系統化的教育內容和產品服務。
Spark AR 統整特效發布

【1】：https://sparkar.facebook.com/ar-studio/learn/publishing/spark-ar-review-policies#part-1-effects 【2】：https://sparkar.facebook.com/ar-studio/learn/publishing-your-effect
GPU上的隨機森林:比Apache Spark快2000倍

設置Spark集群不在本文的討論範圍之內，但是一旦準備好集群，就可以在Jupyter Notebook中運行以下命令來初始化Spark：import findsparkfindspark.init()from pyspark.sql import SparkSessionspark = (SparkSession .builder .config('spark.executor.memory

王聯輝:Spark在騰訊TDW的實戰

相關焦點

Spark運行模式——Local模式

手把手教你在本機安裝spark

SparkCore——專業術語及流程圖

停止使用Pandas並開始使用Spark+Scala

sparksql 窗口函數原理

大數據分析工程師入門9-Spark SQL

這就是街舞中spark亮亮是誰 spark亮亮個人資料介紹

Spark在360商業數據部的應用實踐

大數據掃盲——什麼是spark

深入對比數據科學工具箱: SparkR vs Sparklyr

「sparkr+sparkr mini」 打火機手電筒完美合體

烏海spark培訓_博雅環球教育放心之選

每個數據科學家都得會一點SparkMagic

基於Bert和通用句子編碼的Spark-NLP文本分類

數據分析工程師面試集錦5——Spark面試指南

通過 SAML 統一身份認證登錄騰訊雲控制臺實戰

利用Spark 和 scikit-learn 將你的模型訓練加快 100 倍

小灶能力派攜手騰訊教育,推動數位化人才培養

Spark AR 統整特效發布

GPU上的隨機森林:比Apache Spark快2000倍

「sparkr+sparkr mini」打火機手電筒完美合體