大數據Spark運行模式： Yarn模式與配置詳解

2020-09-25 大數據與智能技術

大數據Spark運行模式： Yarn模式與配置詳解

在強大的Yarn環境下Spark是如何工作的？（在國內公司中，Yarn使用的非常多）。

1 解壓縮文件

將spark-3.0.0-bin-hadoop3.2.tgz文件上傳到linux並解壓縮，放置在指定位置。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn

2 修改配置文件

1) 修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 並分發

<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value></property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value></property>

2) 修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置

mv spark-env.sh.template spark-env.sh。。。export JAVA_HOME=/opt/module/jdk1.8.0_212YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

3 啟動HDFS以及YARN集群

4 提交應用

bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10

查看http://hadoop103:8088頁面，點擊History，查看歷史頁面

5 配置歷史伺服器

1) 修改spark-defaults.conf.template文件名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-default.conf文件，配置日誌存儲路徑

spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop102:8020/directory

注意：需要啟動hadoop集群，HDFS上的目錄需要提前存在。

[root@hadoop102 hadoop] hadoop fs -mkdir /directory

3) 修改spark-env.sh文件, 添加日誌配置

export SPARK_HISTORY_OPTS=&34;

註：寫成一行！！空格隔開！！！

l 參數1含義：WEB UI訪問的埠號為18080

l 參數2含義：指定歷史伺服器日誌存儲路徑

l 參數3含義：指定保存Application歷史記錄的個數，如果超過這個值，舊的應用程式信息將被刪除，這個是內存中的應用數，而不是頁面上顯示的應用數。

4) 修改spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080spark.history.ui.port=18080

5) 啟動歷史服務

sbin/start-history-server.sh

6) 重新提交應用

bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.12-3.0.0.jar \10

7) Web頁面查看日誌：http://hadoop103:8088

你的贊，我都當成喜歡。

專注分享大數據技術&智能技術&基礎&實戰，乾貨，資料。

關注本號，讓更多人了解技術，讓技術造福更多人。歡迎轉發傳播，感謝您的關注，謝謝。

相關焦點

大數據Spark運行環境：Standalone模式與配置詳解

大數據Spark運行環境：Standalone模式與相關配置詳解Standalone模式這裡我們來看看只使用Spark自身節點運行的集群模式，也就是我們所謂的獨立部署（Standalone）模式。/examples/jars/spark-examples_2.12-3.0.0.jar \101) --class表示要執行程序的主類2) --master spark://hadoop102:7077 獨立部署模式，連接到Spark集群3) spark-examples_2.12-3.0.0.jar 運行類所在的jar包4
大數據Spark：運行環境_Local模式與相關配置詳解

Spark作為一個數據處理框架和計算引擎，被設計在所有常見的集群環境中運行, 在國內工作中主流的環境為Yarn，不過逐漸容器式環境也慢慢流行起來。3.1 Local模式所謂的Local模式，就是不需要其他任何節點資源就可以在本地執行Spark代碼的環境，一般用於教學，調試，演示等。
操作練習-Spark on Yarn

承接上一篇文檔《》將spark應用運行在yarn集群上官網地址：http://spark.apache.org/docs/2.0.2/running-on-yarn.html1.測試運行瀏覽器訪問master:8088在8088埠下（yarn的UI下）查看下面語句的效果：默認部署模式是client執行命令.
大數據優化：Spark性能調優_最優資源配置

大數據優化： Spark資源的分配在使用腳本提交Spark任務時進行指定，標準的Spark任務提交腳本如下所示：bin/spark-submit \--class com.atguigu.spark.Analysis \--master yarn--deploy-mode cluster--num-executors 80 \ //提交yarn60-100個--driver-memory
大數據平臺搭建：Hadoop集群運行模式與相關配置詳解

Hadoop運行模式包括：本地模式、偽分布式模式以及完全分布式模式。14.2 完全分布式運行模式（開發重點）分析：1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱）2）安裝JDK3）配置環境變量4）安裝Hadoop5）配置環境變量
Spark運行模式——Local模式

模式Local 模式就是指的只在一臺計算機上來運行 Spark.通常用於測試的目的來使用 Local 模式, 實際的生產環境中不會使用 Local 模式.解壓Spark安裝包把安裝包上傳到/opt/software/下, 並解壓到/opt/module/目錄下tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module然後複製剛剛解壓得到的目錄, 並命名為spark-local:運行官方的PI的案例bin/spark-submit
java大數據任務調度平臺，提供Spark、Flink等離線任務的調度源碼

Big Whale（巨鯨），為美柚大數據研發的大數據任務調度平臺，提供Spark、Flink等離線任務的調度（支持任務間的依賴調度）以及實時任務的監控，並具有批次積壓告警、任務異常重啟、重複應用監測、大內存應用監測等功能。
黑馬程式設計師:大數據面試題之spark相關(一)

今天來看一下重中之重的spark相關面試題！1.Spark master使用zookeeper進行HA的，有哪些元數據保存在Zookeeper？答：spark通過這個參數spark.deploy.zookeeper.dir指定master元數據在zookeeper中保存的位置，包括Worker，Driver和Application以及Executors。
YARN & Mesos,論集群資源管理所面臨的挑戰

尤其是升級到spark 1.4.0以後，在YARN上運行時經常遇到這個問題，今天主要是和大家分享一下Spark on YARN環境下classpath的問題。總結了一下Spark在YARN上的class加載規則，供大家參考（以下內容針對Spark1.4.0版本YARN client模式）。
基於YARN集群構建運行PySpark Application

對比這兩種模式，最關鍵的是Spark Application運行時Driver所在的節點不同，而且，如果想要對Driver所在節點的運行環境進行配置，區別很大，但這對於PySpark Application運行來說是非常關鍵的。
MaxCompute Spark 使用和常見問題

它在統一的計算資源和數據集權限體系之上，提供Spark計算框架，支持用戶以熟悉的開發使用方式提交運行Spark作業，以滿足更豐富的數據處理分析場景。Yarn-cluster模式運行二.\path\to\MaxCompute-Spark\spark-2.x\target\spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jarIDEA調試注意IDEA運行Local模式是不能直接引用spark-defaults.conf裡的配置，需要手動在代碼裡指定相關配置一定要注意需要在IDEA裡手動添加MaxCompute Spark
Spark性能優化總結（建議收藏）

近期優化了一個spark流量統計的程序，此程序跑5分鐘小數據量日誌不到5分鐘，但相同的程序跑一天大數據量日誌各種失敗。經優化，使用160 vcores + 480G memory，一天的日誌可在2.5小時內跑完，下面對一些優化的思路方法進行梳理。
大數據分析工程師面試集錦5——Spark面試指南

local(本地模式)：常用於本地開發測試，本地還分為local單線程和local-cluster多線程；standalone(集群模式)：典型的Master/Slave模式，Spark支持ZooKeeper來實現Master HA；on yarn(集群模式)：運行在 yarn 資源管理器框架之上，由 yarn 負責資源管理，
hadoop的安裝和三種模式的配置

參考這裡：https://www.toutiao.com/i6769570150422151692/Hadoop的運行模式配置Hadoop的運行模式分為3種：本地運行模式、偽分布運行模式、集群運行模式。
數據中心之分布式計算MapReduce和YARN區別

MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Reduce（歸約）"，是它們的主要思想，都是從函數式程式語言裡借來的，還有從矢量程式語言裡借來的特性。
大數據之謎Spark基礎篇,Spark運行架構原理詳解

1、Driver2、Master3、Worker4、Executor5、TaskDriver 是一個進程，我們提交編寫好的Spark程序就是在Driver上，由Driver進程執行，充當Driver的可能是Spark集群的某個節點、也有可能是你提交Spark程序的機器，這個需要取決於你的Spark運行模式，他是有不一樣的
詳解flink 1.11中的新部署模式-Application模式

per job模式考慮到集群的資源隔離情況，一般生產上的任務都會選擇per job模式，也就是每個任務啟動一個flink集群，各個集群之間獨立運行，互不影響,且每個集群可以設置獨立的配置。目前 Application 模式支持 Yarn 和 K8s 的部署方式，Yarn Application 模式會在客戶端將運行任務需要的依賴都上傳到 Flink Master，然後在 Master 端進行任務的提交。此外，還支持遠程的用戶jar包來提交任務，比如可以將jar放到hdfs上，進一步減少上傳jar所需的時間，從而減少部署作業的時間。
Spark案例練習-打包提交

構建SparkContext上下文對象val conf = new SparkConf().setMaster("local")// 指定應用在哪兒執行，可以是local、或者stadnalone、yarn、mesos集群.setAppName("logpvuv") //指定應用的名字.set("spark.eventLog.enabled","true").set("spark.eventLog.dir
Spark案例練習-打包提交

構建SparkContext上下文對象val conf = new SparkConf().setMaster(&34;) // 指定應用在哪兒執行，可以是local、或者stadnalone、yarn、mesos集群.setAppName(&34;) //指定應用的名字.set(&34;,&34;).set(&34;,&34;)
從0開始學習spark的學習筆記（1）

SparkRdd運行時架構圖1.大數據生態簡介：4.1 Master同名字一樣是spark集群的管理職，或者管理節點，在spark基於yarn的方式運行過程中，master就是ResourcesManager，基於自身的standalone

大數據Spark運行模式： Yarn模式與配置詳解

大數據Spark運行模式： Yarn模式與配置詳解

1 解壓縮文件

2 修改配置文件

3 啟動HDFS以及YARN集群

4 提交應用

5 配置歷史伺服器

相關焦點

大數據Spark運行環境：Standalone模式與配置詳解

大數據Spark：運行環境_Local模式與相關配置詳解

操作練習-Spark on Yarn

大數據優化：Spark性能調優_最優資源配置

大數據平臺搭建：Hadoop集群運行模式與相關配置詳解

Spark運行模式——Local模式

java大數據任務調度平臺，提供Spark、Flink等離線任務的調度源碼

黑馬程式設計師:大數據面試題之spark相關(一)

YARN & Mesos,論集群資源管理所面臨的挑戰

基於YARN集群構建運行PySpark Application

MaxCompute Spark 使用和常見問題

Spark性能優化總結（建議收藏）

大數據分析工程師面試集錦5——Spark面試指南

hadoop的安裝和三種模式的配置

數據中心之分布式計算MapReduce和YARN區別

大數據之謎Spark基礎篇,Spark運行架構原理詳解

詳解flink 1.11中的新部署模式-Application模式

Spark案例練習-打包提交

Spark案例練習-打包提交

從0開始學習spark的學習筆記（1）