大數據Spark運行模式: Yarn模式與配置詳解

2020-09-25 大數據與智能技術



大數據Spark運行模式: Yarn模式與配置詳解

在強大的Yarn環境下Spark是如何工作的?(在國內公司中,Yarn使用的非常多)。

1 解壓縮文件

將spark-3.0.0-bin-hadoop3.2.tgz文件上傳到linux並解壓縮,放置在指定位置。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn

2 修改配置文件

1) 修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 並分發

<!--是否啟動一個線程檢查每個任務正使用的物理內存量,如果任務超出分配值,則直接將其殺掉,默認是true --><property>     <name>yarn.nodemanager.pmem-check-enabled</name>     <value>false</value></property> <!--是否啟動一個線程檢查每個任務正使用的虛擬內存量,如果任務超出分配值,則直接將其殺掉,默認是true --><property>     <name>yarn.nodemanager.vmem-check-enabled</name>     <value>false</value></property>

2) 修改conf/spark-env.sh,添加JAVA_HOME和YARN_CONF_DIR配置

mv spark-env.sh.template spark-env.sh。。。export JAVA_HOME=/opt/module/jdk1.8.0_212YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

3 啟動HDFS以及YARN集群

4 提交應用

bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10

查看http://hadoop103:8088頁面,點擊History,查看歷史頁面


5 配置歷史伺服器

1) 修改spark-defaults.conf.template文件名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-default.conf文件,配置日誌存儲路徑

spark.eventLog.enabled          truespark.eventLog.dir               hdfs://hadoop102:8020/directory

注意:需要啟動hadoop集群,HDFS上的目錄需要提前存在。

[root@hadoop102 hadoop] hadoop fs -mkdir /directory

3) 修改spark-env.sh文件, 添加日誌配置

export SPARK_HISTORY_OPTS=&34;

註:寫成一行!!空格隔開!!!

l 參數1含義:WEB UI訪問的埠號為18080

l 參數2含義:指定歷史伺服器日誌存儲路徑

l 參數3含義:指定保存Application歷史記錄的個數,如果超過這個值,舊的應用程式信息將被刪除,這個是內存中的應用數,而不是頁面上顯示的應用數。

4) 修改spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080spark.history.ui.port=18080

5) 啟動歷史服務

sbin/start-history-server.sh

6) 重新提交應用

bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.12-3.0.0.jar \10

7) Web頁面查看日誌:http://hadoop103:8088

你的贊,我都當成喜歡。

專注分享大數據技術&智能技術&基礎&實戰,乾貨,資料。


關注本號,讓更多人了解技術,讓技術造福更多人。歡迎轉發傳播,感謝您的關注,謝謝。

相關焦點

  • 大數據Spark運行環境:Standalone模式與配置詳解
    大數據Spark運行環境:Standalone模式與相關配置詳解Standalone模式這裡我們來看看只使用Spark自身節點運行的集群模式,也就是我們所謂的獨立部署(Standalone)模式。/examples/jars/spark-examples_2.12-3.0.0.jar \101) --class表示要執行程序的主類2) --master spark://hadoop102:7077 獨立部署模式,連接到Spark集群3) spark-examples_2.12-3.0.0.jar 運行類所在的jar包4
  • 大數據Spark:運行環境_Local模式與相關配置詳解
    Spark作為一個數據處理框架和計算引擎,被設計在所有常見的集群環境中運行, 在國內工作中主流的環境為Yarn,不過逐漸容器式環境也慢慢流行起來。3.1 Local模式所謂的Local模式,就是不需要其他任何節點資源就可以在本地執行Spark代碼的環境,一般用於教學,調試,演示等。
  • 操作練習-Spark on Yarn
    承接上一篇文檔《》將spark應用運行在yarn集群上 官網地址:http://spark.apache.org/docs/2.0.2/running-on-yarn.html1.測試運行瀏覽器訪問master:8088在8088埠下(yarn的UI下)查看下面語句的效果:默認部署模式是client執行命令.
  • 大數據優化:Spark性能調優_最優資源配置
    大數據優化: Spark資源的分配在使用腳本提交Spark任務時進行指定,標準的Spark任務提交腳本如下所示:bin/spark-submit \--class com.atguigu.spark.Analysis \--master yarn--deploy-mode cluster--num-executors 80 \ //提交yarn60-100個--driver-memory
  • 大數據平臺搭建:Hadoop集群運行模式與相關配置詳解
    Hadoop運行模式包括:本地模式、偽分布式模式以及完全分布式模式。14.2 完全分布式運行模式(開發重點)分析:1)準備3臺客戶機(關閉防火牆、靜態ip、主機名稱)2)安裝JDK3)配置環境變量4)安裝Hadoop5)配置環境變量
  • Spark運行模式——Local模式
    模式Local 模式就是指的只在一臺計算機上來運行 Spark.通常用於測試的目的來使用 Local 模式, 實際的生產環境中不會使用 Local 模式.解壓Spark安裝包把安裝包上傳到/opt/software/下, 並解壓到/opt/module/目錄下tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module然後複製剛剛解壓得到的目錄, 並命名為spark-local:運行官方的PI的案例bin/spark-submit
  • java大數據任務調度平臺,提供Spark、Flink等離線任務的調度源碼
    Big Whale(巨鯨),為美柚大數據研發的大數據任務調度平臺,提供Spark、Flink等離線任務的調度(支持任務間的依賴調度)以及實時任務的監控,並具有批次積壓告警、任務異常重啟、重複應用監測、大內存應用監測等功能。
  • 黑馬程式設計師:大數據面試題之spark相關(一)
    今天來看一下重中之重的spark相關面試題!1.Spark master使用zookeeper進行HA的,有哪些元數據保存在Zookeeper?答:spark通過這個參數spark.deploy.zookeeper.dir指定master元數據在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。
  • YARN & Mesos,論集群資源管理所面臨的挑戰
    尤其是升級到spark 1.4.0以後,在YARN上運行時經常遇到這個問題,今天主要是和大家分享一下Spark on YARN環境下classpath的問題。總結了一下Spark在YARN上的class加載規則,供大家參考(以下內容針對Spark1.4.0版本YARN client模式)。
  • 基於YARN集群構建運行PySpark Application
    對比這兩種模式,最關鍵的是Spark Application運行時Driver所在的節點不同,而且,如果想要對Driver所在節點的運行環境進行配置,區別很大,但這對於PySpark Application運行來說是非常關鍵的。
  • MaxCompute Spark 使用和常見問題
    它在統一的計算資源和數據集權限體系之上,提供Spark計算框架,支持用戶以熟悉的開發使用方式提交運行Spark作業,以滿足更豐富的數據處理分析場景。Yarn-cluster模式運行二.\path\to\MaxCompute-Spark\spark-2.x\target\spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jarIDEA調試注意IDEA運行Local模式是不能直接引用spark-defaults.conf裡的配置,需要手動在代碼裡指定相關配置一定要注意需要在IDEA裡手動添加MaxCompute Spark
  • Spark性能優化總結(建議收藏)
    近期優化了一個spark流量統計的程序,此程序跑5分鐘小數據量日誌不到5分鐘,但相同的程序跑一天大數據量日誌各種失敗。經優化,使用160 vcores + 480G memory,一天的日誌可在2.5小時內跑完,下面對一些優化的思路方法進行梳理。
  • 大數據分析工程師面試集錦5——Spark面試指南
    local(本地模式):常用於本地開發測試,本地還分為local單線程和local-cluster多線程;standalone(集群模式):典型的Master/Slave模式,Spark支持ZooKeeper來實現Master HA;on yarn(集群模式):運行在 yarn 資源管理器框架之上,由 yarn 負責資源管理,
  • hadoop的安裝和三種模式的配置
    參考這裡:https://www.toutiao.com/i6769570150422151692/Hadoop的運行模式配置Hadoop的運行模式分為3種:本地運行模式、偽分布運行模式、集群運行模式。
  • 數據中心之分布式計算MapReduce和YARN區別
    MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數式程式語言裡借來的,還有從矢量程式語言裡借來的特性。
  • 大數據之謎Spark基礎篇,Spark運行架構原理詳解
    1、Driver2、Master3、Worker4、Executor5、TaskDriver 是一個進程,我們提交編寫好的Spark程序就是在Driver上,由Driver進程執行,充當Driver的可能是Spark集群的某個節點、也有可能是你提交Spark程序的機器,這個需要取決於你的Spark運行模式,他是有不一樣的
  • 詳解flink 1.11中的新部署模式-Application模式
    per job模式考慮到集群的資源隔離情況,一般生產上的任務都會選擇per job模式,也就是每個任務啟動一個flink集群,各個集群之間獨立運行,互不影響,且每個集群可以設置獨立的配置。目前 Application 模式支持 Yarn 和 K8s 的部署方式,Yarn Application 模式會在客戶端將運行任務需要的依賴都上傳到 Flink Master,然後在 Master 端進行任務的提交。此外,還支持遠程的用戶jar包來提交任務,比如可以將jar放到hdfs上,進一步減少上傳jar所需的時間,從而減少部署作業的時間。
  • Spark案例練習-打包提交
    構建SparkContext上下文對象val conf = new SparkConf().setMaster("local")// 指定應用在哪兒執行,可以是local、或者stadnalone、yarn、mesos集群.setAppName("logpvuv") //指定應用的名字.set("spark.eventLog.enabled","true").set("spark.eventLog.dir
  • Spark案例練習-打包提交
    構建SparkContext上下文對象val conf = new SparkConf().setMaster(&34;) // 指定應用在哪兒執行,可以是local、或者stadnalone、yarn、mesos集群.setAppName(&34;) //指定應用的名字.set(&34;,&34;).set(&34;,&34;)
  • 從0開始學習spark的學習筆記(1)
    SparkRdd運行時架構圖1.大數據生態簡介:4.1 Master同名字一樣是spark集群的管理職,或者管理節點,在spark基於yarn的方式運行過程中,master就是ResourcesManager,基於自身的standalone