Spark案例練習-打包提交

2020-09-06 分享電腦學習

承接上一篇文檔《》

打開埠18080的歷史服務,會發現沒有歷史日誌,現在我們想要顯示歷史日誌。

採取以下的方式

一:

//1. 構建SparkContext上下文對象

val conf = new SparkConf().setMaster(&34;) // 指定應用在哪兒執行,可以是local、或者stadnalone、yarn、mesos集群.setAppName(&34;) //指定應用的名字.set(&34;,&34;).set(&34;,&34;)


可以看到日誌信息

二:

Spark應用參數可以配置的地方

1. 在spark-default.conf裡面配置

2. ${SPARK_HOME}/bin/spark-submit腳本

添加參數 --conf &34;

3. 可以在代碼中構建SparkConf的時候通過相關API指定參數

如果上面三個都配置的話,我們配置不同的埠的話,會運行那種呢?

比如:

(1) spark-default.conf 配置 4055

(2) 添加參數 --conf &34;spark.ui.port&34;4050&34;

結果會運行4050

運行一個spark應用的時候,先去加載spark-default.conf裡面的配置文件,第二個回去加載運行spark-submit命令的配置參數,最後代碼中的配置會覆蓋前面的配置

優先級:3 》 2 》 1


現在我們準備將代碼打包提交到集群上運行,先將一部分代碼去掉,保留下面的部分

保存到資料庫的部分也注釋掉,不往資料庫保存

基於maven進行打包(clean install即可)

(1)clean:刪除target文件

(2)package:打包

(3)install: 打包,並且會jar包安裝到本地的maven倉庫中

使用spark-submit提交應用

將jar上傳後

1. 在local運行

./bin/spark-submit \--class 全包路徑.類名 \--master local \Jar包的位置


可以省略--master local \ 因為默認就是在local運行

./bin/spark-submit \--class 全包路徑..LogPVAndUVCount \/opt/modules/jar/logpvuv.jar


2. 在standalone集群運行

./bin/spark-submit \--class 全包路徑.類名 \--master spark://bigdata.ibeifeng.com:7070 \Jar包的位置


8080頁面可以找到


可以查看歷史服務中也是有的


有一個參數

deploy-mode 部署模式 :決定driver運行在哪裡


client:客戶端,driver運行客戶端(指提交SparkSubmit應用的這臺機器)

cluster:集群,driver運行在集群中任意一臺Worker節點上


如果不指定的話默認是在客戶端 我們現在指定

./bin/spark-submit \--class 全包路徑.LogPVAndUVCount \--master spark://master:7070 \--deploy-mode cluster \/opt/modules/jar/logpvuv.jar


可以在客戶端模式下面查看8080頁面


不過這個地方埠常用的6060作為集群模式 而客戶端模式使用7070的

./bin/spark-submit \--class 全包路徑.LogPVAndUVCount \--master spark://master:6066 \--deploy-mode cluster \--name logpvuv1 \/opt/modules/jar/logpvuv.jar

【520 送女生神器 】 看下圖 【 防狼報警器 】替你保護她!

相關焦點

  • Spark案例練習-打包提交
    承接上一篇文檔《Spark案例練習-UV的統計》打開埠18080的歷史服務,會發現沒有歷史日誌,現在我們想要顯示歷史日誌。採取以下的方式一://1.比如:spark-default.conf 配置 4055添加參數 --conf "spark.ui.port=4051.set("spark.ui.port","4050")"運行一個spark應用的時候,先去加載spark-default.conf裡面的配置文件,第二個回去加載運行spark-submit命令的配置參數,最後代碼中的配置會覆蓋前面的配置
  • Spark項目案例實戰和分布式部署
    {ArrayUtils, Bytes}import org.apache.spark.*.tgz,每臺hadoop伺服器上放在同一個目錄下不用任何配置值即可,用spark-submit提交就行。Spark環境部署好之後,把我們的操作Hbase項目編譯打包,一個是項目本身的jar,另一個是項目依賴的jar集合,分別上傳到任意一臺伺服器就行,不要每臺伺服器都傳,在哪臺伺服器運行就在哪臺伺服器上上傳就行,依賴的jar包放在這個目錄/home/hadoop/chongdianleme/chongdianleme-spark-task-1.0.0/lib/下,
  • Spark 啟動及任務提交流程
    worker,並發送註冊信息給Master 3、Worker開始與Master進行註冊,將註冊信息發送給Master 4、Master進程收到註冊信息後,保存到內存和磁碟裡,Master給Worker發送註冊成功的消息(Master URL) 5、Worker收到Masterde 信息後,開始與Master建立心跳 二、Spark任務提交流程
  • Livy REST 提交Spark作業
    01 Livy簡介我們平時提交的spark任務,通常是使用Apache Spark本身提供的spark-submit、spark-shell和Thrift Server外,Apache Livy提供了另外一種與Spark集群交互的方式,通過REST接口此外,Apache Livy支持同時維護多個會話
  • Spark案例練習-UV的統計
    保存到RDBMS中、保存到非關係型資料庫中建庫建表CREATE DATABASE spark_test;USE spark_test;CREATE TABLE pvuv(`date` DATE NOT NULL,`pv` INT(11) NOT NULL,`uv` INT(11) NOT NULL)ENGINE=MYISAM DEFAULT CHARSET=utf8;編寫代碼其中val conn = DriverManager.getConnection
  • MaxCompute Spark 使用和常見問題
    開發環境搭建2.1 運行模式通過Spark客戶端提交Yarn-Cluster模式,提交任務到MaxCompute集群中Local模式通過Dataworks提交本質上也是Yarn-Cluster模式,提交任務到MaxCompute集群中2.2 通過客戶端提交2.2.1 Yarn-Cluster模式下載MC
  • 0812-如何獲取CDSW上提交Spark作業的真實用戶
    異常描述在一個CDSW環境中,由於其中一個租戶經常提交大型Spark作業將YARN上租戶所在的資源池資源用到95%以上,從而影響到同一租戶下其他用戶提交作業的運行。這種情況下我們沒辦法直接找到這些大型作業的實際提交人,是因為我們在為CDSW做多租戶配置的時候會將登錄CDSW的某一批用戶統一綁定到同一個租戶下(這樣設計的目的主要是為了簡化YARN的租戶管理,而不用為每個用戶創建資源池隊列),所以導致在YARN的界面上看到的都是同一個租戶,而無法對應到實際CDSW的用戶以及這個人提交的大型作業。
  • Spark On MaxCompute如何訪問Phonix
    [N]才能直接運行,N為並發數 .config("spark.hadoop.odps.project.name", "***") .config("spark.hadoop.odps.access.id", "***") .config("spark.hadoop.odps.access.key"
  • 操作練習-Spark on Yarn
    承接上一篇文檔《》將spark應用運行在yarn集群上 官網地址:http://spark.apache.org/docs/2.0.2/running-on-yarn.html1.在standalone集群運行spark應用的時候,指定一些資源(內存、CPU)client模式執行的命令:.
  • Spark 那麼強,為啥我還不會?
    1、Spark之內存計算框架--課程內容介紹知識點:spark的課前準備內容2、通過IDEA工具開發Spark的入門案例知識點:maven構建scala工程>3、Spark之內存計算框架--通過IDEA工具開發Spark的入門案例--代碼開發知識點:scala語法、spark程序開發4、Spark之內存計算框架--程序打成jar包提交到Spark集群中運行知識點:程序打成jar包、spark-submit提交任務命令的使用
  • Spark憑什麼成為大數據領域必備計算引擎?
    1、Spark之內存計算框架--課程內容介紹知識點:spark的課前準備內容2、通過IDEA工具開發Spark的入門案例知識點:maven構建scala工程3、Spark之內存計算框架--通過IDEA工具開發Spark的入門案例--代碼開發知識點:scala語法、spark程序開發4、Spark之內存計算框架
  • java大數據任務調度平臺,提供Spark、Flink等離線任務的調度源碼
    服務基於Spring Boot 2.0開發,部署方便,功能強大,打包後即可運行。,只能讀取本地jar包,故需要在執行flink提交命令時從hdfs上下載jar包並替換腳本的jar包路徑參數,參考:flink)服務打包:mvn clean package3.啟動檢查埠17070是否被佔用,被佔用的話,關閉佔用的進程或修改項目埠號配置重新打包
  • Spark Operator 初體驗
    將Spark運行在K8S集群上可以採用Spark官方原生的作業運行方式(https://spark.apache.org/docs/3.0.0/running-on-kubernetes.html),在該模式下提交Spark作業仍然延用了spark-submit命令,並且通過指定K8S集群的ApiServer地址作為master來提交Spark作業,該方式目前對於
  • Spark應用的結構
    應用可以有多個Executor練習:1、 local模式下沒有啟動SparkShell的情況下查看2、集群模式:Driver:SparkSubmitExecutor:CoarseGrainedExecutorBackend練習:分別查看spark-shell和spark-submit命令可以找到下面的語句1、 spark-shell底層運行的是spark-submit
  • Spark詞頻前十的統計練習
    承接上一個文檔《Spark本地環境實現wordCount單詞計數》進一步延伸,做一個詞頻前十的統計練習邏輯:在reduceByKey的基礎上,首先要根據key對應的value值進行排序(降序排序),取前10個的結果就是Top10val reduceByKeyRDD
  • Spark應用的結構的學習
    Executors)(一)、Driver:相當於MapReduce中ApplicationMaster,運行SparkContext上下文、SparkContext進行初始化的地方(JVM)、進行RDD的初始化、Task運行的資源申請、調度的地方,一般認為就是main運行的地方(二)、Executors:具體的Task運行的地方,一個executor可以運行多個Task任務,一個spark
  • SparkStreaming+Flume集成例子
    org.apache.spark.streaming.7 提交Spark任務7.1 啟動Spark[root@centos sbin] ./start-all.sh7.2 提交Spark任務 spark-submit \ --class org.apache.spark.examples.streaming.FlumePushWordCount \ --packages org.apache.spark:spark-streaming-flume
  • 14 - MLSQL on k8s(2) - Spark on k8s
    下面筆者將基於spark native方式部署,分別講解如下三種模式:spark submit從物理機cluster模式提交spark submit從物理機client模式提交spark submit從container client模式提交首先,先構建spark的鏡像,因為鏡像要被共享,因此要放到一個鏡像庫中,筆者用docker搭了一個鏡像庫:
  • Spark運行模式——Local模式
    首先需要下載Spark1.官網地址 http://spark.apache.org/2.文檔查看地址 https://spark.apache.org/docs/2.1.1/3.下載地址 https://archive.apache.org/dist/spark/Local
  • 如何快速學習spark
    spark它是發源於美國的加州大學伯克利分校amplab集群計算平臺的,基於內存計算的,時速非常快,性能比Hadoop快100陪以上,它可以流處理、圖計算、還有很多的計算範式,我個人認為spark是個全能的選手,但是隨著技術的快速發展,現在又出現Flink,它和spark是一個競爭對手了,今天我們主要講spark,後續我會再分享Flink的知識。