Spark案例練習-打包提交

2020-09-06 分享電腦學習

承接上一篇文檔《》

打開埠18080的歷史服務，會發現沒有歷史日誌，現在我們想要顯示歷史日誌。

採取以下的方式

一：

//1. 構建SparkContext上下文對象

val conf = new SparkConf().setMaster(&34;) // 指定應用在哪兒執行，可以是local、或者stadnalone、yarn、mesos集群.setAppName(&34;) //指定應用的名字.set(&34;,&34;).set(&34;,&34;)

可以看到日誌信息

二：

Spark應用參數可以配置的地方

1. 在spark-default.conf裡面配置

2. ${SPARK_HOME}/bin/spark-submit腳本

添加參數 --conf &34;

3. 可以在代碼中構建SparkConf的時候通過相關API指定參數

如果上面三個都配置的話，我們配置不同的埠的話，會運行那種呢？

比如：

(1) spark-default.conf 配置 4055

(2) 添加參數 --conf &34;spark.ui.port&34;4050&34;

結果會運行4050

運行一個spark應用的時候，先去加載spark-default.conf裡面的配置文件，第二個回去加載運行spark-submit命令的配置參數，最後代碼中的配置會覆蓋前面的配置

優先級：3 》 2 》 1

現在我們準備將代碼打包提交到集群上運行，先將一部分代碼去掉，保留下面的部分

保存到資料庫的部分也注釋掉，不往資料庫保存

基於maven進行打包（clean install即可）

（1）clean：刪除target文件

（2）package：打包

（3）install: 打包，並且會jar包安裝到本地的maven倉庫中

使用spark-submit提交應用

將jar上傳後

1. 在local運行

./bin/spark-submit \--class 全包路徑.類名 \--master local \Jar包的位置

可以省略--master local \ 因為默認就是在local運行

./bin/spark-submit \--class 全包路徑..LogPVAndUVCount \/opt/modules/jar/logpvuv.jar

2. 在standalone集群運行

./bin/spark-submit \--class 全包路徑.類名 \--master spark://bigdata.ibeifeng.com:7070 \Jar包的位置

8080頁面可以找到

可以查看歷史服務中也是有的

有一個參數

deploy-mode 部署模式：決定driver運行在哪裡

client：客戶端，driver運行客戶端（指提交SparkSubmit應用的這臺機器）

cluster：集群，driver運行在集群中任意一臺Worker節點上

如果不指定的話默認是在客戶端我們現在指定

./bin/spark-submit \--class 全包路徑.LogPVAndUVCount \--master spark://master:7070 \--deploy-mode cluster \/opt/modules/jar/logpvuv.jar

可以在客戶端模式下面查看8080頁面

不過這個地方埠常用的6060作為集群模式而客戶端模式使用7070的

./bin/spark-submit \--class 全包路徑.LogPVAndUVCount \--master spark://master:6066 \--deploy-mode cluster \--name logpvuv1 \/opt/modules/jar/logpvuv.jar

【520 送女生神器】看下圖【防狼報警器】替你保護她！

相關焦點

Spark案例練習-打包提交

承接上一篇文檔《Spark案例練習-UV的統計》打開埠18080的歷史服務，會發現沒有歷史日誌，現在我們想要顯示歷史日誌。採取以下的方式一：//1.比如：spark-default.conf 配置 4055添加參數 --conf "spark.ui.port=4051.set("spark.ui.port","4050")"運行一個spark應用的時候，先去加載spark-default.conf裡面的配置文件，第二個回去加載運行spark-submit命令的配置參數，最後代碼中的配置會覆蓋前面的配置
Spark項目案例實戰和分布式部署

{ArrayUtils, Bytes}import org.apache.spark.*.tgz，每臺hadoop伺服器上放在同一個目錄下不用任何配置值即可，用spark-submit提交就行。Spark環境部署好之後，把我們的操作Hbase項目編譯打包，一個是項目本身的jar，另一個是項目依賴的jar集合，分別上傳到任意一臺伺服器就行，不要每臺伺服器都傳，在哪臺伺服器運行就在哪臺伺服器上上傳就行，依賴的jar包放在這個目錄/home/hadoop/chongdianleme/chongdianleme-spark-task-1.0.0/lib/下，
Spark 啟動及任務提交流程

worker，並發送註冊信息給Master 3、Worker開始與Master進行註冊，將註冊信息發送給Master 4、Master進程收到註冊信息後，保存到內存和磁碟裡，Master給Worker發送註冊成功的消息（Master URL） 5、Worker收到Masterde 信息後，開始與Master建立心跳二、Spark任務提交流程
Livy REST 提交Spark作業

01 Livy簡介我們平時提交的spark任務，通常是使用Apache Spark本身提供的spark-submit、spark-shell和Thrift Server外，Apache Livy提供了另外一種與Spark集群交互的方式，通過REST接口此外,Apache Livy支持同時維護多個會話
Spark案例練習-UV的統計

保存到RDBMS中、保存到非關係型資料庫中建庫建表CREATE DATABASE spark_test;USE spark_test;CREATE TABLE pvuv(`date` DATE NOT NULL,`pv` INT(11) NOT NULL,`uv` INT(11) NOT NULL)ENGINE=MYISAM DEFAULT CHARSET=utf8;編寫代碼其中val conn = DriverManager.getConnection
MaxCompute Spark 使用和常見問題

開發環境搭建2.1 運行模式通過Spark客戶端提交Yarn-Cluster模式，提交任務到MaxCompute集群中Local模式通過Dataworks提交本質上也是Yarn-Cluster模式，提交任務到MaxCompute集群中2.2 通過客戶端提交2.2.1 Yarn-Cluster模式下載MC
0812-如何獲取CDSW上提交Spark作業的真實用戶

異常描述在一個CDSW環境中，由於其中一個租戶經常提交大型Spark作業將YARN上租戶所在的資源池資源用到95%以上，從而影響到同一租戶下其他用戶提交作業的運行。這種情況下我們沒辦法直接找到這些大型作業的實際提交人，是因為我們在為CDSW做多租戶配置的時候會將登錄CDSW的某一批用戶統一綁定到同一個租戶下(這樣設計的目的主要是為了簡化YARN的租戶管理，而不用為每個用戶創建資源池隊列)，所以導致在YARN的界面上看到的都是同一個租戶，而無法對應到實際CDSW的用戶以及這個人提交的大型作業。
Spark On MaxCompute如何訪問Phonix

[N]才能直接運行，N為並發數 .config("spark.hadoop.odps.project.name", "***") .config("spark.hadoop.odps.access.id", "***") .config("spark.hadoop.odps.access.key"
操作練習-Spark on Yarn

承接上一篇文檔《》將spark應用運行在yarn集群上官網地址：http://spark.apache.org/docs/2.0.2/running-on-yarn.html1.在standalone集群運行spark應用的時候，指定一些資源（內存、CPU）client模式執行的命令：.
Spark 那麼強，為啥我還不會？

1、Spark之內存計算框架--課程內容介紹知識點：spark的課前準備內容2、通過IDEA工具開發Spark的入門案例知識點：maven構建scala工程>3、Spark之內存計算框架--通過IDEA工具開發Spark的入門案例--代碼開發知識點：scala語法、spark程序開發4、Spark之內存計算框架--程序打成jar包提交到Spark集群中運行知識點：程序打成jar包、spark-submit提交任務命令的使用
Spark憑什麼成為大數據領域必備計算引擎?

1、Spark之內存計算框架--課程內容介紹知識點：spark的課前準備內容2、通過IDEA工具開發Spark的入門案例知識點：maven構建scala工程3、Spark之內存計算框架--通過IDEA工具開發Spark的入門案例--代碼開發知識點：scala語法、spark程序開發4、Spark之內存計算框架
java大數據任務調度平臺，提供Spark、Flink等離線任務的調度源碼

服務基於Spring Boot 2.0開發，部署方便，功能強大，打包後即可運行。，只能讀取本地jar包，故需要在執行flink提交命令時從hdfs上下載jar包並替換腳本的jar包路徑參數，參考：flink）服務打包：mvn clean package3.啟動檢查埠17070是否被佔用，被佔用的話，關閉佔用的進程或修改項目埠號配置重新打包
Spark Operator 初體驗

將Spark運行在K8S集群上可以採用Spark官方原生的作業運行方式（https://spark.apache.org/docs/3.0.0/running-on-kubernetes.html），在該模式下提交Spark作業仍然延用了spark-submit命令，並且通過指定K8S集群的ApiServer地址作為master來提交Spark作業，該方式目前對於
Spark應用的結構

應用可以有多個Executor練習：1、 local模式下沒有啟動SparkShell的情況下查看2、集群模式：Driver：SparkSubmitExecutor：CoarseGrainedExecutorBackend練習：分別查看spark-shell和spark-submit命令可以找到下面的語句1、 spark-shell底層運行的是spark-submit
Spark詞頻前十的統計練習

承接上一個文檔《Spark本地環境實現wordCount單詞計數》進一步延伸，做一個詞頻前十的統計練習邏輯：在reduceByKey的基礎上，首先要根據key對應的value值進行排序（降序排序），取前10個的結果就是Top10val reduceByKeyRDD
Spark應用的結構的學習

Executors）（一）、Driver：相當於MapReduce中ApplicationMaster，運行SparkContext上下文、SparkContext進行初始化的地方（JVM）、進行RDD的初始化、Task運行的資源申請、調度的地方，一般認為就是main運行的地方（二）、Executors：具體的Task運行的地方，一個executor可以運行多個Task任務，一個spark
SparkStreaming+Flume集成例子

org.apache.spark.streaming.7 提交Spark任務7.1 啟動Spark[root@centos sbin] ./start-all.sh7.2 提交Spark任務 spark-submit \ --class org.apache.spark.examples.streaming.FlumePushWordCount \ --packages org.apache.spark:spark-streaming-flume
14 - MLSQL on k8s(2) - Spark on k8s

下面筆者將基於spark native方式部署，分別講解如下三種模式：spark submit從物理機cluster模式提交spark submit從物理機client模式提交spark submit從container client模式提交首先，先構建spark的鏡像，因為鏡像要被共享，因此要放到一個鏡像庫中，筆者用docker搭了一個鏡像庫：
Spark運行模式——Local模式

首先需要下載Spark1．官網地址 http://spark.apache.org/2．文檔查看地址 https://spark.apache.org/docs/2.1.1/3．下載地址 https://archive.apache.org/dist/spark/Local
如何快速學習spark

spark它是發源於美國的加州大學伯克利分校amplab集群計算平臺的，基於內存計算的，時速非常快，性能比Hadoop快100陪以上，它可以流處理、圖計算、還有很多的計算範式，我個人認為spark是個全能的選手，但是隨著技術的快速發展，現在又出現Flink，它和spark是一個競爭對手了，今天我們主要講spark，後續我會再分享Flink的知識。

Spark案例練習-打包提交

相關焦點

Spark案例練習-打包提交

Spark項目案例實戰和分布式部署

Spark 啟動及任務提交流程

Livy REST 提交Spark作業

Spark案例練習-UV的統計

MaxCompute Spark 使用和常見問題

0812-如何獲取CDSW上提交Spark作業的真實用戶

Spark On MaxCompute如何訪問Phonix

操作練習-Spark on Yarn

Spark 那麼強，為啥我還不會？

Spark憑什麼成為大數據領域必備計算引擎?

java大數據任務調度平臺，提供Spark、Flink等離線任務的調度源碼

Spark Operator 初體驗

Spark應用的結構

Spark詞頻前十的統計練習

Spark應用的結構的學習

SparkStreaming+Flume集成例子

14 - MLSQL on k8s(2) - Spark on k8s

Spark運行模式——Local模式

如何快速學習spark