SparkCore——專業術語及流程圖

2021-01-09 分享電腦學習

輸入可能以多個文件的形式存儲在HDFS上,每個File都包含了很多塊,稱為Block。當Spark讀取這些文件作為輸入時,會根據具體數據格式對應的InputFormat進行解析,一般是將若干個Block合併成一個輸入分片,稱為InputSplit,注意InputSplit不能跨越文件。隨後將為這些輸入分片生成具體的Task。InputSplit與Task是一一對應的關係。隨後這些具體的Task每個都會被分配到集群上的某個節點的某個Executor去執行。

·每個節點可以起一個或多個Executor。

·每個Executor由若干core組成,每個Executor的每個core一次只能執行一個Task。

·每個Task執行的結果就是生成了目標RDD的一個partiton。

注意: 這裡的core是虛擬的core而不是機器的物理CPU核,可以理解為就是Executor的一個工作線程。

而 Task被執行的並發度 = Executor數目 * 每個Executor核數。

至於partition的數目:

·對於數據讀入階段,例如sc.textFile,輸入文件被劃分為多少InputSplit就會需要多少初始Task。

·在Map階段partition數目保持不變。

·在Reduce階段,RDD的聚合會觸發shuffle操作,聚合後的RDD的partition數目跟具體操作有關,例如repartition操作會聚合成指定分區數,還有一些算子是可配置的。

1,Application

application(應用)其實就是用spark-submit提交的程序。比方說spark examples中的計算pi的SparkPi。一個application通常包含三部分:從數據源(比方說HDFS)取數據形成RDD,通過RDD的transformation和action進行計算,將結果輸出到console或者外部存儲(比方說collect收集輸出到console)。

2,Driver

Spark中的driver感覺其實和yarn中Application Master的功能相類似。主要完成任務的調度以及和executor和cluster manager進行協調。有client和cluster聯眾模式。client模式driver在任務提交的機器上運行,而cluster模式會隨機選擇機器中的一臺機器啟動driver。從spark官網截圖的一張圖可以大致了解driver的功能。

3,Job

Spark中的Job和MR中Job不一樣不一樣。MR中Job主要是Map或者Reduce Job。而Spark的Job其實很好區別,一個action算子就算一個Job,比方說count,first等。

4, Task

Task是Spark中最新的執行單元。RDD一般是帶有partitions的,每個partition的在一個executor上的執行可以任務是一個Task。

5, Stage

Stage概念是spark中獨有的。一般而言一個Job會切換成一定數量的stage。各個stage之間按照順序執行。至於stage是怎麼切分的,首選得知道spark論文中提到的narrow dependency(窄依賴)和wide dependency( 寬依賴)的概念。其實很好區分,看一下父RDD中的數據是否進入不同的子RDD,如果只進入到一個子RDD則是窄依賴,否則就是寬依賴。寬依賴和窄依賴的邊界就是stage的劃分點

相關焦點

  • 【模具英語專題】模具英語專業術語
    cutting die成形模:forming die塑膠模:plastics mold注射模:injection mold壓縮模:compression mold鑄塑模:transfer mold吹塑模:blow mold吸塑模:suck mold鑄造模:casting die砂型鑄造:sand casting壓鑄模:die casting鍛造模:forging die塑膠模具術語
  • 大數據分析工程師入門9-Spark SQL
    使用高級API進行開發SparkSQL支持SQL API,DataFrame和Dataset API多種API,使用這些高級API進行編程和採用Sparkcore的RDD API 進行編程有很大的不同。
  • 停止使用Pandas並開始使用Spark+Scala
    我們還需要導入另一個有用的spark函數col,該函數用於引用列。這設置了一些spark配置,還允許您添加依賴項。 在這裡,我添加了一個名為vegas的可視化庫。  要包括的兩個主要內容:  · build.sbt-以前我們在一個筆記本單元中添加了依賴項,現在我們需要將它們添加到build.sbt文件中  · SparkSession-在筆記本中我們已經有一個spark會話,這意味著我們能夠執行spark.createDataFrame之類的事情。
  • 「236個工業設計專業術語」——中英文對照
    「工業設計有很多的專業術語從材質到表面處理、顏色、工藝等··
  • 數據流程圖是什麼?流程圖設計一篇文章看懂!
    軟體內置260多種繪圖類型,豐富的模板集素材可以幫助辦公人士快速繪製流程圖、思維導圖、商務圖表、組織結構圖、甘特圖、地圖、線框圖、數據模型圖、UML以及網絡拓撲圖等專業圖形,提高工作效率。億圖圖示適用於Windows、Mac以及Linux系統平臺,億圖在線支持在瀏覽器網頁直接使用。跨平臺無障礙創作,便於各種場景使用。
  • 火災調查專業術語
    本章中術語定義適用於此指南所有內容。此章節或其他章節中未進行定義的術語,應該結合上下文,根據其通常含義進行理解。術語的通常含義,可參考第11版韋氏大詞典的相關內容。3.2 NFPA Official Definitions.
  • 生產流程圖怎麼做?優秀的流程圖應該這樣畫
    儘管生產的是同一種產品,但由於不同工廠配備的設施設備、設備生產力等的不同,導致同一產品的生產流程圖也存在著差異。生產流程圖常見用途生產流程圖一般與工業生產有關,因此生產流程圖常見的用處是1.作為工廠生產整個流程的作業指導。從上遊到下遊的每個生產步驟都一目了然,並能幫助生產過程的優化,做到精益生產。2.為開發新品生產提供參考依據。
  • 系統流程圖全新模板!輕鬆設計軟體系統流程圖
    系統流程圖常見的用途系統流程圖呈現出系統具體部件的流程情況,他的作用表現在以下幾個方面:1、系統流程圖繪製過程就是分析員全面了解系統業務處理概括的過程,是做進一步分析的依據;2、是分析員、管理員和業務操作員相互交流的工具;3、分析員可以在系統流程圖繪製出計算機的處理部分;4、利用系統流程圖來分析業務流程的合理性;
  • 系統流程圖是什麼?2020新版流程圖設計軟體超好畫
    系統流程圖常見用途1.系統分析員利用系統流程圖,全面了解系統業務處理概況的過程,並以此為依據做進一步分析。2.系統流程圖是系統分析員、管理員、業務操作員相互交流的工具。3.可利用系統流程圖來分析業務流程的合理性,發現問題,分析不足,改進處理過程。系統流程圖繪製軟體---億圖圖示繪製系統流程圖可以使用億圖圖示。
  • Spark運行模式——Local模式
    首先需要下載Spark1.官網地址 http://spark.apache.org/2.文檔查看地址 https://spark.apache.org/docs/2.1.1/3.下載地址 https://archive.apache.org/dist/spark/Local
  • 烏海spark培訓_博雅環球教育放心之選
    烏海spark培訓,博雅環球教育放心之選,是以網際網路企業技術研發、軟體開發、大數據分析、雲計算、人工智慧開發應用等網際網路技術為依託,以校企專業共建,崗前技能實訓,高薪就業安置,網際網路人才外包服務等業務為核心的高端就業培訓。烏海spark培訓, Oracle認證講師、Microsoft認證講師。
  • 流程圖製作軟體哪個比較簡單?怎麼製作流程圖比較快?
    流程圖製作軟體哪個比較簡單?說到流程圖,小夥伴們的腦海裡便會浮現出一張張由許多個流程元素組合而成的結構複雜的圖片。其實,歸根結底,流程圖是一個能夠幫助大家(尤其是體系分析員)理解事項發展過程的工具。製作流程圖關鍵是一目了然、簡單易懂,藉助專業軟體就可以做到。
  • 大話業務流程圖(一)——什麼是業務流程圖
    編輯導語:產品經理在日常工作中經常需要繪製業務流程圖,有了業務流程圖後,在整體上的業務梳理就會更加清楚,提高工作效率;本篇文章作者詳細介紹了什麼是業務流程圖,我們一起來看一下。業務流程圖是產品經理,尤其是B端產品經理經常需要繪製的一種圖。
  • 大數據掃盲——什麼是spark
    spark的出現就彌補了MapReduce的不足。 spark是一種基於內存的快速、通用、可擴展的大數據計算引擎。它集批處理、實時流處理、交互式查詢、圖計算與機器學習於一體Spark應用場景批處理可用於ETL(抽取、轉換、加載)。 機器學習可用於自動判斷淘寶的買家評論是好評還是差評。 交互式分析可用於查詢Hive數據倉庫。
  • 手把手教你在本機安裝spark
    本文轉載自【微信公眾號:五角錢的程式設計師,ID:xianglin965】,經微信公眾號授權轉載,如需轉載與原文作者聯繫今天是spark系列的第一篇文章。最近由於一直work from home節省了很多上下班路上的時間,加上今天的LeetCode的文章篇幅較小,所以抽出了點時間加更了一篇,和大家分享一下最近在學習的spark相關的內容。
  • 深入對比數據科學工具箱: SparkR vs Sparklyr
    SparkR 文檔:http://spark.apachecn.org/docs/cn/2.3.0/structured-streaming-programming-guide.html       Sparklyr 文檔:https://spark.rstudio.com
  • 數據分析工程師面試集錦5——Spark面試指南
    1)Spark core:是其它組件的基礎,spark的內核,主要包含:有向循環圖、RDD、Lingage、Cache、broadcast等,並封裝了底層通訊框架,是Spark的基礎。10、spark有哪些存儲級別?
  • 雅思小作文中流程圖題型的
    在雅思下作文中,有一個流程圖的題型,雅託邦小編今天就此為大家帶來流程圖題型的答題技巧,給大家以供參考,那麼大家和雅託邦小編一看來看看吧!流程圖題型解答 學會概念性的描述,流程圖中,有時不可避免的會出現一些比較專業的概念,考場上一時想不出對應的英文,這時候要善於利用已知的簡單詞彙,試著把這些「專業」的概念用簡單的方式表達出來。
  • 業務流程圖:繪製業務流程圖的方法步驟
    不同行業有不同業務,很多行業都需要我們學會、掌握業務流程圖的製作技巧。例如,和同事們分享新產品的使用原理、分析新產品的銷售業務時,大家便需要用流程圖來講解過程。那麼,業務流程圖用什麼工具畫?現在,我們不妨一起來學習一下繪製業務流程圖的方法步驟。
  • sparksql 窗口函數原理
    相信大家比較難看懂舉個例子:我們常用的row_number()來說select row_number() over(partitionby col1orderby col2) fromtable上面的語句主要分兩部分window函數部分(window_func)窗口定義部分2.1 window函數部分windows函數部分就是所要在窗口上執行的函數,spark