手把手教你在本機安裝spark

2021-01-09 酷扯兒

本文轉載自【微信公眾號:五角錢的程式設計師,ID:xianglin965】,經微信公眾號授權轉載,如需轉載與原文作者聯繫

今天是spark系列的第一篇文章。

最近由於一直work from home節省了很多上下班路上的時間,加上今天的LeetCode的文章篇幅較小,所以抽出了點時間加更了一篇,和大家分享一下最近在學習的spark相關的內容。看在我這麼拼的份上,求各位老爺賞個轉發。。。

PS:本專題不保證每周更新,畢竟不是每周都能加更。。。

言歸正傳,spark鼎鼎大名,凡是搞分布式或者是大數據的應該都聽說過它的大名。它是apache公司開發的一個開源集群計算框架,也就是分布式計算框架。相比於Hadoop的MapReduce,它支持更多的功能,並且運算速度也更快,如今已經成了非常主流的大數據計算框架。幾乎各大公司當中都有它的身影。

spark支持像是java、scala和Python等眾多語言,但是對於spark來說語言不太重要,不同的語言寫出來的spark代碼相差不太大。和之前的文章一樣,我會以Python為主,畢竟Python對初學者比較友好(雖然我自己在工作當中使用的是scala)。

今天這篇文章從最基礎的spark安裝開始講起,安裝spark並不需要一個龐大的集群,實際上單機也可以。這也是我們學習的基礎,這樣我們就可以在本機上做各種實驗了。和大多數環境不同,spark的安裝要簡單得多,這也是它比較友好的地方。

下載安裝

進入spark官網,點擊download

選擇Pre-built for Apache Hadoop,這樣我們就不用預先安裝Hadoop了,相信我,安裝Hadoop是一件非常痛苦的事情。。。

在跳轉的連結當中繼續點擊,開始下載。

壓縮包大概在230MB左右,不是特別大,很快能下好。下好了之後會得到一個tgz的壓縮包。如果是Mac的話可以直接解壓,如果是Windows的話可以用7z等解壓工具進行解壓。

也可以使用命令行進行解壓:

sudo tar -zvxf spark-3.0.0-preview2-bin-hadoop2.7.tgz

解壓完了之後記住你放的位置,當然我更建議你放在專門的位置。或者可以放在/usr/local下。

使用命令進行移動:

sudo mv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local/

基本配置

放置好了之後,我們打開配置文件修改環境配置。因為我用的是zsh的終端,如果是原生的終端的話應該是.bash_profile,由於我用的是mac,如果是windows用戶,請百度windows設置環境變量。。。

vim ~/.zshrc

在末尾加上三行:

export SPARK_HOME=/usr/local/spark-3.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binexport PYSPARK_PYTHON=python3

改完了之後,別忘了source ~/.zshrc激活一下。

之後我們運行一下pyspark,看到熟悉的logo就說明我們的spark已經裝好了

目前為止常用的spark方式主要有兩種,一種是通過Python還有一種是通過Scala。這兩種都蠻常見的,所以我們可以簡單了解一下。

配置jupyter

下面介紹最基本的開啟方法,Python的開啟方法我們剛才已經介紹過了,可以直接使用pyspark命令進行喚醒。對於Scala來說也差不多,不過命令換了一下,不叫pyspark也不叫scspark,而是spark-shell。

出來的界面大同小異,只不過語言換成了Scala:

無論是pyspark還是spark-shell都只是spark提供的最基礎的工具,使用體驗並不好,已經不太適合現在的需求了。好在針對這個問題也有解決方案,一種比較好的解決方式是配置jupyter notebook。

jupyter notebook是非常常用的交互式編程的工具,廣泛使用。我們可以在jupyter notebook當中配置Scala和Pyspark。

首先介紹Scala。

Scala的配置方法很簡單,由於我們已經配置好了spark的環境變量,我們只需要安裝一下jupyter下Scala內核Toree即可。安裝的方式也非常簡單,只需要兩行命令:

pip install toreejupyter toree install --spark_home=$SPARK_HOME

運行結束之後, 我們打開點擊添加,可以發現我們可以選擇的內核多了一個:

pyspark的配置也很簡單,我們只需要在.zshrc當中添加兩個環境變量:

export PYSPARK_DRIVER_PYTHON=jupyterexport PYSPARK_DRIVER_PYTHON_OPTS=notebook

配置好了之後,我們只需要在終端輸入pyspark就會自動為我們開啟一個新的jupyter網頁。我們選擇Python3的內核新建job就可以使用pyspark了。我們執行一下sc,如果看到以下結果,就說明我們的pyspark已經可以在jupyter當中執行了。

到這裡,關於spark的安裝配置就介紹完了。由於我個人使用的是Mac電腦,所以一些配置方法可能對其他系統的電腦並不完全適用。但是配置的過程是大同小異的,一些具體的細節可以針對性地進行調整。

spark是當下非常流行的大數據處理引擎,使用非常廣泛,所以了解和掌握spark,也是非常重要的技能。和Hadoop比起來它的安裝和使用都要簡便許多,希望大家都能體會到它的魅力。

相關焦點

  • adobe after effects插件怎麼安裝 手把手教你ae插件怎麼安裝
    adobe after effects插件怎麼安裝 手把手教你ae插件怎麼安裝時間:2017-07-17 15:09   來源:系統天堂   責任編輯:沫朵 川北在線核心提示:原標題:adobe after effects插件怎麼安裝 手把手教你ae插件怎麼安裝 adobe after effects插件怎麼安裝
  • 手把手教你安裝南方CASS(內含cass9.0-9.2安裝包及CAD安裝包)
    ,別急今天就手把手教你在window10 64位作業系統上安裝南方CASS9.2。使用這款南方CASS完美版讓你體驗最專業的工程製圖,如果您遇到了什麼在工程製圖方面的問題,使用南方CASS讓你迎刃而解。
  • 學姐分享|手把手教你免費安裝、激活Office
    每次要安裝各種大型軟體比如Office時,頭就大了,作為一個工科女,這點小事怎麼難得到我呢?來,小九學姐手把手教你免費安裝、激活office各版本!在這個過程中,我們只需要下載一個內存只有11M的軟體——Office Tool Plus。是的,就是這麼簡單。
  • 手把手教你LED顯示屏的硬體安裝與軟體調試
    手把手教你LED顯示屏的硬體安裝與軟體調試   慧聰LED屏網報導   一.led顯示屏的安裝步驟  計算好使用的led數量和電源後  1,首先將切割好的型材拼接,也就是組裝好顯示屏的外框。市場上通用型材無非方形、圓形,但組裝方法是一樣的,如下圖;     2,把外框架組裝完畢,將單元板擺放於框架內(注意框架的正反面,有槽的一面是正面),這時候安裝背條的位置是相當準確的
  • 手把手教你學ELISA、PCR、免疫組化
    1.手把手教你學ELISAELISA的基礎是抗原或抗體的固相化及抗原或抗體的酶標記。結合在固相載體 表面的抗原或抗體仍保持其免疫學活性,酶標記的抗原或抗體既保留其免疫學活性,又保留酶的活性。2.手把手教你學PCR實時螢光定量PCR,簡稱RT-QPCR,屬於Q-PCR的一種,目前該技術已得到廣泛應用,如:擴增特異性分析、基因定量分析、基因分型、SNP分析等。
  • 手把手教你擼房子!
    泰拉瑞亞房子怎麼做 手把手教你擼房子泰拉瑞亞怎麼造房屋?
  • 手把手教你製作ppt日記本
    手把手教你製作ppt日記本時間:2017-07-16 15:06   來源:三聯   責任編輯:沫朵 川北在線核心提示:原標題:ppt怎麼製作筆記本? 手把手教你製作ppt日記本 ppt怎麼製作筆記本?本文介紹了使用ppt製作日記本的方法,製作方法簡單,一起來學習吧!
  • 手把手教你正確使用方法
    手把手教你正確使用方法 2019年12月17日 13:12作者:網絡編輯:宏偉   俗話說  但是你知道嗎?電動牙刷的操作也是有技巧,正確使用可以達到事半功倍的效果。接下來,就以小編最近入手的usmile Y4電動牙刷為例,來詳細說說「電動牙刷怎麼用」的那些事。
  • 《最強蝸牛》該隱打法攻略 手把手教你該隱怎麼打
    《最強蝸牛》該隱打法攻略 手把手教你該隱怎麼打時間:2020-10-01 15:47   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《最強蝸牛》該隱打法攻略 手把手教你該隱怎麼打 最強蝸牛該隱怎麼打?
  • 剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用
    剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用時間:2020-07-01 17:09   來源:騰牛網    責任編輯:沫朵 川北在線核心提示:原標題:剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用 剪映是非常好用的剪輯工具,現在很多人都愛用,裡面有很多功能,可以製作出很好的視頻。
  • 我的***煙花炮竹圖文教程 手把手教你煙花炮竹怎麼做
    :原標題:我的****煙花炮竹圖文教程 手把手教你煙花炮竹怎麼做 除夕時我們都會用炮竹驅趕年魔,也叫夕,那麼如果想在我的****中建造一個煙花炮竹應該怎麼做呢?想必各位玩家對此存在許多疑惑,接下來我們一起來跟隨諸葛教科書看看我的****煙花炮竹教程吧。
  • 手把手教你打造自己的「阿法狗」
    別裝了,你根本就不懂圍棋,此前也壓根沒聽說過什麼李世石。可你最近還是到處跟人大談「阿法狗」,就好像那就是你姥姥家的旺財一樣。你當然不可能在寵物店找到這隻「阿法狗」,這套大名叫做AlphaGo的智能設備有錢你也買不到。不過,紳寶君能保證你可以輕鬆打造出屬於自己的「阿法狗」——還能到處跑的那種。
  • Spark運行模式——Local模式
    首先需要下載Spark1.官網地址 http://spark.apache.org/2.文檔查看地址 https://spark.apache.org/docs/2.1.1/3.下載地址 https://archive.apache.org/dist/spark/Local
  • 停止使用Pandas並開始使用Spark+Scala
    我們還需要導入另一個有用的spark函數col,該函數用於引用列。  我們可能還希望代碼的某些部分僅使用Scala本機數據結構,例如Arrays,Lists等。要獲得列之一作為Array,我們需要映射到我們的值並調用.collect()。
  • 《閃耀暖暖》AR模式拍照方法介紹 手把手教你如何拍照
    《閃耀暖暖》AR模式拍照方法介紹 手把手教你如何拍照時間:2019-07-18 10:23   來源:牛遊戲網   責任編輯:沫朵 川北在線核心提示:原標題:《閃耀暖暖》AR模式拍照方法介紹 手把手教你如何拍照 在《閃耀暖暖》手遊中,玩家們可以使用AR模式來給暖暖拍照了,拍照背景可以選擇遊戲場景或者真實場景,還可以選擇不同的拍照姿勢哦
  • 手把手教你使用win7電腦放大鏡
    手把手教你使用win7電腦放大鏡時間:2018-03-27 08:25   來源:系統天堂   責任編輯:沫朵 川北在線核心提示:原標題:win7放大鏡怎麼用? 手把手教你使用win7電腦放大鏡 win7放大鏡怎麼用?有時候網頁的字太小,我們會遇到看不清楚的情況,這時候我們可以藉助電腦本身的放大鏡功能,來清晰查看內容。
  • 明年1月到手工資或能變多,手把手教你操作
    記者手把手來教你。按照規定,每年12月份要對次年享受專項附加扣除的內容進行確認,確認後,才可在扣除年度生效。 打工人注意了,2021年度個稅專項附加扣除開始確認了。怎麼操作?記者手把手來教你。按照規定,每年12月份要對次年享受專項附加扣除的內容進行確認,確認後,才可在扣除年度生效。
  • 完美世界手遊尋寶利器完成攻略 手把手教你尋寶利器怎麼做
    完美世界手遊尋寶利器完成攻略 手把手教你尋寶利器怎麼做時間:2019-03-18 16:31   來源:優遊網   責任編輯:沫朵 川北在線核心提示:原標題:完美世界手遊尋寶利器完成攻略 手把手教你尋寶利器怎麼做 完美世界手遊尋寶利器怎麼做?
  • 我叫MT4失落的寶藏詳細攻略 手把手教你完成隱藏任務巨額獎勵等你拿
    我叫MT4失落的寶藏詳細攻略 手把手教你完成隱藏任務巨額獎勵等你拿時間:2018-08-06 17:03   來源:18183   責任編輯:沫朵 川北在線核心提示:原標題:我叫MT4失落的寶藏詳細攻略 手把手教你完成隱藏任務巨額獎勵等你拿 失落的寶藏系列任務是我叫MT4中的隱藏任務之一,其豐富獎勵讓眾多玩家垂涎
  • 《企鵝電競》直播圖文教程 手把手教你怎麼開通企鵝電競直播
    《企鵝電競》直播圖文教程 手把手教你怎麼開通企鵝電競直播時間:2020-06-24 18:49   來源:咖綠茵   責任編輯:沫朵 川北在線核心提示:原標題:《企鵝電競》直播圖文教程 手把手教你怎麼開通企鵝電競直播 企鵝電競怎麼直播呢,玩騰訊遊戲的人一般都愛看企鵝電競上面的直播,不少網友想知道該怎麼開直播,接下來就讓咖綠茵小編給大家帶來