好程式設計師大數據分享Hadoop2.X的環境配置與運行官方案例

2020-09-03 好程式設計師

一、安裝之前的準備

1.1 修改主機名稱

進入 Linux 系統查看本機的主機名。通過 hostname 命令查看。

[root@localhost ~] 地址是自己主機名稱的ip

1.2 關閉防火牆

1)service iptables stop 關閉防火牆

2)chkconfig iptables off 永久關閉防火牆啟動

3)chkconfig iptables --list 查看防火牆開機啟動狀態

1.3 規劃軟體安裝目錄

1)創建安裝包的保存目錄,以及安裝目錄

mkdir -p /opt/software 保存軟體的安裝包

mkdir -p /opt/app 軟體的安裝路徑

1.4 創建Hadoop用戶,以及賦予sudo權限

1)創建Hadoop用戶,以後的操作都是在hadoop用戶下完成的

useradd hadoop 創建hadoop用戶

passwd hadoop 為hadoop用戶設置密碼

2)為hadoop用戶賦予sudo權限

在root用戶下,執行visudo命令編輯如下內容

Allow root to run any commands anywhere root ALL=(ALL) ALL

hadoop ALL=(ALL) ALL 為hadoop用戶設置sudo權限

Same thing without a password %wheel ALL=(ALL) NOPASSWD: ALL hadoop ALL=(ALL) NOPASSWD: ALL. 為hadoop用戶設置免密碼sudo權限

1.5 安裝JDK環境

首先先把jdk的安裝包上傳到software 文件夾下,之後對其安裝

1)解壓 sudo tar -zvxf jdk-8u181-linux-x64.tar.gz

2)配置JDK環境變量

首先獲取JDK的安裝路徑

[hadoop@hadoop01 jdk1.8.0_181]$ pwd

/opt/soft/jdk1.8.0_181

接下來打開 /etc/profile 文件進行環境變量的設置

vi /etc/profile

在 profie 文件末尾添加 jdk 路徑:

The java implementation to use.

export JAVA_HOME=/opt/soft/jdk1.8.0_181

在該配置文件中,找到如上內容,並且修改JAVA_HOME 為自己的JDK路徑 配置完成之後,可以在hadoop根路徑下,輸入如下命令

bin/hadoop

Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]

CLASSNAME run the class named CLASSNAME

or

where COMMAND is one of:

fs run a generic filesystem user client

version print the version

jar <jar> run a jar file

note: please use "yarn jar" to launch

YARN applications, not this command.

checknative [-a|-h] check native hadoop and compression libraries availability

distcp <srcurl> <desturl> copy file or directories recursively

archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive

classpath prints the class path needed to get the

credential interact with credential providers

Hadoop jar and the required libraries

daemonlog get/set the log level for each daemon

trace view and modify Hadoop tracing settings

Most commands print help when invoked w/o parameters.

如果能看到如上的信息,說明基本的運行環境已經搭建完成了

二、Hadoop運行模式

Hadoop的運行模式,分為以下幾種:

1) 本地模式(默認模式)

不需要啟用單獨進程,直接可以運行,測試和開發時使用。

2)偽分布模式

等同於完全分布式,只有一個節點。

3)完全分布式模式

多個節點一起運行。

2.1 本地運行Hadoop官方案例Grep

對於這個案例來說,主要的作用就是,在一堆文件中與規定的正則表達式進行匹配,把匹配成功的單詞出現的次數,進行統計

$ mkdir input

$ cp etc/hadoop/*.xml input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

$ cat output/*

以上為官網上給出的案例代碼

從以上的案例代碼可以得出,首先需要創建一個目錄,用於存放需要統計的文件,而對於統計結果的保存目錄則不用以前創建,注意:Hadoop中輸出結果的目錄是不能提前存在的

範例:運行grep案例

1)在hadoop根目錄下創建一個文件夾input

[hadoop@hadoop01 hadoop-2.7.2]$ mkdir input

2) 將hadoop的xml配置文件複製到input

[hadoop@hadoop01 hadoop-2.7.2]$ cp etc/hadoop/*.xml input/

3) 執行share目錄下的mapreduce程序

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

4) 查看輸出結果

[hadoop@hadoop01 hadoop-2.7.2]$ cat output/*

1 dfsadmin

2.2 運行官方wordcount案例

1) 在hadoop根目錄中創建用於保存統計文件的wcinput目錄

[hadoop@hadoop01 hadoop-2.7.2]$ mkdir wcinput

2) 在 wcinput 文件下創建一個 wordcount.txt 文件

[hadoop@hadoop01 wcinput]$ vi worldcount.txt

hello java world input

hadoop hive zookeeper java

world input hello hadoop

hbase zookeeper sqoop

3) 執行wordcount案例程序

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

4) 查看結果

[hadoop@hadoop01 hadoop-2.7.2]$ cat wcoutput/part-r-00000

hadoop 2

hbase 1

hello 2

hive 1

input 2

java 2

sqoop 1

world 2

zookeeper 2

通過以上的方式,就可以完成Hadoop的最基本的環境搭建,以及運行Hadoop的一些案例

相關焦點

  • 好程式設計師大數據培訓簡述Hadoop常見問題
    好程式設計師大數據培訓簡述Hadoop常見問題,近期有不少剛剛接觸或者是剛參加大數據培訓的小夥伴詢問Hadoop常見問題有哪些,下面是簡單整理的一些內容,現在分享給大家,希望對小夥伴們有所幫助。  2、以後想從事大數據方面工作,算法要掌握到什麼程度,算法佔主要部分嗎?  首先,如果要從事大數據相關領域的話,hadoop是作為工具來使用的,首先需要掌握使用方法。可以不用深入到hadoop源碼級別細節。  然後就是對算法的理解,往往需要設計到數據挖掘算法的分布式實現,而算法本身你還是需要理解的,例如常用的k-means聚類等。
  • 好程式設計師大數據培訓分享Hadoop分布式集群
    好程式設計師大數據培訓分享Hadoop分布式集群的詳細介紹,首先Hadoop的搭建有三種方式,單機版適合開發調試;偽分布式版,適合模擬集群學習;完全分布式,生產使用的模式。這篇文件介紹如何搭建完全分布式的hadoop集群,一個主節點,三個數據節點為例來講解。
  • 大數據平臺搭建:Hadoop集群運行模式與相關配置詳解
    Hadoop官方網站:http://hadoop.apache.org/4.1 本地運行模式(官方wordcount)1)創建在hadoop-3.1.3文件下面創建一個wcinput文件夾mkdir2hadoop 2mapreduce 1yarn 14.2 完全分布式運行模式(開發重點)分析:1)準備3臺客戶機(關閉防火牆、靜態ip、主機名稱)2)安裝JDK3)配置環境變量4)安裝Hadoop
  • 大數據平臺搭建:Hadoop安裝與配置詳細步驟
    3.1 虛擬機環境準備1)準備三臺虛擬機,虛擬機配置要求如下:(1)單臺虛擬機:內存4G,硬碟50G,安裝必要環境-3.1.3.tar.gz jdk-8u212-linux-x64.tar.gz6)解壓JDK到/opt/module目錄下tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/7)配置JDK環境變量
  • 大數據Spark運行環境:Standalone模式與配置詳解
    大數據Spark運行環境:Standalone模式與相關配置詳解=7077注意:7077埠,相當於hadoop3.x內部通信的8020埠,此處的埠需要確認自己的虛擬機配置5) 分發spark-standalone目錄xsync spark-standalone
  • 好程式設計師大數據培訓之Hadoop常見問題
    好程式設計師大數據培訓之Hadoop常見問題解答,Hadoop的常見問題有很多,以前也曾給讀者們分享過一些,本篇文章繼續給讀者們分享一些Hadoop常見問題解答,感興趣的小夥伴就來了解一下吧。大數據培訓  1、100個以上hadoop節點,一般怎麼開發,運維?
  • Hadoop分布式環境搭建
    配置文件,在/home/Hadoop 下創建一個 app/目錄,將 hadoop-2.7.7 解壓到 app/目錄下,將 jdk1-8 也解壓到 app/目錄下,配置好 JAVA_HOME 和 HADOOP_HOME環境變量,添加到當前用戶的 bash_profile。
  • hadoop運行環境搭建-虛擬機安裝與配置(開發重點)
    本文轉載自【微信公眾號:五角錢的程式設計師,ID:xianglin965】,經微信公眾號授權轉載,如需轉載與原文作者聯繫作者丨BossXiang 圖丨pexels當開始著手實踐 Hadoop 時,安裝配置虛擬機環境往往會成為新手的一道門檻。
  • 沒有集群環境?你的Windows機器竟然也可以學習Hadoop大數據開發
    hadoop 最初是Linux平臺使用的,集群環境也是搭建在linux系統。其實在學習的時候完全可以在Windows去練習它的使用,這樣不需要安裝虛擬機也可以學習Hadoop了。下面我通過實踐總結了一套步驟供你一步步實現。
  • 好程式設計師大數據培訓分享大數據技術Hbase和Hive詳解
    好程式設計師大數據培訓分享大數據技術Hbase和Hive詳解,今天給大家介紹一下關於零基礎學習大數據視之HBASE和HIVE是多麼重要的技術,那麼兩者有什麼區別呢?下面我們一起來看一下吧。
  • Hadoop知識整理
    etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件(3)lib目錄:存放Hadoop的本地庫(對數據進行壓縮解壓縮功能)(4)sbin目錄:存放啟動或停止Hadoop相關服務的腳本(5)share目錄:存放Hadoop的依賴jar包、文檔、和官方案例Hadoop運行模式
  • 大數據任務調度:Azkaban詳細安裝配置與案例實操
    測試環境,必須將MinimumFreeMemory刪除掉,否則它會認為集群資源不夠,不執行。>2.2 Work Flow案例實操2.2.1 HelloWorld案例1)在windows環境,新建azkaban.project文件,編輯內容如下
  • 好程式設計師大數據培訓分享Hadoop的shuffle過程
    好程式設計師大數據培訓分享Hadoop的shuffle過程,對大數據感興趣想要學習或者是想要加入到大數據行業的小夥伴們就隨小編一起來看一下吧。  map端:  map過程的輸出是寫入本地磁碟而不是HDFS,但是一開始數據並不是直接寫入磁碟而是緩衝在內存中,緩存的好處就是減少磁碟I/O的開銷,提高合併和排序的速度。默認的內存緩衝大小是100M(可以配置),所以在書寫map函數的時候要儘量減少內存的使用,為shuffle過程預留更多的內存,因為該過程是最耗時的過程。
  • 大數據高級進階:hadoop源碼編譯
    大數據高級進階:(1)hadoop-3.1.3-src.tar.gz(2)jdk-8u212-linux-x64.tar.gz(3)apache-ant-1.9.9-bin.tar.gz(build工具,打包用的)(4)apache-maven-3.0.5-bin.tar.gz(5)protobuf-2.5.0.tar.gz(序列化的框架)
  • Hadoop框架:HDFS高可用環境配置
    >如果Active節點故障停機,ZooKeeper通知Standby狀態的NameNode節點;在ZKfailover進程檢測並確認故障節點無法工作後;ZKfailover通知Standby狀態的NameNode節點切換為Active狀態繼續服務;ZooKeeper在大數據體系中非常重要
  • hadoop的安裝和三種模式的配置
    hadoop安裝在Linux、Windows、macOS下安裝都需要先安裝java環境,再安裝hadoop,均需要配置環境變量。怎麼配置可自行查找資料,這裡就不介紹了。Linux下需要在hadoop-2.7.2/etc/hadoop/hadoop-env.sh指定java環境變量偽分布運行模式需要配置core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xmlcore-site.xml:指定hadoop的主節點master。
  • 大數據Spark運行模式: Yarn模式與配置詳解
    大數據Spark運行模式: Yarn模式與配置詳解在強大的Yarn環境下Spark是如何工作的?tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn2 修改配置文件1) 修改hadoop配置文件/opt/
  • 一步步分析為什麼Hadoop能成為騰訊大數據處理的「一把手」
    NameNode節點負責整個HDFS文件系統中的文件的元數據保管和管理,集群中通常只有一臺機器上運行NameNode實例,DataNode節點保存文件中的數據,集群中的機器分別運行一個DataNode實例。在HDFS中,NameNode節點被稱為名稱節點,DataNode節點被稱為數據節點。DataNode節點通過心跳機制與NameNode節點進行定時的通信。
  • hadoop:偽分布模式環境變量的配置!
    單節點集群模式(a Single Node Cluster)又分布模式,只需一個節點即可運行。這種模式一般只是用來學習或者開發、測試使用。實際使用中還是使用多節點的分布式。 1、環境變量配置為了方便的執行Hadoop程序,需要配置很多系統環境變量。
  • 大數據Spark:運行環境_Local模式與相關配置詳解
    Spark作為一個數據處理框架和計算引擎,被設計在所有常見的集群環境中運行, 在國內工作中主流的環境為Yarn,不過逐漸容器式環境也慢慢流行起來。tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local3.1.2 啟動Local環境1) 進入解壓縮後的路徑