大數據之hadoop環境搭建

2020-12-23 大數據入門教程

01.集群規劃

版本

jdk 1.8

hadoop 2.7.1

centos7

02.機器準備(每臺機器都得做對應操作)

修改主機名

hostnamectl set-hostname hadoop01

配置映射關係

vim /etc/hosts

在下面添加三臺機器的的ip 主機名

關閉防火牆

systemctl stop firewalld (臨時關閉)

systemctl disable firewalld (永久關閉)

03.配置免登錄

在每臺機器執行命令ssh-keygen -t rsa,然後連續按4下回車鍵

NameNodeResourceManager免登錄每臺機器,每臺機器免登自己

使用命令ssh-copy-id主機名

在hadoop01上執行:

ssh-copy-id hadoop01

ssh-copy-id hadoop02

ssh-copy-id hadoop03

在hadoop02上執行:

ssh-copy-id hadoop01

ssh-copy-id hadoop02

ssh-copy-id hadoop03

在hadoop03上執行:

ssh-copy-id hadoop03

04.上傳並解壓安裝包

使用rz命令或者其他工具上傳,如果沒有rz命令先安裝 yum install lrzsz -y

安裝包:上一篇文章分享了

安裝目錄:/opt

tar -zxvf jdk-8u171-linux-x64.tar.gz

tar -zxvf hadoop-2.7.1.tar.gz

解壓後刪除安裝包

rm -rf jdk-8u171-linux-x64.tar.gz hadoop-2.7.1.tar.gz

修改文件夾名字

mv hadoop-2.7.1/ hadoop

mv jdk1.8.0_171/ jdk

05.配置hadoop的配置文件

cd /opt/hadoop/etc/hadoop

vim hadoop-env.sh

修改JAVA_HOME為自己的jdk的路徑,如果環境變量配置在/etc/profile.d文件夾下直接改為$JAVA_HOME,如果環境變量配置在/etc/profile,那麼就寫成安裝jdk的絕對路徑

vim core-site.xml

vim hdfs-site.xml

mv mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

vim yarn-site.xml

編輯節點配置

vim slaves

06.配置環境變量

vim /etc/profile.d/env.sh

pid的目錄默認是/tmp,pid可能會被刪除,到時候Hadoop的一些關閉服務命令就無法使用了,所以配置成自己的目錄

ssh hadoop01

敲hadoop fs 命令驗證是否配置成功

07.發給其他機器

scp -r /opt/jdk 其他機器主機名:/opt

scp -r /opt/hadoop 其他機器主機名:/opt

scp -r /etc/profile.d/env.sh 其他機器主機名:/etc/profile.d

08.格式化

在NameNode節點執行 hadoop namenode -format

注意執行過程有沒有報錯,如果報錯根據錯誤修改

09.啟動服務

在NameNode節點執行start-dfs.sh

在ResourceManger節點執行start-yarn.sh

啟動歷史日誌mr-jobhistory-daemon.sh start historyserver

jps查看服務

10.測試

上傳文件到hdfs

執行mapreduce

結果都不報錯就成功了。

這只是初步搭建,後面會根據需求繼續添加配置和優化

相關焦點

  • Hadoop生態圈
    本章講一下關於大數據技術hadoop,直接步入正題,在了解hadoop之前,先來說一下什麼是大數據?一.大數據1.概述:是指無法在一定時間範圍內無法用常規軟體工具進行捕捉、管理和處理的數據集合,需要使用新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。主要解決海量數據的存儲和分析計算問題。
  • 十萬個為什麼之hadoop篇
    如果運行map任務的節點在將map中間結果傳送給reduce任務之前失敗,hadoop 將在另一個節點上重新運行這個map以再次構建map中間結果。4.hdfs中的塊為什麼這麼大?Hdfs 的塊比磁碟的塊大,其目的是為了最小化尋址開銷。如果塊足夠大,從磁碟傳輸數據的時間會明顯大於定位這個塊開始位置所需的時間。因而,傳輸一個由多個塊組成的大文件的時間取決於磁碟傳輸速率。
  • java大數據和python大數據的全面對比,哪個更主流?
    java大數據與python大數據說到java編程,java工程師一直都是同行的高薪崗位,而python是從最初的2016人工智慧開始爆發,從而在短短兩年之內能趕超java。隨著python的發展,最大贏家無疑是python。
  • 大數據分析中Spark,Hadoop,Hive框架該用哪種開源分布式系統
    > 眾所周知,大數據開發和分析、機器學習、數據挖掘中,都離不開各種開源分布式系統。Hive 和 Spark 是大數據領域內為不同目的而構建的不同產品。二者都有不可替代的優勢。Hive 是一個基於Hadoop 的分布式資料庫,Spark 則是一個用於數據分析的框架。 這就要求技術人不得不掌握各種開源的技術框架。這就會造成顧此失彼,學完易忘、易混淆的情況。為了解決這個問題,這裡推薦給大家一個高效學習和開發的寶藏:一份大數據/分布式開發速查表。
  • 轉行程式設計師,培訓學Java好還是Java大數據好?
    Java和Java大數據的關係Java作為一門程式語言可以用來做很多工作,比如常見的web開發、大數據開發、安卓開發、伺服器開發等等。大數據開發只是其中的一個應用方向。比如,目前最火的大數據開發平臺是Hadoop,而Hadoop則是採用Java語言編寫。
  • 對於大數據計算框架spark你了解多少呢?
    圖片來源於360Spark框架類似於MapReduce計算框架,但是它的速度能夠比spark快很多倍,其原因是因為MapReduce基於磁碟計算,而spark基於內存,而且擁有高級的DAG引擎傳統大數據的
  • 都是10G的大數據計算,Python與PHP誰算的速度更快?正面PK硬剛
    編寫Mapper程序用Hadoop用戶執行以下命令:su hadoopmkdir -p /wwwroot/hadoop/pythoncd /wwwroot/hadoop/python 執行10G數據計算1、所有的伺服器上都安裝好Python;2、保證mapper.py和reducer.py同步到各伺服器上了;3、為了對比PHP的計算效率,數據文件咱們還是使用PHP用的那個10G的文件。
  • 疫情防控的關鍵武器:大數據!十個關鍵知識點和一本書等你GET!
    在這樣的大背景下,全社會運用大數據技術,支撐了此次新冠肺炎的防控工作,開啟了一場大數據與病毒賽跑的抗疫戰爭。大數據技術,將很可能成為人們最終制勝的關鍵武器之一。在疫情爆發後,全社會迅速搭建了國家、省、市、區/縣、鄉/鎮/街道甚至村/社區的多級、多部門的疫情防控數據平臺。
  • 大數據分析師與大數據工程師哪個比較好
    大數據分析師與大數據工程師哪個比較好 大數據分析師與大數據工程師哪個比較好 2020-02-03 16:28:01  來源:今日頭條,不知道自己該不該轉行學習大數據,不知道自己是否要轉大數據專業,這裡就給大家分析一下。
  • 內蒙古足協搭建大數據應用 打造足球體系數據生態
    在發布會上,中國足協執委會委員、內蒙古足球協會執委會副主席兼秘書長吳剛發表題為《創新驅動、數據賦能——內蒙古足協大數據應用系統》的主旨演講。一刻聯合創始人兼CEO胡亞楠介紹了內蒙古足協大數據應用生態的技術服務保障體系。該項目負責人就內蒙古足協大數據應用生態應用情況進行了介紹。
  • 學Java和大數據哪個更有前途?零基礎適合學哪個?
    今天,我們就來聊聊Java和大數據那些事兒~首先,我們來了解Java和大數據的關係。Java作為一門程式語言可以用來做很多工作,比如常見的web開發、大數據開發、安卓開發、伺服器開發等等。而大數據開發只是其中的一種。
  • 中信銀行信用卡中心招數據挖掘、產品經理、人工智慧等崗位
    數據挖掘崗工作地點:福田區職位描述:1、負責大數據挖掘算法及人工智慧技術的基礎研究和技術組件的開發工作,以及數據挖掘工具和算法的研究引入。2、結合卡中心的業務場景開展組合營銷、動態規劃等領域數據挖掘項目的方案制定、項目實施落地及優化,負責卡中心各業務場景的人工智慧技術可行性驗證和落地部署。
  • 【招聘】中信銀行信用卡中心招數據挖掘、產品經理、人工智慧等崗位
    數據挖掘崗工作地點:福田區職位描述:1、負責大數據挖掘算法及人工智慧技術的基礎研究和技術組件的開發工作,以及數據挖掘工具和算法的研究引入。2、結合卡中心的業務場景開展組合營銷、動態規劃等領域數據挖掘項目的方案制定、項目實施落地及優化,負責卡中心各業務場景的人工智慧技術可行性驗證和落地部署。
  • 中信銀行信用卡中心招IT開發、人工智慧、PMO、數據挖掘等崗位
    2021年中信銀行信用卡中心大數據中心社會招聘啟事。工作地點:深圳市福田區。IT系統開發崗-JAVA方向職位描述1、協助開展大數據業務需求收集、整理、匯總。2、保質高效完成大數據系統類需求的評估、設計、開發、測試、上線、系統優化及運營。
  • 轉行大數據方向應該怎麼做
    大數據近幾年的發展非常迅速,大數據方向也成了許多人轉行得目標,因為前景好,薪資高,那麼,轉行大數據方向應該怎樣做呢?首先大數據的就業方向有:數據挖掘、數據分析&機器學習方向、大數據運維&雲計算方向、Hadoop大數據開發方向。轉行,得先選定發展方向。
  • 賽飛奇 「大數據+消防」搭建火災預警安全屏障
    近年來,隨著物聯網、大數據、智慧科技迅猛發展,「智慧消防」也逐步走入了大眾視野。位於寶安區的「深圳市賽飛奇光子技術有限公司」(以下簡稱「賽飛奇」)就是國內率先探索智慧消防的企業之一。利用物聯網、雲計算和大數據等先進技術,賽飛奇打造了一套可實時預警、可遠程監測、可存儲追溯的智慧消防系統。
  • 【招聘】民生銀行信用卡中心大數據分析與應用部招聘公告
    10月31日,2020年民生銀行信用卡中心發布大數據分析與應用部社會招聘啟事。工作地點,北京市。大數據分析與應用部質量管控崗工作職責:1、負責數據需求統籌受理及過程管控,包括數據類需求受理及評審、流程規範性評估、質量監督檢查等;2、負責合規建設,包括統籌數據標準化制度體系建設,配合監管、審計等內外部檢查,外包等專項管理;3、負責部門培訓體系建設與管理、文化建設制定及執行,包括培訓計劃制定與跟進
  • Hadoop大數據存算分離需要什麼樣的存儲?
    1 數據湖的價值 數據湖支持以其本機或接近本機的格式存儲數據,從而為高技能的數據科學家和分析師提供了未完善的數據視圖。數據湖提供了一個沒有折衷的環境,以及相應的記錄分析系統所共有的保證和利益,即語義一致性,治理和安全性。
  • 使用IDEA 快速搭建 Spring 的源碼環境
    從而讓其他同學使用的時候非常方便;看了文檔、書、博客、專欄之後想讀讀源碼,順便讀源碼的時候做一點注釋,或者修改點代碼啥的,所以需要搭建一個環境;說實話,很多人估計想搭建個 spring 的源碼環境,但是 spring 的這個源碼環境還是稍微有點複雜的,機緣巧合,之前有朋友(@上傑)研究了一個星期,並且最後把環境搞好了,還順便給我把環境也搞了下,大概幾分鐘操作就行,其他就讓電腦在那邊下載就行了
  • hive之編譯源碼
    1 問題現象    在創建數據倉庫的時候,總是要寫上各種注釋,這樣才好去追尋血緣關係,這樣好知道每個資料庫幹啥的,每個表幹啥的,每個任務幹啥的,這樣才能把數據作為資產進行管理,所謂的讓數據用起來,讓數據動起來。    使用hive1.2.2,使用hadoop2.7.2,使用jdk1.8.0.