Hadoop_05_完全分布式運行模式(重點)

2020-12-17 喝pepsi的陳子豪

我的未來式 (《愛情公寓》十周年合唱版)

愛情公寓全體

今天學習完全分布式運行模式,完成了這一節,才算是真正踏進大數據大門。

本節主要概括了 scp,rsync命令的使用,寫分髮腳本。

1.分髮腳本

1) cp

(1) 基本語法:

cp -r source destination

命令 遞歸 要拷貝的文件路徑/名稱 目的路徑/名稱

(2) 例子:

#將/abc目錄下所有文件 複製到/def下

cp -r /abc /def

2) scp (secure copy)安全拷貝

(1)scp定義:

scp可以實現伺服器與伺服器之間的數據拷貝。(from server1 to server2)

(2)基本語法

scp -r source destination

命令 遞歸 要拷貝的文件路徑/名稱 目的用戶@主機:目的路徑/名稱

(3)例子

#1.在hadoop131上,將hadoop131中/opt/module目錄下的軟體拷貝到

hadoop132上。

scp -r hadoop131:/opt/module/hadoop-2.7.2 hadoop132:/opt/module

#2.在hadoop131上,將hadoop131中/etc/profile目錄下的軟體拷貝到hadoop132上。

scp -r hadoop131:/etc/profile hadoop132:/opt/module

(4)tips

(a)遠程把Hadoop131上的/opt/module拷貝到Hadoop132相同的位置

(b)只複製文件內容,不複製時間戳

(c)命令執行拷貝位置不受限制,hadoop131,hadoop132兩臺機器都可以

3)rsync 遠程同步工具

rsync主要用於備份和鏡像。具有速度快、避免複製相同內容和支持符號連結的優點。

rsync和scp區別:用rsync做文件的複製要比scp的速度快,rsync只對差異文件做更新。scp是把所有文件都複製過去。

(1)基本語法

rsync -rvl source destination

命令 選項參數 要拷貝的文件路徑/名稱 目的用戶@主機:目的路徑/名稱

選項參數說明

選項 功能

r 遞歸

v 顯示複製過程

l 拷貝符合連接

(2)例子#在hadoop132(需要拷貝的機器上執行命令)

#將hadoop131:/opt/module/jdk1.8.0_144拷貝到 #hadoop132:/opt/module下

rsync -rvl hadoop131:/opt/module/jdk1.8.0_144 /opt/module

rsync -rvl hadoop131:/etc/profile /etc/profile

(3)tips

//歸檔拷貝,完全拷貝

//只能在要拷貝的機器上執行命令

4)寫個分髮腳本(xsync)

#!/bin/bash

#1 獲取輸入參數個數,如果沒有參數,直接退出

pcount=$#

if((pcount==0)); then

echo no args;

exit;

fi

#2 獲取文件名稱

p1=$1

fname=`basename $p1`

echo fname=$fname

#3 獲取上級目錄到絕對路徑

pdir=`cd -P $(dirname $p1); pwd`

echo pdir=$pdir

#4 獲取當前用戶名稱

user=`whoami`

#5 循環

for((host=132; host<135; host++)); do

echo ------------------- hadoop$host --------------

rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

done

tips:

$# 是傳給腳本的參數個數

$0 是腳本本身的名字

$1 是傳遞給該shell腳本的第一個參數

$2 是傳遞給該shell腳本的第二個參數

$@ 是傳給腳本的所有參數的列表

$* 是以一個單字符串顯示所有向腳本傳遞的參數,與位置變量不同,參數可超過9個

$$ 是腳本運行的當前進程ID號

$? 是顯示最後命令的退出狀態,0表示沒有錯誤,其他表示有錯誤

2.快速分發hadoop和java

(1)使用腳本分發java、hadoop、/etc/profile(配置環境變量,該文件需切換到root用戶執行)

遇到問題:

a. Permission denied, please try again.如何解決?

解決方法:

1)確認密碼是否正確

2)分發的路徑沒有這個文件夾 ,找不到相應路徑

3)普通用戶ssh免密登陸(後續文章詳細寫!!!)

4)切換到root用戶執行命令,輸入root用戶密碼!!!

b.Linux中 /etc/profile 環境變量配置錯誤導致 vi,yum,ll等命令無法使用,失效,如何解決?

解決方法:

1)在命令行中輸入:export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin

2) vi /etc/profile 將配置的環境變量刪除或者注釋掉

3)source /etc/profile 使配置文件生效

(2)source /etc/profile 使配置文件生效

3.集群配置

詳見下一篇文章:Hadoop_05_完全分布式運行模式(集群配置)

一個人走路,其實是在和地球約會。

相關焦點

  • 史上最詳細、最全面的Hadoop環境搭建
    第二部分:Hadoop本地模式安裝Hadoop本地模式只是用於本地開發調試,或者快速安裝體驗Hadoop,這部分做簡單的介紹。第三部分:Hadoop偽分布式模式安裝偽分布式的意思是雖然各個模塊是在各個進程上分開運行的,但是只是運行在一個作業系統上的,並不是真正的分布式。
  • 最詳細的 Hadoop 入門教程
    第三部分:Hadoop偽分布式模式安裝學習 Hadoop 一般是在偽分布式模式下進行。這種模式是在一臺機器上各個進程上運行 Hadoop 的各個模塊,偽分布式的意思是雖然各個模塊是在各個進程上分開運行的,但是只是運行在一個作業系統上的,並不是真正的分布式。
  • Hadoop面試題答案出爐!!你得了多少分?
    答案Da)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker此題分析:hadoop的集群是基於master/slave模式,namenode和jobtracker屬於master,datanode和tasktracker屬於slave,master只有一個,而slave有多個SecondaryNameNode
  • Hadoop極簡教程
    其實上述意淫的例子裡的數據量不是很大,如果每天產生上TB級別的數據,就算是速度很快的固態硬碟也需要小時級時間才能讀取一遍,速度還是遠遠跟不上,終歸有上限,而且高性能主機價格不菲,不如把數據分開放到一個相對廉價又可擴展的計算機集群中,每個節點上運行一段程序並處理一小塊數據,然後在匯總處理結果,使用Hadoop可以讓開發者不必把精力放在集群的建設上,採用Hadoop提供的簡單的編程模型就可以實現分布式處理
  • 大數據架構師基礎:hadoop家族,Cloudera系列產品介紹
    我們可以帶著下面問題來閱讀本文章:1.hadoop都包含什麼技術?2.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?3.Spark與hadoop的關聯是什麼?4.Storm與hadoop的關聯是什麼?
  • hadoop與數據挖掘的關係_區別_哪個好
    hadoop與數據挖掘的關係 大數據就是Hadoop嗎?當然不是,但是很多人一提到大數據就會立刻想到Hadoop。現在數據科學家利用海量數據創建數據模型為企業帶來的利益是以前所不可想像的,但是數據的潛力已經被完全挖掘出來了嗎,它滿足了人們的期待了嗎?今天小編就從Hadoop項目開始為你抽絲剝繭了解hadoop。
  • Hadoop大數據面試題全版本
    集群 , master和slaves都運行哪些服務答:master主要是運行我們的主節點,slaves主要是運行我們的從節點。描述Hbase,ZooKeeper搭建過程48.hadoop運行原理答:hadoop的主要核心是由兩部分組成,HDFS和mapreduce,首先HDFS的原理就是分布式的文件存儲系統,將一個大的文件,分割成多個小的文件,進行存儲在多臺伺服器上。
  • 成為大數據頂尖程式設計師,先過了這些Hadoop面試題!(附答案解析)
    a)SecondaryNameNode b)DataNodeb)DataNodec)TaskTrackerd)Jobtracker答案:D此題分析: hadoop 的集群是基於 master/slave 模式,namenode
  • 頂級Hadoop管理員面試問題與回答
    8、有多少節點可以運行在一個單一的Hadoop集群?只有一個。9、當Hadoop集群上的節點下來會發生什麼呢?文件系統脫機時,Namenode下來了。10、什麼是hadoop-env.sh下的文件和在文件應設置為Hadoop的工作上的變量?
  • 深度解析:Spark 優於 Hadoop 嗎?
    Hadoop 採用開源軟體框架對超大數據集進行分布式存儲技術及分布式處理。換句話說,設計這一產品的目的在於縮減處理大數據集的時間和成本。 Hadoop,其分布式文件系統(HDFS)和分布式處理模塊(MapReduce)成為大數據計算的實際標準。Hadoop 這一術語不僅可以與基礎模塊相關,也與可兼容Hadoop的其他軟體包生態系統息息相關。
  • java大數據之Hadoop開發環境
    Hadoop 的創始人 Doug Cutting 曾說過:「 Java 在開發者的生產率和運行效率之間取得很好的權衡。開發者可以使用廣泛存在的高質量類庫,切身受益於這種簡潔、功能強大、類型安全的語言。 換言之:沒有 Hadoop 就不存在大數據,沒有 Java 就沒有 Hadoop。 好吧,反正我是信了,動手搭環境擼一把!
  • 大數據基礎知識:Hadoop分布式系統介紹
    Hadoop是Apache軟體基金會下一個開源分布式計算平臺,以hdfs(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是資源調度框架,能夠細粒度的管理和調度任務,還能夠支持其他的計算框架,比如spark)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。
  • 最全的大數據技術大合集:Hadoop家族、Transwarp系列、Cloudera系列、spark、storm...該有的都有了
    為了能夠更好 的架構大數據項目,這裡整理一下,供技術人員,項目經理,架構師選擇合適的技術,了解大數據各種技術之間的關係,選擇合適的語言。我們可以帶著下面問題來閱讀本文章:1.hadoop都包含什麼技術?2.星環科技與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?3.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?
  • 網研院Hadoop大數據分析-小試牛刀
    在聯通的WCDMA這張大網上,每時每刻都在產生著大量的用戶面數據和信令面數據,數據密度空前提高。相應的,需要處理的無線網絡優化系統的數據量也日益增加,傳統的Oracle資料庫在時效性和容量上已經不能滿足如今的分析需求。傳統的關係型資料庫具有:模式固定、強調參照完整性、數據的邏輯與物理形式相對獨立等特性,所以比較適用於中小規模數據量的分析。
  • Apache Eagle:分布式實時 Hadoop 數據安全方案
    摘要:日前,eBay公司隆重宣布正式向開源業界推出實時分布式Hadoop數據安全方案 - Apache Eagle,作為一套旨在提供高效分布式的流式策略引擎,
  • Nut 19.2 發布,Lucene+Hadoop 分布式運行框架
    Nut 是一個為lucene提供分布式搜索的框架。理論上可對千G以上索引文件支持數千萬級的用戶搜索訪問。Nut由Client、Server、Cache和DB四 部分構成。Client處理用戶請求和對搜索結果排序。Server對請求進行搜索,Server上只放索引,數據存儲在DB中,Nut將索引和存儲分 離。Cache緩存的是搜索條件和結果文檔id。
  • Hadoop之wordcount實例-MapReduce程序
    用 Python 寫MapReduce 還需要了解 HadoopStreaming ,在 Apache 的 Hadoop 官網可以查看HadoopStreaming 的運行機制,簡單來說就是 HadoopStreaming 是可運行特殊腳本的MapReduce 作業的工具 ,使用格式如下:hadoop jar /home/hadoop/app/hadoop
  • Hadoop大數據分析師周末開課了,著重實戰案例分析!
    全面掌握Hadoop的架構原理和使用場景;親自學會Hadoop的三種架構方式及搭建過程;熟練掌握HDFS文件系統與MapReduce程序開發思想;利用hadoop平臺進行大數據分析;能深入實際的項目案例進行大數據的實戰開發;達到大數據分析師的理論和實戰要求。