在2010年,沒有人知道什麼是Hadoop.但在今天,房間裡的「大象」標誌讓Hadoop已儼然成為了大數據的寵兒。程式設計師、架構師、系統管理員和數據倉庫員都在千方百計地學習存儲和處理大數據集的Hadoop。與此同時,市場上關於Hadoop管理的招聘也在如火如荼的進行著。
那麼,為了幫助大家更快速的找到一份Hadoop管理方面的工作,數據妞與大家分享一篇頂級Hadoop管理員的面試問題及答案,讓大家輕鬆應對未來求職之旅。
Hadoop管理員面試,圍繞Hadoop軟體安裝,配置和維護,測試一個考生的知識範圍,一個Hadoop管理員需要基於利益相關者的需求研究,實現特定的平臺大數據解決方案。這是一個面試者為Hadoop管理員面試所必要的,精通大型數據管理的概念。
為了證明自己是一位合格的Hadoop管理員的候選人,你需要具備對於處理Hadoop項目的知識和管理能力,展示特定領域的興趣和專業知識,具有多任務處理能力和領導能力。
如果你已經申請了Hadoop的管理員工作,那麼它值得你花一些時間去回顧這些列在下面的面試問題。
1、解釋不同的配置文件以及它們位於何處?
配置文件位於conf子目錄。Hadoop有3個不同的配置文件,hdfs-site.xml, core-site.xml 和 mapred-site.xml。
2、要求運行Hadoop集群的進程是什麼?
Namenode,DataNode,TaskTracker和JobTracker
3、你將如何重新啟動節點?
最簡單的做法是運行停止運行命令shell腳本,即點擊stop-all.sh。一旦這樣做了,重啟NameNode點擊start-all.sh。
4、解釋在Hadoop上的不同的調度程序。
FIFO調度——調度系統中不考慮系統中的異質性,但命令工作是基於排隊達到的時間。
COSHH——這個計劃考慮工作量,調度決策的聚類和用戶異質性。
公平分享——Hadoop調度為每個用戶定義。這個地方包含一個資源地圖以及減少資源上的狹縫。每個用戶都可以使用自己的資源去執行這個作業。
5、列出幾個用於執行複製操作的Hadoop命令。
fs –put
fs –copyToLocal
fs –copyFromLocal
6、什麼是指揮用的JPS?
JPS命令用於驗證程序,這種程序運行Hadoop集群是否工作。它命令顯示輸出者的NameNode的現狀,Secondary NameNode, DataNode, TaskTracker 和 JobTracker。
7、當Hadoop部署生產環境時,什麼重要的硬體因素應該考慮?
基於應用程式的工作服務和管理服務之間的內存系統的內存需求會有所不同。
作業系統——一個64位作業系統,避免了任何限制,可用於在工作節點上的內存量。
存儲——最好是通過移動計算活動數據實現可擴展性和高性能的Hadoop平臺設計。
容量——大形的因子磁碟(3.5」)磁碟的成本比較低,相比比較小的形式因素磁碟允許存儲更多內容。
網絡——兩個TOR網絡交換機提供了較好的冗餘。
計算能力可以在Hadoop集群的Mapreduce槽可用的數量節點決定。
8、有多少節點可以運行在一個單一的Hadoop集群?
只有一個。
9、當Hadoop集群上的節點下來會發生什麼呢?
文件系統脫機時,Namenode下來了。
10、什麼是hadoop-env.sh下的文件和在文件應設置為Hadoop的工作上的變量?
這個文件提供hadoop的運行環境,包括以下variables-hadoop_classpath,java_home和hadoop_log_dir。java_home變量應為Hadoop運行。
11、除了利用JPS的命令還有任何其他什麼方法,你可以檢查是否它是工作?
使用命令/ etc / init.d/hadoop-0.20-namenode狀態。
12、在一個MapReduce系統,如果HDFS塊大小為64 MB,有3個文件的大小127mb,64K和65mb與fileinputformat。在這種情況下,有多少輸入將很可能是由Hadoop框架組成?
2個分別為127 MB和65 MB的文件或者一個是64KB的文件。
13、哪個命令是檢驗HDFS是否被破壞?
hadoop fsck(文件系統檢查)命令用於檢查丟失塊。
14、列出了一些使用Hadoop生態系統的案例。
文本挖掘,圖分析,語義分析,情感分析,推薦系統。
15、你怎樣讓一個Hadoop不工作?
Hadoop的工作–清除工作ID。
16、我想看到所有的工作在Hadoop集群上運行。你該怎麼做?
使用命令–Hadoop作業–列表,給出了在Hadoop集群上運行的工作列表。
17、是否可以在多個集群中複製文件?如果是,你怎麼能做到這一項呢?
是的,它可能的複製文件到多個Hadoop集群,這可以使用分布式複製實現。distcp命令用於內部或跨集群複製。
18、什麼是最好的運行Hadoop作業系統?
Ubuntu和Linux是首選的運行Hadoop的作業系統。雖然Windows作業系統也可以用來運行Hadoop的但它會導致一些問題,所以並不推薦。
19、運行Hadoop的網絡要求是什麼?
SSH是需要運行啟動伺服器進程從屬節點。
一個密碼需要更少的SSH在主人,機器,和所有的苦工之間的連接。
20、將mapred.output.compress屬性設置為true,以確保所有的輸出文件壓縮在高效的空間使用Hadoop集群上。在特定情況下,如果群集用戶不需要對工作進行壓縮數據。你建議他做什麼?
如果用戶不想壓縮數據的一個特定的工作就應該創建自己的配置文件並且設置mapred.output.compress屬性為false。這個配置文件之後作為一個資源加載到相關工作。
21、什麼是實施一次最佳實踐的NameNode?
它始終是在一個單獨的獨立的機器更好地部署第二個Namenode。當次級節點部署在一個單獨的機器不受主節點幹擾的操作。
22、應該多長時間給NameNode重新格式化嗎?
Namenode不能格式化。這樣做會導致數據完全的丟失。NameNode是一次格式化開始之後,它創造了整個文件系統的元數據和命名空間ID目錄結構。
23、如果Hadoop產生了100個任務工作,並且其中一個任務失敗。Hadoop該怎麼做呢?
任務將再次開始一個新的TaskTracker,並且默認設置逾期不超過4次,(默認值是可以改變的),工作將會失敗。
24、你如何添加和刪除節點的Hadoop集群?
在HDFS集群中添加新節點,主機名應該被添加到文件然後在DataNode和TaskTracker開始在新的節點。
刪除或退役從HDFS集群的節點,主機名應該是從slaves–refreshnodes刪除文件執行。
25、您增加複製級別,但注意到該數據已複製。什麼原因導致錯誤?
其實沒有任何錯誤,如果有大量的數據,因為數據複製通常需要在時間的基礎上的數據大小作為集群進行數據複製,它可能需要幾個小時。
當你第一次Hadoop集群啟動安裝過程,你會怎樣設置安裝程序?
你將如何安裝新組件或添加到現有的Hadoop集群服務?
如果Hive的元數據服務在下降,那麼將對Hadoop集群有什麼影響?
當你建立一個Hadoop集群,你將如何決集群的大小?
你怎麼在同一集群運行Hadoop和實時進程?
如果你得到一個拒絕連接的案例-當登錄到一臺機器上的集群,可能是什麼原因?你將如何解決這個問題?
你如何識別和解決長期運行的工作?
你怎麼決定一個NameNode和Hadoop服務的堆內存的限制?
如果Hadoop服務在Hadoop集群上運行緩慢,什麼是它的根源,你將如何鑑別呢?
有多少數據節點可以運行在一個單一的Hadoop集群?
在Hadoop2.0和Hadoop 1.0配置
在高可用性的情況下,如果連接待機和活躍節點丟失。這種Hadoop集群將如何影響?
ZooKeeper服務在Hadoop 2和Hadoop1所需的最小數目是多少?
如果一個Hadoop集群的一些機器硬體質量很低。如何影響集群的性能和整體性能?
如何確定一個特定的節點,節點是死的嗎?
解釋「黑名單節點」和「死區節點」之間的區別。
你怎麼增加NameNode的內存?
在Hadoop的調度配置能力。
重新啟動後的集群之後,如果MapReduce之前的工作現在沒有實現,當重新開始的時候可能會出什麼錯誤?
說明添加和刪除一個節點的Hadoop集群的步驟。
在一個大且繁忙的Hadoop集群,如何識別長期運行的工作?
當Namenode關閉時,JobTracker做什麼?
當手動配置Hadoop,這屬性文件的修改應配置槽?
如何將新用戶添加到集群中?
推測執行的優勢是什麼?在什麼情況下,推測執行可能不會是有益的?
這些面試題是以個案為基礎的,根據你在哪裡申請Hadoop管理員角色,你在這個角色是否有一些經驗 。請在下面的評論中分享你的Hadoop管理員面試經驗。
你目前的Hadoop工作符合你目前的項目角色和責任描述嗎?
哪些工具用在你的項目監測的hadoop集群和節點?
你認為在一個集群中會出現多少個節點?
你在任何組織中致力於go-live工程嗎?
哪一種MapReduce版本適合配置你的Hadoop集群?
說明在公司任何明顯的Hadoop案例情況,有助於最大限度地提高其盈利能力?
你怎麼從無到有建立Hadoop集群?
你遵從什麼標準程序部署Hadoop?
你將如何管理一個Hadoop系統?
你會更喜歡使用哪種工具監控Hadoop和HBase的集群?
上面的列表只是對Hadoop管理員的不同類型的面試問題的概述。然而,Hadoop管理員面試問題基於你的工作經驗,來自的業務領域的不同而完全不同。
你是否擔心沒有經驗,如果你清楚你的基礎以及Hadoop項目的工作經驗,公司是願意僱傭你的。開始最重要的事情,是準備在hadoop管理中準備一個偉大的職業生涯,並且你一定可以成功的掌控一個hadoop管理員面試。為追求卓越和成功努力吧。
文章源自:來自36大數據(36dsj.com)
朋友們,不要忘記分享、點讚哦!