十萬個為什麼之hadoop篇

2021-01-19 烏拉的數據科學之路

1.什麼是map的數據本地化優化?

Hadoop 在存儲有輸入數據(hdfs中的數據)的節點上運行map任務,可以獲得最佳性能,因為他無需使用寶貴的集群帶寬資源。這就是所謂的數據本地化優化,但是有時對於一個map任務的輸入分片來說,存儲該分片的hdfs數據塊副本的所有節點可能正在運行其他map任務,此時作業調度需要從某一數據塊所在的機架中的一個節點上尋找一個空閒的map槽(slot)來運行該map任務分片。僅僅在非常偶然的情況下,會使用其他機架中的節點運行該map 任務,這將導致機架與機架之間的網絡傳輸。

2.為什麼map最佳分片大小與塊大小相同?

因為它是確保可以存儲在單個節點上的最大輸入塊的大小,如果分片跨越兩個數據塊,那麼對於任何一個hdfs節點,基本上都不可能同時存儲這兩個數據塊,因此分片中的部分數據需要通過網絡傳輸到map任務運行的節點,與使用本地數據運行整個mao任務相比,這種方法顯然效率更低。

3.map任務將其輸入寫入本地硬碟,而非hdfs,這是為什麼?

因為map的輸出是中間結果,該中間結果由reduce任務處理後才產生最終輸出結果,一旦完成,map的輸出結果就可以刪除。因此如果把他存儲在hdfs中並實現備份,難免有些小題大做。如果運行map任務的節點在將map中間結果傳送給reduce任務之前失敗,hadoop 將在另一個節點上重新運行這個map以再次構建map中間結果。

4.hdfs中的塊為什麼這麼大?

Hdfs 的塊比磁碟的塊大,其目的是為了最小化尋址開銷。如果塊足夠大,從磁碟傳輸數據的時間會明顯大於定位這個塊開始位置所需的時間。因而,傳輸一個由多個塊組成的大文件的時間取決於磁碟傳輸速率。

但是這個參數也不會設置的過大,mr中的map任務通常一次只處理一個塊中的數據,因此如果任務數太少,作業的運行速度就會比較慢。

5.hdfs 中塊進行抽象的好處是什麼?

>1 一個文件的大小可以大於網絡中任意一個磁碟的容量。文件的所有塊並不需要存儲在同一個磁碟上。

>2 使用抽象塊而非整個文件作為存儲單元,大大簡化了存儲子系統的設計。對於故障種類繁多的分布式系統來說尤為重要

>3 塊還非常適合用於數據備份進而提供數據容錯能力和提高可用性

6.hadoop 對於namenode單點問題有哪些容錯機制?

>1 備份那些組成文件系統運輸局持久狀態的文件,Hadoop 可以通過配置使namenode在多個文件系統上保存元數據的持久狀態。這些寫操作是實時同步的,且是原子操作。一般的配置是,將持久狀態寫入本地磁碟的同時,寫入一個遠程掛載的網絡文件系統(NFS)。

>2 運行一個輔助namenode,但它不能被用作namenode,這個輔助namenode的重要作用是定期合併編輯日誌與命名空間鏡像,以防止編輯日誌過大。這個輔助namenode 一般在另一臺單獨的物理計算機上運行,因為他需要佔用大量cpu時間,並且需要與namenode 一樣多的內存執行合併操作。

7.hadoop2 對hdfs 高可用(HA)是怎麼做的?

配置活動-備用(active-standby)namenode,當活動namenode失效,備用namenode就會接管他的任務並開始服務與來自客戶端的請求,不會有任何明顯中斷。

1.namenode之間通過高可用共享存儲(NFS或QJM)實現編輯日誌的共享,只有活動namenode才能對外提供讀寫服務,活動namenode把editlog寫入JN中,備用namenode從JN中獲取editlog合併到FsImage中,當備用的namenode接管工作之後,它將通讀共享編輯日誌直至末尾,以實現與活動namenode的狀態同步,並繼續讀取由活動namenode寫入的新條目。

2.datanode同時向namenode發送數據塊處理報告,因為數據塊的映射信息存儲在namenode的內存裡,而非磁碟。

3.客戶端需要使用特定的機制來處理namenode的失效問題,這一機制對用戶是透明的

4.輔助namenode的角色被備用namenode所包含,備用namenode為活動namenode命名空間設置周期性檢查點

5.為了實現熱備,增加FailoverController(故障轉移控制器)和Zookeeper,FailoverController與Zookeeper通信,通過Zookeeper選舉機制,FailoverController通過RPC讓NameNode轉換為Active或Standby。

知識點:

NFS(Network File System 網絡文件系統)

NFS作為active namenode和standby namenode之間數據共享的存儲。

active namenode會把最近的edits文件寫到NFS,而standby namenode從NFS中把數據讀過來。

這個方式的缺點是,如果active或standby有一個和NFS之間網絡有問題,則會造成他們之前數據的同步出問題。

並且不能保證同一時間只有一個namenode向NFS中寫入數據

QJM(Quorum Journal Manager 群體日誌管理器)【目前hadoop2.x使用】

QJM是一個專用的HDFS實現,提供了一個高可用的編輯日誌。這種方式可以解決上述NFS容錯機制不足的問題。

同一時間QJM僅允許一個namenode向編輯日誌中寫入數據。

故障轉移控制器(failover controller),管理著將活動namenode轉移為備用namenode的轉換過程。有多重故障轉移控制器,但默認的一種是使用了zookeeper來確保有且僅有一個活動namenode。每一個namenode運行著一個輕量級的故障轉移控制器。其工作就是監視宿主namenode是否失效(通過一個簡單的心跳機制實現)並在namenode失效時進行故障轉移管理員也可以手動發起故障轉移,例如在日常維護時。

JN:active和standby之間是通過一組日誌節點journal node(數量是奇數,可以是3,5,7...,2n+1)來共享數據。

active把最近的edits文件寫到2n+1個journal node上,只要有n+1個寫入成功,就認為這次寫入操作成功了

然後standby就可以從journalnode上讀取了。QJM方式有容錯的機制,可以容忍n個journalnode的失敗。

相關焦點

  • 大數據之hadoop環境搭建
    上執行:ssh-copy-id hadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03在hadoop02上執行:ssh-copy-idhadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03在hadoop03上執行:ssh-copy-id hadoop0304.上傳並解壓安裝包
  • 紀念|葉永烈與《十萬個為什麼》
    這些文章後來以《碳的一家》出版,也正是因為這本書,他被《十萬個為什麼》編輯看中。當時《十萬個為什麼》的化學分冊編輯曹燕芳邀請他參與了第一版《十萬個為什麼》。葉永烈一口氣寫了100多個跟化學有關的「為什麼」,《十萬個為什麼》化學分冊初版本共收175個「為什麼」,葉永烈一個人寫了163個。隨後,葉永烈又受到邀請為《十萬個為什麼》其他分冊撰稿,即天文氣象分冊、農業分冊、生理衛生分冊。
  • Hadoop生態圈
    本章講一下關於大數據技術hadoop,直接步入正題,在了解hadoop之前,先來說一下什麼是大數據?一.不同的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法,內部提供了大量的庫,如 Spark Sql、Spark Streaming等;*Fiilnk:一種基於內存的分布式計算框架,用於實時計算場景較多;*Oozie:一個管理hadoop
  • 《十萬個冷笑話》為什麼突然銷聲匿跡了?
    那就是十萬個冷笑話系列。我還就得每次的開頭,十萬個冷笑話,冷笑話,話,這樣的套娃開頭,十分吸引人。那麼就是這樣吐槽加搞笑的高人氣動漫,為什麼再出了第二部電影之後就變得鮮為人知了呢,今天就為大家說一說。
  • 原神派蒙的十萬個為什麼題目答案大全:派蒙的十萬個為什麼標準答案...
    原神派蒙的十萬個為什麼題目的答案是什麼?原神派蒙的十萬個為什麼時候結束?各位原神玩家小夥伴們大家好,今日原神遊戲的全新活動《派蒙的十萬個為什麼》開始了喲,每天答對題目就可以獲得摩拉獎勵,下面小編就把全部的題目跟答案分享給大家。
  • 《原神》派蒙的十萬個為什麼答案大全
    《原神》派蒙的十萬個為什麼答案大全 原神派蒙的十萬個為什麼答案是什麼?
  • 關於《十萬個為什麼》背後的硬核往事
    作為一個從小看《十萬個為什麼》長大的人,你可曾想過為什麼這套問題加起來,還沒3000個百科全書,為什麼要叫十萬個為什麼呢?因為一場翻譯車禍。1929年,《十萬個為什麼》原作者伊林,本打算借用偶像吉卜林的名言「七百萬個在哪裡」,來作為書名,但因為英語水平太差翻譯錯了,把「七百萬」譯成了「十萬」,才有了今天這個書名。
  • 原神派蒙的十萬個為什麼答案大全 派蒙的十萬個為什麼全題目答案
    活動地址原神派蒙的十萬個為什麼答案是什麼?原神12月18日上線了新的活動玩法,這次的活動是派蒙的十萬個為什麼答題活動,這次活動只要答對就有摩拉的獎勵。不過題目的答案還是很多玩家不清楚的,因此這裡就帶來了全部題目的具體答案和活動地址,希望大家喜歡。
  • 原神派蒙的十萬個為什麼答案介紹
    18183首頁 原神派蒙的十萬個為什麼答案介紹 原神派蒙的十萬個為什麼答案介紹 來源:網絡 作者:網絡
  • 新手必備,《十萬個冷笑話2》陣容搭配篇
    《十萬個冷笑話2》中的角色十分豐富,大家肯定也有自己心愛的角色,不過在遊戲中作為一個新手到底應該選擇一套什麼樣的陣容呢?既能夠快速上手並加強理解,還能讓自己所向披靡!現在就讓我給大家來介紹一下吧!寒舞篇-十萬個冷笑話2中,對於新手而言,寒舞是必不可少,畢竟可以壓場,限制回合行動並且回血的人物在前期很難獲得,為此,在沒有強大陣容的前提下,可以把寒舞作為首要人物進行培養(主角的面子還是要給的)。哪吒篇-作為新手充值即可白嫖的一個坦克人物來說,肯定是不虧的。
  • 孩子必看一本好書《十萬個為什麼》
    現在,我讀了《十萬個為什麼》,從中增長了不少知識。這是一本科普知識系列叢書,內容數不勝數。大到天文地理,小到生活瑣事,每一篇文章都告訴我們一個科學的小道理。它不僅能幫我開闊視野、增長知識,還能提高學習的興趣,真是我的好幫手。 《十萬個為什麼》向我們介紹了天體的形成過程。我知道了金星、水星、土星、木星、火星、地球、天王星、海王星、冥王星是太陽系裡面的九大行星。
  • 【十萬個為什麼】滅火器為什麼能滅火?
    十 萬 個 為 什 麼 天上為什麼會有星星,太陽為什麼會發光,為什麼海洋是藍色的寶庫,天上為什麼會下雨。為什麼地震前後日光會自己發亮,沙漠為什麼五彩繽紛......
  • 作家葉永烈去世《十萬個為什麼》影響幾代人
    原標題:著名作家葉永烈去世享年80歲《十萬個為什麼》影響幾代人半島記者 黃靖斐著名作家葉永烈於5月15日上午在上海長海醫院去世,享年80歲。葉永烈曾創作中國科幻小說《小靈通漫遊未來》,並參與創作影響幾代人的科普作品《十萬個為什麼》,還寫作了大量的紀實作品,因此他被稱為「漫遊」在科幻與紀實之間的作家。一生作品高產的他曾說:「我曾想在墓碑上寫,對不起,我不能再為你回答為什麼。後來,我想改成,請到圖書館來找我。」
  • 南科大科普叢書《十萬個高科技為什麼》出版
    當天,南方科技大學(下稱「南科大」)系列科普叢書《十萬個高科技為什麼》正式出版。該書由一批走在科技前沿的南科大教授主筆,以最新的科研成果為基礎,面向當代科技發展前沿,希望為廣大學生、科技愛好者提供一個平臺來認識高科技、了解高科技,傳播科技文化知識,促進科技創新。
  • 如何面對孩子的「十萬個為什麼」
    好奇心最簡單的表達方式就是「為什麼」。孩子天生是愛學習的,沒有一個孩子不喜歡學習。我們在陪伴孩子的過程中,你還記得這樣一段時間嗎?有的孩子在某一個年齡或時期會一直會問為什麼,而後面就不會問了;也有的孩子在成長的過程中會一直問為什麼。
  • 【十萬個為什麼】為什麼埃羅芒阿老師人氣這麼高?
    又到了本期「十萬個為什麼」欄目時間了!在本期節目當中,企鵝娘依然會提出一些有關ACG的問題,給予腦洞大開的解答!如果節目結束後大家還有什麼希望探討的話題,也請毫不猶豫地在本期的討論區裡提出,企鵝娘有可能會在今後的欄目中給予解答喲~Q580. 為什麼埃羅芒阿老師人氣這麼高?疑問源頭:《埃羅芒阿老師》難解指數:★★★★
  • 168個生動有趣的小故事,500多個知識點《瘋狂的十萬個為什麼》
    今天就給大家推薦的這套性價比非常高、玩著玩著就把學前知識掌握了的神奇百科全書——《瘋狂的十萬個為什麼》幼兒版。本套叢書專為3-8歲孩子打造,用生動有趣的圖片和簡單易懂的故事回答孩子們提出的為什麼。《瘋狂的十萬個為什麼》(幼兒版)系列叢書,根據《兒童學習與發展指南》編寫,緊密貼合幼兒的閱讀心理和閱讀習慣場景是科普情境式講述體驗式學習,開創玩中學的全新閱讀理念。
  • 【十萬個為什麼】為什么女僕龍的歐派都那麼誇張?
    又到了本期「十萬個為什麼」欄目時間了!在本期節目當中,企鵝娘依然會提出一些有關ACG的問題,給予腦洞大開的解答!如果節目結束後大家還有什麼希望探討的話題,也請毫不猶豫地在本期的討論區裡提出,企鵝娘有可能會在今後的欄目中給予解答喲~Q435. 為什么女僕龍的歐派都那麼誇張?
  • 為什麼要磕十萬個長頭?
    藏民們為了表示自己對神明的虔誠之心,全村男女老幼2百多人從家鄉出發,爬山涉水、風餐露宿、一路行等身禮,朝聖到心中的聖地拉薩大昭寺去參加薩嗄達瓦節的法事活動,全程1488公裡。村民吉村說,全程大概要走上3個月……難道這就是你所理解的作秀?虔誠的藏民,磕長頭的總數可以達到十萬個,如果每天不停地做,每天一千個,也需要近半年時間。
  • 惘聞《十萬個為什麼》:安定的力量
    《十萬個為什麼》的前半張有延續上一張的意思。《幽魂》用一句鬼魅的樂句爬滿全篇,象徵生活中陰沉曖昧,懶懶掛在肩膀上的情緒。西樂的編制中凸顯中國音樂的韻味,中間入侵的高速音階和電噪纏在一起形成反差。捉對的反差還有狂妄電吉他與幼嫩的電子音色。它們提供複雜的情緒體驗,像透過老電影的濾鏡看當下生活,陳舊和新鮮並存,裝腔作勢與欲語還休共生。