大數據(Hadoop、Spark、NoSQL)的技術與實踐

2021-02-13 我是架構師


公開課以「Skill Transfer(技能傳授)」為宗旨,秉承諮詢式培訓理念。圍繞團隊管理、架構設計、測試管理、設計匠藝、 產品創新等主題,在數十個熱點城市,以小型培訓、動手實驗等公開課的形式向客戶提供,您可以根據我們每年安排的 公開課排課計劃,選擇您研發團隊所需的課程模塊。

福利:通過微信報名3人以下享受9折優惠;3人以上(含3人)報名享受8折優惠。

大數據(Hadoop、Spark、NoSQL等)的技術與實踐 

講師介紹:北京大學博士後,第一屆中國軟體業十大傑出青年候選人。專著《不是三維——軟體項目的設計、開發與管理》與《消息設計與開發:分布式應用開發的核心技術》作者。

雲計算數據基礎設施倡導者與研究者,第十六屆世界計算機大會電子商務大會數據管理分會主席,中國青年科技工作者協會第二屆會員,中小企業創新基金評審專家,中國軟體技術大會特邀講師。

現從事雲計算,NoSQL與大數據,企業IT架構、企業數據架構以及信息系統設計開發等方面的研究與實踐工作,涉及金融、電信及政府等多個行業。

曾任空間信息領域教師,獲福建省,山東省引進高級人才計劃。1992年起從事軟體的設計、開發與管理工作,自2002年起,在北美從事軟體系統分析與設計工作近七年之久,迄今為止,共負責、參與國內外大中型軟體項目20多項,歷任中國大中型IT企業總工程師,技術管理部部長,事業部副總經理,BI首席架構師,軟體開發總監及雲計算與大數據首席架構師等職。共在國內外發表科技論文30餘篇,多篇獲獎,並被美國《工程索引》EI檢索6篇。

相對於其它專注於培訓大數據技術的課程,本課程有如下特點:

1、除了對各種大數據技術本身的原理、設計與使用方法進行全面深入的講解以外,更重要的是對各種技術的本質與特點進行了深入的分析、比較與討論,從而使學員對各種技術的真正適用場景能客觀準確的判斷;

2、結合企業實際對大數據的概念進行了明確的澄清;

3、結合企業應用實際,介紹了各種大數據技術具體定位與應用規劃與方法。

通過該課程學習,洞悉Hadoop,NoSQL與Spark等技術的原理、架構與技術手段;結合豐富實例掌握其設計與開發方法,以及掌握如軟體架構、性能調優等使用過程中的實用技巧;深入了解Hadoop,NoSQL,Spark體系中各成員,理解Hadoop,NoSQL,Spark成員各自的優、缺點與正確適用場景,了解技術最新發展動向,能對Hadoop,NoSQL與Spark體系在學員企業、學員項目、學員研發中是否可用、如何定位以及如何使用做出正確判斷與學習,並且對如何結合大數據技術規劃企業數據架構得到相當的啟發與收穫。

企業中高層技術管理人員、企業技術戰略決策者、軟體架構師、軟體研發人員與大數據技術愛好者,有大數據及海量數據管理與處理需求的企業優先。

企業數據架構基礎知識;數據管理基礎知識;關係資料庫的操作與實踐;大數據概念了解。

主題

內容

大數據時代關係資料庫的挑戰與應對

1. 現代數據管理技術綜述
2. 關係資料庫技術的核心特徵
3.主流關係資料庫的挑戰
4. 改進型關係資料庫

大數據技術綜述

1. 大數據概念澄清
2. 大數據技術家族
3. NoSQL技術綜述
3.1最早的NoSQL---BDB
3.2 Hadoop之Hbase與Facebook之Cassandra
3.3 MongoDB與CouchDB
3.4Memcached與Redis
3.5圖形資料庫Neo4j
4. MapReduce
5.關係資料庫聯邦
6.海量分布式文件系統
7大數據技術理論基礎
CAP,BASE,ACID

Hadoop實用教程

1. Hadoop技術概論
1.1 Hadoop體系架構總論
1.2 HDFS-工作原理與架構
1.3 平民化的分布式計算MapReduce
1.4 MapReduce工作原理與架構
1.5 Hadoop數據倉庫-Hive
1.6 Hadoop NoSQL資料庫-HBase
1.7 工作流調度-Ooize
1.8 分布式協調系統--Zookeeper
2. Hadoop部署
2.1 Hadoop版本介紹與選擇
2.2 Hadoop部署實踐
2.3 Hadoop安裝文件構成與配置體系
2.4 機器硬體建議配置
2.5 系統環境配置
2.6 基本參數配置與說明
2.7 進程分布規劃與啟動
3. 分布式文件系統HDFS實用教程
3.1 HDFS操作
3.2 HDFS編程—文件讀寫
3.3 HDFS數據壓縮
3.4 HDFS技術要點
4. MapReduce實用教程
4.1 MapReduce原理與架構
4.2 MapReduce編程方法
4.3 MapReduce實用技術要點
4.4 MapReduce排序與關聯
4.5 MapReduce工作流
4.6 MapReduce調優
5. MapReduce2.0-YARN
5.1 YARN的原理
5.2 YARN設計架構
5.3 YARN工作流程
5.4 YARN與MapReduce1.0比較
6. MapReduce實例講解
6.1普通實例
6.2 高級實例
6.3 MapReduce高級數據分析(時間允許時)
7. Hadoop數據倉庫Hive
7.1 Hive編程
7.2 Hive環境部署與搭建
7.3 Hive工作機制
7.4 Hive語法與實踐
8. 其它ZooKeeper,Sqoop,Chukwa,Avro……

Hadoop技術分析

1. Hadoop MapReduce技術解析
6.1關於效率
6.2關於擴展性
6.3關於可靠性與可用性
6.4關於與關係資料庫
6.5關於適用的數據類型
6.6關於數據存儲與管理
2. Hadoop與關係資料庫
2.1 MapReduce與關係資料庫
2.2 Hive與MPP關係資料庫

NoSQL實用教程

1.NoSQL理論基礎---CAP與BASE深入分析
2.NoSQL實用教程
2.1 HBase實用教程
2.1.1 HBase原理
2.1.2 HBase實用安裝部署要點
2.1.3 HBase數據模型
2.1.4 HBase索引與關聯的實現
2.1.5 HBase使用
2.1.6HBase性能調優
2.1.7 HBase高級設計教程---如何真正用好HBase
2.1.8 HBase與關係資料庫結合
3. NoSQL設計實例
3.1 HBase實現全屬性查詢
3.2 HBase實現時間序列數據管理
3.3 HBase與MapReduce結合示例
4. Facebook Cassandra介紹
5.MongoDB介紹
6.圖資料庫Neo4J介紹

NoSQL技術分析

1. NoSQL技術手段總結
1.1 水平分割
1.2 數據副本與讀寫一致性
1.3 In-Memory架構
1.4 MVCC
1.5列存儲
1.6 COW
2. NoSQL技術解析
2.1 關於水平擴展性
2.2關於模式自由
3. NoSQL與關係資料庫
3.1 理論原則分析
3.2 邏輯模型分析
3.3 物理模型分析
3.4 索引、事務與關聯
3.5 使用場景定位
3.6 企業數據體系定位

Spark教程

1. Spark組成與體系架構
2. Spark原理
3. Spark與Hadoop
4. Scala簡介
5. Spark技術流程

超越Hadoop

1. Hadoop技術體系的不足與尷尬
2. 新技術介紹
3. 網際網路技術體系介紹
4. 數據管理技術發展趨勢分析

大數據技術實踐分享

1. 海量數據處理架構設計
2. 大數據驅動與企業業務/運營
3. 實踐中的企業大數據分析技術流程
3.1採集---各種方法的比較
3.2存儲---原始數據與業務數據提取
3.3模型---Web分析指標體系
3.4分析---大數據分析方法
3.5 行動---個性化推薦
4. 大數據與企業交易
5. 大數據與企業交互
5. 自已設計大數據技術體系

大數據與企業新一代數據體系建設

1.傳統的以關係資料庫為主的企業數據架構
2.大數據時代的新一代企業數據邏輯架構
2.1 數據分類
2.2 數據分布
2.3 數據流轉
2.4 數據集成
2.5 數據交換
2.6 數據分析
2.7 應用展示
3. 新一代企業數據技術架構
3.1邏輯架構
3.2技術方法
3.3物理平臺
4. 新一代企業數據架構中Hadoop/NoSQL與關係資料庫的相互配合
5. 典型場景示例

(課程內容詳情請點擊「閱讀原文」即可前往官網查看。)

我是架構師

相關焦點

  • 百度大數據三面題:shuffle過程+HBase+Spark優化+kmeans算法
    map-reduce程序運行的時候會有什麼比較常見的問題,你簡單描述一下hadoop的TextInputFormat作用是什麼,如何自定義實現?hadoop和spark的都是並行計算,那麼他們有什麼相同和區別呢?
  • 黑馬程式設計師:技術筆記大數據面試題之spark相關(二)
    昨天分享了大數據面試題之spark相關一,看到有很大的反響,今天就分享接下來的二,希望能更好的幫助到大家!11.簡單說一下hadoop和spark的shuffle相同和差異?如果用戶需要經過排序的數據,那麼需要自己調用類似 sortByKey() 的操作;如果你是Spark 1.1的用戶,可以將spark.shuffle.manager設置為sort,則會對數據進行排序。在Spark 1.2中,sort將作為默認的Shuffle實現。3)從實現角度來看,兩者也有不少差別。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • hadoop與數據挖掘的關係_區別_哪個好
    hadoop與數據挖掘的關係 大數據就是Hadoop嗎?當然不是,但是很多人一提到大數據就會立刻想到Hadoop。現在數據科學家利用海量數據創建數據模型為企業帶來的利益是以前所不可想像的,但是數據的潛力已經被完全挖掘出來了嗎,它滿足了人們的期待了嗎?今天小編就從Hadoop項目開始為你抽絲剝繭了解hadoop。
  • 最全的大數據技術大合集:Hadoop家族、Transwarp系列、Cloudera系列、spark、storm...該有的都有了
    點擊上方「藍色字體」 可快捷關注。大數據我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。為了能夠更好 的架構大數據項目,這裡整理一下,供技術人員,項目經理,架構師選擇合適的技術,了解大數據各種技術之間的關係,選擇合適的語言。
  • Spark【面試】
    和spark的都是並行計算,那麼他們有什麼相同和區別兩者都是用mr模型來進行並行計算,hadoop的一個作業稱為job,job裡面分為map task和reduce task,每個task都是在自己的進程中運行的,當task結束時,進程也會結束spark用戶提交的任務成為application,一個application
  • Apache Spark大數據分析入門(一)
    Apache Spark的出現讓普通人也具備了大數據及實時數據分析能力。鑑於此,本文通過動手實戰操作演示帶領大家快速地入門學習Spark。本文是Apache Spark入門系列教程(共四部分)的第一部分。
  • Hadoop和Spark的區別是什麼?現在都流行用哪種技術?
    談到大數據,相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而,最近業界有一些人正在大張旗鼓的宣揚Hadoop將死,Spark將立。他們究竟是危言聳聽?譁眾取寵?還是眼光獨到堪破未來呢?與Hadoop相比,Spark技術如何?現工業界大數據技術都在使用何種技術?如果現在想要參加大數據培訓的話,應該從哪一種開始呢?
  • 大數據開發入門實例
    最近參加了一個大數據開發的培訓,整理一下在培訓過程中,老師一直說的一個案例。案例比較簡單,使用 MapReduce、hive、Spark 等框架進行計算,對框架有一個簡單的了解。現在對這個案例進行一個簡單的整理,方便後期學習。
  • 深度解析:Spark 優於 Hadoop 嗎?
    ,大數據和Hadoop 就成了同義詞。隨著人們學習了大數據生態系統及其工具和運作原理,他們更能理解大數據的實際意義以及Hadoop 在生態系統中所扮演的角色。 維基百科對大數據這樣解釋:大數據是一個寬泛的術語,它指傳統數據處理應用程式無法處理的巨大而複雜的數據集。 簡單來講,隨著數據量的增加,採用常規處理方法需要花費大量時間且價格不菲。
  • 高手指路:Linux運維工程師的大數據安全修煉手冊
    作者介紹陳浩,北信源研發工程師,五年Linux運維工作經驗,熱衷運維技術研究、實踐和團隊分享。從運維青銅到運維白銀再到運維黃金,這裡面牽扯到的方向問題也就是裝備,根據自己的愛好,每個人都應該選擇一個適合自己和喜歡自己的一個職業技術方向,如:大數據安全、開發運維、雲計算運維等。
  • 問題排查 | Spark OrcFileFormat inferSchema執行巨慢問題分析
    1、現象說明最近業務開發的同事在使用大數據平臺提供的二次開發功能時,碰到一個很奇怪的問題——二次開發的jar包手動利用spark-submit腳本提交到yarn,代碼執行速度遠遠快於大數據平臺。2、利用反射技術,執行自定義接口實現類的方法。從代碼上來看,真的是十分的簡潔,沒有優化的地方。
  • 解決Spark數據傾斜(Data Skew)的N種姿勢
    本文轉發自技術世界,原文連結 http://www.jasongj.com/spark/skew/摘要
  • Hadoop大數據面試題全版本
    以下資料來源於網際網路,很多都是面試者們去面試的時候遇到的問題,我對其中有的問題做了稍許的修改了回答了部分空白的問題,其中裡面有些考題出的的確不是很好,但是也不乏有很好的題目,這些都是基於真實的面試來的,希望對即將去面試或向繼續學習hadoop,大數據等的朋友有幫助!
  • hadoop教程全套教學視頻高清完整
    大數據視頻教程 大數據Hadoop Spark教程 最新大數據視頻課Hadoop大數據視頻教程項目推薦算法Spark Hive HBase Flume Kafkahadoop入門教程全套教學視頻高清完整大數據開發2020入門到精通Hadoop挖掘hbase機器學習Spark視頻教程大數據Hadoop全棧生態圈入門視頻Hive
  • Spark入門介紹
    Spark是一種基於內存的快速,通用,可擴展的大數據計算引擎框架。四 、Spark及相應環境安裝4.1 Mac:下載安裝jdk1.8並配置環境變量,下載scala的壓縮包後解壓(我使用的是scala-2.11.12),;以及spark-2.3.1-bin-hadoop2.7壓縮包解壓。
  • 學習大數據這門技術所需要的是什麼?
    大家好,這裡是鏈客區塊鏈技術問答社區,今天說一說學習大數據需要什麼計算機語言基礎,希望對大家有所幫助。鏈客,有問必答!因為大數據前景好,薪資高,很多人想通過參加學習大數據,然後進入大數據行業發展。>階段五:Linux和Hadoop階段六:大數據資料庫階段七:實時數據採集階段八: Spark數據分析從上面的課程內容看,大數開發學習要掌握ava、 linux、 hadoop、 storm、fume、hive、
  • 溼貨|小白學習大數據測試之Hive和Hbase
    轉發是對小編的最大支持回顧溼貨|小白學習大數據測試之hadoop再次探索溼貨|小白學習大數據測試之hadoop初探小白學習大數據測試之主流程和關鍵步驟小白學習大數據測試 VS 傳統資料庫測試小白學習大數據測試之揭秘大數據的背景與發展活動進行中:免費送書,自動化、性能、持續集成統統在這裡~作為初學者經常會對
  • 實戰課堂 | 手把手教你用MongoDB Spark Connector構建分析應用
    支持多種數據源,通過 Spark RDD 屏蔽底層數據差異,同一個分析應用可運行於不同的數據源;4,應用場景廣泛:能同時支持批處理以及流式處理MongoDB Spark Connector 為官方推出,用於適配 Spark 操作 MongoDB 數據;本文以Python為例,介紹MongoDB
  • 『 Spark 』2. spark 基本概念解析
    作者:李濤濤,通聯數據|優礦|量化工程師,關注大數據,量化投資博客:http://litaotao.github.io郵箱:taotao.engineer@gmail.comGitHub: http://github.com/litaotao寫在前面本系列是綜合了自己在學習spark