【大數據】最新大數據學習路線(完整詳細版】

2020-12-05 騰訊網

大數據學習路線

java(Java se,javaweb)

Linux(shell,高並發架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)?

雲計算平臺(docker,kvm,openstack)

一、Linux

lucene:全文檢索引擎的架構

solr:基於lucene的全文搜索伺服器,實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面。

二、Hadoop

HDFS:分布式存儲系統,包含NameNode,DataNode。NameNode:元數據,DataNode。DataNode:存數數據。

yarn:可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce:軟體框架,編寫程序。

Hive:數據倉庫 可以用SQL查詢,可以運行Map/Reduce程序。用來計算趨勢或者網站日誌,不應用於實時查詢,需要很長時間返回結果。

HBase:資料庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據並進行消息實時的分析

ZooKeeper:針對大型分布式的可靠性協調系統。Hadoop的分布式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop:資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout:可擴展的機器學習和數據挖掘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa:開源收集系統,監視大型分布式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari:用於配置、管理和監視Hadoop集群,基於Web,界面友好。

二、Cloudera

Cloudera Manager:管理 監控 診斷 集成

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了相應的改變,發行版本稱為CDH。

Cloudera Flume:日誌收集系統,支持在日誌系統中定製各類數據發送方,用來收集數據。

Cloudera Impala:對存儲在Apache Hadoop的HDFS,HBase的數據提供直接查詢互動的SQL。

Cloudera hue:web管理器,包括hue ui,hui server,hui db。hue提供所有CDH組件的shell界面的接口,可以在hue編寫mr。

三、機器學習/R

R:用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout:提供可擴展的機器學習領域經典算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可通過Hadoop擴展到雲中。

四、storm

Storm:分布式,容錯的實時流式計算系統,可以用作實時分析,在線機器學習,信息流處理,連續性計算,分布式RPC,實時處理消息並更新資料庫。

Kafka:高吞吐量的分布式發布訂閱消息系統,可以處理消費者規模的網站中的所有動作流數據(瀏覽,搜索等)。相對Hadoop的日誌數據和離線分析,可以實現實時處理。目前通過Hadoop的並行加載機制來統一線上和離線的消息處理

Redis:由c語言編寫,支持網絡、可基於內存亦可持久化的日誌型、key-value型資料庫。

五、Spark

Scala:一種類似java的完全面向對象的程式語言。

jblas:一個快速的線性代數庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。

Spark:Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用並行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用於數據挖掘與機器學習等需要迭代的MapReduce算法。可以和Hadoop文件系統並行運作,用過Mesos的第三方集群框架可以支持此行為。

Spark SQL:作為Apache Spark大數據框架的一部分,可用於結構化數據處理並可以執行類似SQL的Spark數據查詢

Spark Streaming:一種構建在Spark上的實時計算框架,擴展了Spark處理大數據流式數據的能力。

Spark MLlib:MLlib是Spark是常用的機器學習算法的實現庫,目前(2014.05)支持二元分類,回歸,聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎算法。MLlib以來jblas線性代數庫,jblas本身以來遠程的Fortran程序。

Spark GraphX:GraphX是Spark中用於圖和圖並行計算的API,可以在Spark之上提供一站式數據解決方案,可以方便且高效地完成圖計算的一整套流水作業。

Fortran:最早出現的計算機高級程序設計語言,廣泛應用於科學和工程計算領域。

BLAS:基礎線性代數子程序庫,擁有大量已經編寫好的關於線性代數運算的程序。

LAPACK:著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小二乘問題、特徵值問題和奇異值問題等。

ATLAS:BLAS線性算法庫的優化版本。

Spark Python:Spark是由scala語言編寫的,但是為了推廣和兼容,提供了java和python接口。

六、Python

Python: 一種面向對象的、解釋型電腦程式設計語言。

七、雲計算平臺

Docker:開源的應用容器引擎

kvm:(Keyboard Video Mouse)

openstack:開源的雲計算管理平臺項目

在這裡還是要推薦下我自己建的大數據學習交流群:943791324,群裡都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大數據軟體開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小夥伴加入。

大數據基礎——java語言基礎方面

(1)Java語言基礎

Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字符串、Java數組與類和對象、數字處理類與核心技術、I/O與反射、多線程、Swing程序與集合

(2) HTML、CSS與Java

PC端網站布局、HTML5+CSS3基礎、WebApp頁面布局、原生Java交互功能開發、Ajax異步交互、jQuery應用

(3)JavaWeb和資料庫

資料庫、JavaWeb開發核心、JavaWeb開發內幕

階段二、 Linux&Hadoop生態體系

Linux體系、Hadoop離線計算大綱、分布式資料庫Hbase、數據倉庫Hive、數據遷移工具Sqoop、Flume分布式日誌框架

階段三、 分布式計算。

(1)分布式計算框架

(2)storm技術架構體系

相關焦點

  • 大數據的應用與弊端
    下面問您詳細解答大數據(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。1.理解客戶、滿足客戶服務需求  大數據的應用現在在這領域是最廣為人知的。重點是怎樣應用大數據更好的了解客戶以及他們的喜好和行為。
  • 大數據分析學習之路
    把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,並清理成結果數據集。新的競爭環境中,挑戰不斷地變化,新數據不斷地流入,數據科學家需要幫助決策者穿梭於各種分析,從臨時數據分析到持續的數據交互分析。當他們有所發現,便交流他們的發現,建議新的業務方向。他們很有創造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。
  • 【乾貨】數據挖掘中算法學習的2條進擊路線
    這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。 第1條路線(基於普通最小二乘法的)簡單線性回歸→線性回歸中的新進展(嶺回歸和LASSO回歸) → (此處可以插入Bagging和AdaBoost的內容) → Logistic回歸 →支持向量機(SVM) →感知機學習→神經網絡(初學者可先主要關注BP算法) →深度學習
  • 學習大數據是否需要學習JavaEE
    首先,學習大數據一定要學習程式語言,因為不論是從事大數據開發崗位,還是從事大數據分析崗位和大數據運維崗位,程式語言都是非常重要的工具,但是不同崗位對於程式語言的要求是不同的,比如當前從事大數據開發崗位,那麼可以重點學習一下Java,而從事大數據分析崗位和大數據運維崗位,學習Python則是不錯的選擇
  • 大數據到底應該如何學?大數據生態圈技術組件解析
    下面是食用須知:本文適合還不十分了解大數據的你,同樣適合不確定要不要學習大數據的你,將帶你了解行業的需求以及與之相關的崗位,也同樣適合剛剛踏入大數據領域工作的你,歡迎收藏並將文章分享給身邊的朋友。筆者從事大數據開發和培訓多年,曾為多家機構優化完整大數據課程體系,也為多所高校設計並實施大數據專業培養方案,並進行過多次大數據師資培訓、高校骨幹教師學習交流,希望自己的一點粗淺認識能夠幫助到大家。 本文並不是要將大數據描述成一個萬能的、可以解決所有問題的東西,而是客觀的闡述其作用,能夠解決的一些問題。希望將這一領域儘可能完整的介紹給你,至於如何選擇需要根據自己的實際情況來決定。
  • MVP翟永東|從0到1完全掌握大數據
    因此「我要去學習大數據」完整的說法應該是「我要去學習處理大數據問題的技術」,而大數據相關技術需要要學的又太多無從下手,如下圖所示: 在做大數據開發之前需要了解相關的程式語言,並且掌握至少一門的程式語言,比如:Hadoop開源生態主要是使用Java語言的;Spark本身是用Scala語言,同時支持Java語言和
  • 非計算機專業也不是程式設計師怎麼學好大數據,大數據工作難找嗎?
    最近幾年大數據的各種應用和案例時常見諸報導,大數據智慧城市、大數據智慧交通、大數據智慧醫療,工業大數據、農業大數據,貴州大數據、東部大數據,大數據的發展、大數據分應用...等等相關字眼,大家平時生活中多多少少都有接觸到。既然大數據的應用領域這麼廣泛,那麼零基礎非計算機相關專業的人怎麼學習大數據呢?大數據的工作好找嗎?大數據0基礎要學習些什麼?
  • 零基礎如何學習大數據
    隨著網際網路的不斷發展,大數據開發崛起,在網際網路行業中備受關注。很多人開始對大數據越來越感興趣,但是很大一部分人之前沒有了接觸過計算機,對程式語言更是不了解,對於零基礎的人來說,能否學習大數據呢?其實是可以學習的。
  • 學習大數據要學什麼課程?
    如果想要對大數據有一個比較明確的概念並且能夠上手實操的程度,需要學習的內容至少包含兩部分:一部分是專業知識的學習,另一部分是對分析工具的掌握和應用。先來簡單例舉一下需要學習的數據分析方面的專業知識。當然,如果光會紙上談兵也是毫無用處的,我們需要將學習到的學科專業知識靈活運用到實際場景中進行數據分析,因此,我們需要藉助一些數據分析的工具幫助我們進行結果展示。
  • 女生是否適合學習數據科學與大數據技術
    首先,在當前的大數據時代背景下,女生選擇學習數據科學與大數據技術是不錯的選擇,未來也有較多的就業機會。從技術體系結構來看,數據科學與大數據技術涉及到數學、統計學和計算機三大塊內容,總體上的知識量和學習難度都相對比較大,所以女生選擇大數據方向之前,應該首先考慮一下自己的知識結構和學習能力。另外,學習大數據知識還需要進行大量的實踐,而實踐環節還涉及到很多行業領域的知識,包括經濟學、社會學、醫學等等,所以學習大數據技術還是比較辛苦的。
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    大數據文摘作品,轉載要求見文末 作者 | Elaine,田桂英,Aileen 導讀:前段時間小白學數據專欄出了一期Python小抄表,後臺反應強烈(點擊查看大數據文摘小白學數據系列文章)。 目錄: 1.數據科學專場: Python小抄表 2.數據科學專場:R的小抄表 3.機器學習小抄表 4.概率小抄表 5.SQL和MySQL小抄表 6.大數據小抄表
  • 轉行大數據,學歷會影響收入嗎?零基礎學大數據有何建議?
    如今想轉行大數據的人越來越多了,大數據、雲計算、人工智慧等新興行業廣闊的發展前景被大眾看好,想轉行IT大數據,學歷對大數據行業收入的影響有多大?零基礎想學習大數據技術的話,有何學習建議?學歷影響大數據工程師的收入嗎?首先:學歷會影響收入。學歷決定你的起點,努力程度決定你能走多遠,兩者相加才是你的高度。
  • 讓大數據真正發揮「大價值」
    讓大數據真正發揮「大價值」  數字經濟時代,大數據帶來的諸多便利得益於被譽為「萬能糧倉」的數據中心。數據中心算力越強,大數據價值越能得到發揮。國家發改委等4部門近日發布的《關於加快構建全國一體化大數據中心協同創新體系的指導意見》(下稱《意見》)提出,加強全國一體化大數據中心頂層設計。
  • 什麼是大數據,需要理解哪些數據
    在20世紀,大數據一體化已經涉及到各個行業和公司,高考行業也不例外,你知道大數據有什麼嗎?對我們有用的數據是什麼樣子的?我們假設說什麼是高考大數據,而高考大數據顧名思義是與高考相關的數據,通過統計和審計,數據量巨大,對有用信息進行篩選和整理,考生直接諮詢比較方便,不用反覆核對材料、翻書。那麼,高考大數據的內容是什麼呢?這些對參加高考的考生和學生家長有什麼用呢?
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    目錄: 1.數據科學專場: Python小抄表 2.數據科學專場:R的小抄表 3.機器學習小抄表 4.概率小抄表 5.SQL和MySQL小抄表 6.大數據小抄表 9. 答:有哦,入門請看10-13號小抄,從功能說明到詳細操作應有盡有,還不熟練的話照著做就對了。 10. R最全的引用卡 這份小抄代碼整理了用於R的所有功能和操作。理解在R中的不同術語,它對於數據創建、數據處理、數據操作、函數建模、篩選等各方面功能都做了說明。  11.
  • 大數據分析為什麼要學習R中的線性建模
    對於大數據分析師來說,能夠建立線性模型是絕對必要的,但是數據分析人員甚至業餘愛好者也可以從線性建模的功能中受益匪淺。R中的線性建模,這是大數據分析師中的新課程,它將從頭開始教你此技能。你準備好動手開始建模嗎?
  • 大數據教育工作委員會成立暨數據科學與大數據技術專業建設論壇
    本次活動由大數據教育工作委員會秘書長劉計剛主持,首先介紹了大數據教育工作委員會的具體工作,工委主要是在大數據人才培養、課程資源建設、混合雲共享學習平臺的重要演講,詳細講解了中國人民大學的大數據人才培養策略。
  • 大數據教育應用的限度
    近年來,在世界範圍內以數據挖掘(data mining)、雲計算(cloud computing)、學習分析(learning analytics)、機器學習(machine learning)等技術為支撐的大數據教育應用如火如荼,最新的人工智慧技術仍然以大數據為基礎。
  • 女生學習大數據有哪些優勢
    大數據時代的到來不僅引起了男孩們的注意,也讓很多女孩興奮不已。然而,一些女孩被刻板印象所打敗,不敢選擇大數據開發。她們認為女生在這個行業沒有優勢。那麼與男孩相比,女孩學習大數據發展的優勢是什麼?下面小編為大家介紹女生學習大數據的三個優點:一、溝通上面的優勢每個人都知道,學習大數據開發主要是為了服務客戶,雖然項目可以滿足客戶需求,但如何充分表達您項目的初衷是很多男性大數據工程師無法做到的。在這一點上,女生更有利。由於女生給人一種平易近人的感覺,她們會在與顧客的溝通中給顧客留下良好的印象,並且能夠很自然地減少與顧客的溝通障礙。
  • 大數據開發和大數據分析有什麼不同?
    大數據分析工程師和大數據開發工程師分別能做什麼?通俗解釋開發和分析非要把他倆分開的話,一個是偏向於數據,一個偏向於工程。好比要炒個菜,工程師是燒火、墊勺的那個,偏向於工具的使用。分析師是放調理、掌握火候的那個,偏向菜怎麼做好吃。數據影響生活數據越來越多的影響並塑造著那些我們每天都要交互的系統。