新科技時代,一切皆數據,大數據的概念、關係與學習路線

2020-12-04 科技無憂

隨著國家定義了「新型基礎設施建設」(新基建),新科技時代已經來臨。如果說新基建的目標是構建起新時代科技中國的軀體的話,那麼數據就是這個軀體中無處不在的血液,沒有這個血液,所有的一切都將沒有正常運行的能量來源。

「數據」早已有之,但長久以來,除了科技公司和大型企業外,人們對「數據」應用得並不充分。而隨著數據滲透到當今幾乎每一個行業和業務職能領域,滲透到幾乎任何體量的社會組織中,並成為重要的生產因素,人們對於海量數據的挖掘和運用,推動了21世紀以來新一波的生產率增長和消費浪潮的到來。所以,在現今及未來可預見的時代,說「一切皆數據」也不為過!

不過,如今的「數據」相對以前的「數據」,其內涵有了極大的擴展,而涉及到的相關技術和工具也發生了翻天覆地的變化,於是「大數據」的概念產生了。

大數據(big data)是指海量的、多樣化的交易數據、交互數據、終端與網絡數據以及傳感數據等,其主要特徵包括:

海量的數據規模:大數據一般指在10TB規模以上的數據量,甚至常常是PB(1PB=1024TB)級別的。

快速的數據流轉:大數據通常需要能夠獲得實時的處理、分析和利用,能夠實現數據的快速流轉。

多樣的數據類型:大數據通常用來形容大量的非結構化和半結構化數據,對數據的類型幾乎沒有任何限制,如文檔、圖片、音頻、視頻、電子郵件、網頁等。

較低的價值密度:半結構化和非結構化的數據,其價值密度通常來說較低,所以相比那些價值密度較高的結構化數據,更需要使用大數據技術進行處理。

信息技術的核心就在於數據,數據與幾乎每一項信息技術都息息相關,或為因,或為果;幾乎任何一項信息技術,或者需要依賴數據,或者能夠產生數據,或者直接或間接地服務於數據。

物聯網:通過物聯網採集的數據通常具有非結構化、碎片化、時空域等特性,所以需要通過新型的數據存儲和處理的大數據技術來加以利用。

人工智慧:想提升人工智慧本身的性能和精準度,必須依賴大量的樣本數據,一個粗略的經驗法則是,對於監督學習算法,在每給定約5000個標註樣本的情況下,人工智慧程序將達到可以接受的性能;而當至少有1000萬個標註樣本的數據集可用於訓練時,人工智慧程序將達到甚至超過人類表現。

企業上云:大量企業在長期運營中積累了豐富的數據資源,但一直都是分散在獨立的系統中進行碎片化保存的,而隨著企業上雲的全面推進,未來這些碎片化保存的數據資源將能夠在被遷移到雲中後,基於大數據技術進行價值挖掘。

邊緣計算:隨著邊緣計算的發展,企業收集數據方式將逐漸轉向設備端,由於邊緣計算相對雲計算更加靠近數據源頭,可以有效降低數據傳輸處理到反饋的遲延,同時具有顯著的效率成本優勢和安全隱私保護優勢,因此將進一步擴大數據採集的適用場景和規模。

開源軟體:越來越多的大數據相關開源軟體的出現,能夠幫助使用者實時訪問和處理數據,中小型組織和初創企業將從中受益,免費的開源軟體可以幫助企業降低運營成本,並促進他們去學習、掌握、生產和使用大數據,從而夯實大數據產業的底層基礎,並將與頭部科技巨頭企業一起,共同激活整體大數據產業生態。

5G技術:5G網絡的高帶寬和低時延,將使得單位時間內產生的數據量急劇增長,單位區域內的聯網設備成倍增加,人與物、物與物之間的連接急劇增多。在5G時代,數據採集渠道將更加豐富,更加海量的原始數據將被收集。

下面再說說大數據的學習路線。由於大數據涉及的範疇非常廣,為了避免盲人摸象,因此對於初學者來說,建議沿著大數據處理的整個流程,對各個環節的基本概念和主要框架有個整體的認識,之後可以再根據自己的興趣或具體崗位的需要,聚焦於某個細分領域,如數據可視化、數據倉庫、數據分析、數據安全等等。

大數據處理的主要環節包括數據採集、數據存儲、數據處理和數據應用。

數據採集:大數據處理的第一步是數據採集。現在的中大型項目會採用微服務架構進行分布式部署,所以數據的採集需要在多臺伺服器上進行,且採集過程不能影響正常業務的開展。基於這種需求,就衍生了多種日誌收集工具,如Flume、Logstash、Kibana等,它們都能通過簡單的配置完成複雜的數據採集和數據聚合工作。

數據存儲:採集數據後的下一個問題就是:數據該如何進行存儲?通常大家最為熟知是MySQL、Oracle等傳統的關係型資料庫,它們的優點是能夠快速存儲結構化的數據。但大數據的數據結構通常是半結構化(如日誌數據)甚至是非結構化的(如視頻、音頻、網頁),為了解決海量半結構化和非結構化數據的存儲,衍生了Hadoop HDFS、KFS、GFS等分布式可擴展的文件系統。分布式文件系統完美地解決了海量數據存儲的問題,但是一個優秀的數據存儲系統需要同時考慮數據存儲和訪問兩方面的問題,比如你希望能夠對數據進行隨機訪問,這是傳統的關係型資料庫所擅長的,基於這種需求,就產生了HBase、MongoDB。

數據分析:大數據處理最重要的環節就是數據分析,數據分析通常分為兩種:批處理和流處理。批處理是指對一段時間內海量的離線數據進行統一的處理,對應的處理框架有Hadoop MapReduce、Spark、Flink等;流處理是指對流轉中的數據進行處理,即在接收到數據的同時就對其進行處理,對應的處理框架有Storm、Spark Streaming、Flink Streaming等。批處理和流處理各有其適用的場景,時間不敏感或者硬體資源有限,可以採用批處理;時間敏感和及時性要求高就可以採用流處理。此外,為了能夠讓熟悉SQL的人員也能夠進行數據的分析,查詢分析框架應運而生,常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。這些框架都能夠使用標準的SQL或者類SQL語法靈活地進行數據的查詢分析,這樣,即便是沒有較強編程能力的非後臺工程師,也能很容易地進行大數據分析了。

數據應用:數據分析完成後,接下來就是具體數據應用的範疇了,這取決於實際的業務需求。比如你可以將數據直接進行可視化展現以輔助決策或預警,或者將數據用於優化產品中的個性化頁面和推薦算法,或者將數據用於訓練你的人工智慧機器學習模型,這些都屬於具體大數據應用領域的範疇,也都有著對應的框架和技術棧可供使用。

上面提及了一些標準的大數據處理流程所用到的技術框架,但是實際的大數據處理流程比上面會複雜很多,希望系統和全面學習大數據的朋友,這裡有一本[大數據入門指南]完整介紹了針對大數據由淺入深的學習路線及重要知識點,此外還有一本[為數據而生 大數據創新實踐]有很多針對大數據應用領域不錯的案例、觀點和方法論,有興趣的朋友可以根據下面線索獲取。

創作不易,歡迎朋友們關注、評論、轉發。如企業轉載或其它,請聯繫:keji5u(科技無憂訂閱號)

相關焦點

  • 大數據學習路線
    同時針對集群資源管理的需求,又衍生了 Hadoop YARN ;複雜大數據處理的另外一個顯著的問題是,如何調度多個複雜的並且彼此之間存在依賴關係的作業?二、學習路線介紹完大數據框架,接著就可以介紹其對應的學習路線了,主要分為以下幾個方面:2.1 語言基礎1.
  • 大數據開發學習路線
    說數據是一個企業最核心的東西之一,我想大家應該都能基本認同吧,畢竟連XXX都說過,這是一個數據為王的時代,誰掌握了數據誰就掌握未來!,問能不能整一個大數據開發相關的技術學習路線和知識點大梳理。、面試題和面經、編程資料及系列技術文章等,資源持續更新中」大數據開發基礎學習程式語言往往是我們開啟學習之路的第一大步。
  • 關於大數據的學習路線
    關於大數據的學習路線關於大數據的基礎知識,知乎專欄:從頭學習大數據供你參考學習!學習大數據首先我們要學習Java語言和Linux作業系統,這兩個是學習大數據的基礎,學習的順序不分前後。Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,學習大數據要學習那個方向呢?
  • 如何成為大數據全棧人才 相關學習路線是什麼
    如何成為大數據全棧人才?相關學習路線是什麼?隨著大數據的日益普及,企業對於IT行業的人才已經不僅僅存留在單一科目的需求,更趨向於對大數據全棧技術的人才伸出橄欖枝。想要成為一名大數據全棧人才,下面為大家分享一下。  但想要成為工資高、待遇好的大數據工程師,是需要專業的技能的。
  • 大數據時代的基本常識-數據的概念和數據的類型
    在大數據時代以前,數據這個詞,聽起來挺專業,似乎是IT專業人士才能懂,而現在,我們每個人都經常在與數據打交道,如果還不了解什麼是數據,那就有些不符合時代潮流了。數據的類型上面的數據概念還是有些偏學術,我們可以把數據理解更具體一些。也就是說我們日常工作、生活、學習以及娛樂過程中形成的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,以及對各種事物的屬性、數量、位置及其相互關係的抽象表示,都是數據。
  • 乾貨:大數據學習路線,如何學好大數據?(精華)
    hadoop知識背景什麼是hadoop、hadoop產生背景、hadoop在大數據云計算中的位置和關係、國內hadoop的就業情況分析及課程大綱介紹國內外hadoop應用案例介紹分布式系統概述、hadoop生態圈及各組成部分的簡介1.1.2
  • 圖解 SQL 編程思想:一切皆關係
    來源:CSDN本文介紹關係資料庫的設計思想:在 SQL 中,一切皆關係。在計算機領域有許多偉大的設計理念和思想,例如:在 Unix 中,一切皆文件。在面向對象的程式語言中,一切皆對象。關係資料庫同樣也有自己的設計思想:在 SQL 中,一切皆關係。關係模型關係模型(Relational model)由 E.F.Codd 博士於 1970 年提出,以集合論中的關係概念為基礎;無論是現實世界中的實體對象還是它們之間的聯繫都使用關係表示。
  • 薦書 | 全民數據學習時代的組織與個人
    既然是人人必備之功課,這是一個全民數據學習的時代,就像剛剛過去的高考,人生無法實現真正的公平,但是考試面前,人人平等。我認為,論證今天是全民數據學習時代不用再囉嗦,重要的事情不用說三次,老天也會讓不聽的人交學費,今天話題的重點是全民數據學習中的組織與個人,如前所述,我這個話題主要是針對供給側的,當然有些道理對需求側也是相通的,只是消費者都不喜歡被教訓,我也不想得罪這些「上帝」。可能有人說,數字時代數據為王,組織與個人都成為配角。
  • 【大數據】最新大數據學習路線(完整詳細版】
    大數據學習路線java(Java se,javaweb)Linux(shell,高並發架構,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)機器學習(R,mahout)Storm(Storm,kafka
  • SQL 編程思想:一切皆關係
    作者 | 不剪髮的Tony老師來源 | CSDN博客在計算機領域有許多偉大的設計理念和思想,例如:在 Unix 中,一切皆文件。在面向對象的程式語言中,一切皆對象。關係資料庫同樣也有自己的設計思想:在 SQL 中,一切皆關係。
  • 大數據開發學習中常見的概念有哪些,零基礎大數據培訓分享
    很多零基礎轉來學習大數據開發的童鞋,對大數據開發常見的相關概念有哪些,怎麼理解會有不太清楚的地方,今天加米谷就來簡單總結一下大數據開發常見的相關概念。1、Linux [links]一種計算機作業系統,一套免費使用和自由傳播的類Unix作業系統,是一個基於POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的作業系統。
  • 什麼是大數據,什麼是大數據概念?讓我為你解答
    「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。
  • 何為大數據概念 大數據分析
    導讀 大數據裡面包含很多如大數據時代、大數據概念、大數據分析、大數據營銷與開發到底是什麼意思呢?所謂大數據,那到底什麼是大數據,他的來源在哪裡,定義究竟是什麼呢?
  • 網際網路、大數據、人工智慧這三個概念有何種關係
    首先,網際網路、大數據、人工智慧這三個概念本身都有一個巨大的生態體系和價值空間,從技術的角度來說,廣義的網際網路奠定了數據交換的基礎,這也直接推動了大數據的產生,而大數據的出現也把人工智慧推到了一個新的發展階段,可以說網際網路是大數據的基礎,而大數據則是人工智慧的基礎。
  • 大數據核心技術有哪些 大概學習路線是什麼
    大數據核心技術有哪些?大概學習路線是什麼?大數據技術,簡而言之,就是提取大數據價值的技術,是根據特定目標。想要成為炙手可熱的大數據技術人才,這些大數據的核心技術一定要知曉!存儲的不足,在部分場合可以對關係資料庫起到很好的補充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客戶端,使用很方便,大數據開發需掌握Redis的安裝、配置及相關使用方法。
  • 月薪25K的數據分析師學習路線
    給大家總結了數據分析師通用的技能要求和學習路線,想做數據分析的朋友可以逐個查缺補漏。《赤裸裸的統計學》《赤裸裸的統計學》是一本非常通俗易懂的統計學入門讀物,每一章都從實際生活中的案例出發來介紹一些統計學中的核心思想和概念。比如用垃圾郵件過濾、癌症篩查、恐怖分子追捕來解釋什麼是統計推斷和假設檢驗;用客車拋錨來引出中心極限定理。書中幾乎沒有數學公式和圖表,但是一個個小的案例就把統計中非常重要的概念解釋清楚了,非常適合用來入門。2.
  • 瑞幸咖啡背後與大數據的關係
    瑞幸咖啡背後與大數據的關係 電子發燒友 發表於 2018-12-28 11:27:59 留給你的秘密已經越來越少。
  • 怎麼入門大數據開發行業 相關學習路線是什麼
    怎麼入門大數據開發行業?相關學習路線是什麼?大數據行業人才的巨缺,企業對技術人才的渴求,激發了一批對大數據技術感興趣的人的的學習欲望。對於大數據的學習,千萬不能盲目學習,先要找準方向,判定是不是真正的大數據技術再開始學習。
  • 一文講解5G、網際網路、物聯網、大數據、人工智慧的關係
    ,從整體宏觀上來看,物聯網與網際網路在金字塔的最底層,因為它們生產數據,是一切之源;從微觀上看,物聯網是網際網路的擴展。 傳感器設備,隨時進行空調信息的採集,再通過網絡傳遞到後臺進行處理分析,最後實現智能開關與溫度自動調節等,而用戶只需要享受空調的服務即可,其餘的一切皆可不用關心。 5G即5thGeneration wirelesssystems,第五代移動通信技術,通過超高速度、超低延時來實現信息的隨時隨地傳送、萬物互聯。
  • 移動學習運營必備哪些思維?遊戲化、社群、大數據
    如在移動學習平臺的管理上,如何讓學習者明確自己的學習任務,並清楚每一次的學習行為所產生的量化結果,進而及時反饋值得思考。10月23-24日,陳利華老師將會在深圳的企業移動學習峰會上就網際網路學習的玩法發表精彩演講,也期望大家屆時關注。大數據思維大數據可以實現學習管理的科學導向和自然演化。其中的三個思維在移動學習平臺上非常適用。