何為大數據技術?大數據技術發展歷程

2020-09-14 加米谷大數據張衡

大數據發展到今天,通常來說有兩層含義,海量的數據集合以及對海量數據集合進行處理的大數據技術。海量的數據集合,這個非常好理解,就是不斷累積起來的數據資源,而大數據技術又是指什麼呢?何為大數據技術,今天我們來對大數據技術發展歷程做個簡單的介紹。

從定義來說,大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。在行業當中的大數據研發者們,就是致力於將大數據技術應用到相關領域,從巨量數據從中獲取有價值的信息。

我們對大數據技術的認知,通常包括採集數據的工具、平臺和數據分析系統等。

最早的第一代大數據技術框架,是Doug Cutting參考谷歌在2003年發表的Google File System論文,建立了Hadoop開源項目,並於2006年貢獻給Apache基金會,用來構建大規模搜尋引擎和解決大規模的數據存儲和離線計算的難題。

首先誕生的是分布式文件系統HDFS和分布式計算框架MapReduce。隨後在2007年,Facebook開發了Hive,可以使用類SQL語言查詢存放在HDFS上的數據,PowerSet公司開發了分布式NoSQL資料庫HBase

從2006到2009年這個階段,以MapReduce計算框架為代表,大數據技術在大型網際網路企業被廣泛應用於大規模結構化數據的批處理,具體的應用場景是做日誌分析和用戶行為分析等。這個階段我們稱之為大數據的1.0時代。

大數據進入2.0時代的標誌,是Spark核心計算引擎的出現。

由於MapReduce在要求短時間響應的交互式分析場景下表現不好,以Spark和Flink為代表的新計算引擎出現並廣泛使用。這個階段有三個重要變化:

一是大數據業務更多轉為結構化數據處理等價值密度更高的計算,所有的大數據公司開始在Hadoop之上打造SQL引擎或分布資料庫。2012年開始到隨後兩年中出現20多個基於Hadoop的SQL引擎,包括Impala、Spark SQL等,以及星環的Inceptor,以解決結構化數據問題;

二是實時數據處理方面,大量的實時數據需要及時處理,到2015年,Flink、Beam、Spark Streaming等開源技術湧現,而商業化的流計算引擎如星環Slipstream的發展也如火如荼,相比開源的流引擎能夠提供更多的產品能力,包括數據不丟不重、安全、SQL引擎等能力;

此外,非結構化的處理技術隨著數據科學技術的發展而興起,非結構化文檔數據處理、圖分析技術也逐漸興起。

隨著企業的數據量越來越大,數據業務的多樣性和複雜性增加,在數據存儲、計算和數據業務打通方面的挑戰也越來越大。

關於何為大數據技術,大數據技術發展歷程,以上就為大家做了一個簡單的介紹了。大數據技術的發展,是隨著大數據的發展在不斷更新迭代的,作為技術開發者,保持學習,跟上最新技術趨勢,是基本的素養。

相關焦點

  • 何為大數據概念 大數據分析
    科學技術及網際網路的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
  • 大數據技術對企業發展的作用
    導讀 大數據技術誕生不長,目前還處於發展階段,但是大數據技術對於行業的衝擊還是比較大的,未來大數據營銷技術也將在企業運營中扮演非常重要的角色。
  • 大數據核心技術介紹:大數據處理技術
    大數據之所以能夠從概念走向落地,說到底還是因為大數據處理技術的成熟,面對海量的數據,在有限的硬體條件下,以低成本滿足大數據處理的各種實際需求。那麼具體處理大數據需要哪些技術,今天我們來簡單介紹一下大數據核心技術。
  • 大數據核心技術介紹:大數據處理技術
    大數據之所以能夠從概念走向落地,說到底還是因為大數據處理技術的成熟,面對海量的數據,在有限的硬體條件下,以低成本滿足大數據處理的各種實際需求。那麼具體處理大數據需要哪些技術,今天我們來簡單介紹一下大數據核心技術。大數據處理,其實最主要的支撐技術就是分布式和並行計算、大數據云以及大數據內存計算。
  • 無人機數據鏈發展歷程,抗幹擾技術所面臨的挑戰
    無人機數據鏈發展歷程,抗幹擾技術所面臨的挑戰 鄧佳佳 發表於 2018-04-03 14:27:36 引言 無人機數據鏈承擔著無人機指揮控制和信息傳輸的重要任務
  • 大數據關鍵技術淺談之大數據存儲及管理
    數據存儲作為大數據的核心環節之一,可以理解為方便對既定數據內容進行歸檔、整理和共享的過程。自磁碟系統問世以來,數據存儲已經走過了近百年的歷程。對於存儲,計算機就像我們的大腦一樣,兩者都可以擁有短期記憶和長期記憶,例如大腦是通過前額葉皮層來處理短期記憶,而計算機則利用RAM(隨機存取存儲器)來處理短期記憶。
  • 京東參加大數據技術大會 全面展示大數據
    京東受邀參加,多位技術專家就 大規模內存資料庫、實時數據平臺、大數據在廣告中的應用、京東大數據生態等話題進行了分享,全面展示大數據技術研究和應用成果,顯示出京東通過業務和技術 雙驅動的強勁競爭力。劉海鋒:大規模內存資料庫JIMDB在2015中國大數據技術大會首日全體會議中,京東雲平臺總架構師、系統技術部負責人劉海鋒帶來了名為《大規模內存資料庫JIMDB:從2014到 2016》的主題演講。他介紹了大規模的以內存為中心的新型資料庫——JIMDB,包括它過去兩年的發展歷程、技術脈絡以及是怎麼支撐起京東的電商業務。
  • 大數據時代之下,物聯網技術的應用與發展!
    網際網路技術已經深入到金融、醫療、物流、食品等多個領域,為社會生產生活提供了各種便捷的條件,大數據時代的到來,為網際網路技術的應用和發展帶來了極大的促進作用。  大數據作為數據處理技術的變化,打破了傳統工具難以對海量數據有效收集、整理的壁障,可以使得數據科學的利用,為決策提供有力的數據基礎。物聯網技術利用傳感技術、定位、射頻等方面的技術,實現物與物之間的交流,實現智能化的管理。大數據和物聯網的技術融合,可以創造物體無限互聯,網絡無限延伸的深層應用效果。
  • 從Hadoop到Spark,大數據技術發展概況
    大數據從概念走向落地,得益於大數據技術的成熟,尤其是以Hadoop為代表的第一代大數據系統框架,為大數據在企業當中的現實落地,提供了穩固的技術支持,而隨著大數據的發展,大數據技術也在更新迭代。今天我們來聊聊大數據技術從Hadoop到Spark的發展概況。
  • 騰訊披露大數據平臺技術演進歷程:14次升級 每日數據計算量超30萬億
    11月6日消息,在Techo開發者大會上,騰訊雲副總裁、騰訊數據平臺部總經理蔣傑正式對外披露騰訊大數據平臺10年技術演進歷程。據介紹,能支撐如此大規模數據的接入和運算,是騰訊在大數據技術領域超過10年的積累,其核心的大數據平臺已經完成了三次迭代。從以Hadoop為核心的離線計算時代到以Spark、Storm、Flink為核心的實時計算時代,再到如今的機器學習和深度學習時代,騰訊從無到有研發了分布式的機器學習引擎Angel,以及一站式AI開發平臺智能鈦TI,用來解決數據訓練和算法的問題。
  • 聚焦數據架構前沿技術,快手大數據平臺架構技術交流會成功舉辦
    從 hadoop 到 spark,再到 flink,從 kylin 到 druid,再到 clickhouse,從離線數倉到實時數倉架構,再到數據湖架構,近10多年中,大數據平臺架構經歷了快速演變。各大網際網路公司或藉助開源生態,或通過自研構建大數據架構系統,促進數據相關業務的價值挖掘與發展,為公司的戰略發展、產品改進、用戶增長帶來收益。
  • 聚焦數據架構前沿技術 快手大數據平臺架構技術交流會成功舉辦
    從hadoop到spark,再到flink,從kylin到druid,再到clickhouse,從離線數倉到實時數倉架構,再到數據湖架構,近10多年中,大數據平臺架構經歷了快速演變。各大網際網路公司或藉助開源生態,或通過自研構建大數據架構系統,促進數據相關業務的價值挖掘與發展,為公司的戰略發展、產品改進、用戶增長帶來收益。
  • 技術落地性成大數據競爭賽點,鯤鵬大數據解決方案憑何領先?
    最近,由中國大數據與智能計算產業聯盟主辦,以「新算力 新基建 新經濟」為主題的第二屆中國超級算力大會ChinaSC在北京召開,包括國內外院士、知名學者和產業大咖在內的600多人參加,探討了超級計算、新基建、雲計算、大數據、人工智慧、區塊鏈等前沿技術進展。
  • 大數據時代,大數據技術是否被神化?
    但是,不管其缺點如何,大數據仍在蓬勃發展,該技術由於其主要功能而在大多數客戶中廣受歡迎,以及它提供的後續工作範圍。本文將會分析大數據技術是否真的只是一項被誇大的技術。從幫助預測天氣狀況,幫助記錄確定飛機性能信息的數據,從Twitter,Facebook,Instagram和Google+收集社交媒體數據以用於各種應用程式,到預測選舉結果,健康相關問題和醫生表現,大數據分析已在眾多企業中為自己贏得一席之地。大數據通過存儲,處理和分析數據,還有助於重新開發銷售的產品/服務,並有助於在製造過程中進行有效的變更。大數據還可以通過許多其他有用的方式發揮重要作用。
  • 大數據時代,5G技術可以做什麼?
    截止到2020年,我們經歷了2G時代到5G時代的變遷,科技發展使人類文明得到了飛速提升,我們生活的方方面面都越來越便利,在享受科技帶來便捷的同時,你是否有想過在這個大數據時代,什麼是5G?5G技術又能夠用來做什麼呢?
  • 大數據技術學習
    最新大數據技術學習路線完整教程視頻教程下載。時下引領著技術變革的非「大數據」莫屬,本課程帶你從0基礎開始上手,讓你全面掌握Hadoop開發的核心技能:Linux、Hadoop、Zookeeper、Hive、Sqoop、Flume、Oozie、HBase、Kafka的搭建及框架的應用,了解最火爆最前沿的大數據技術發展趨勢,快速入門大數據!
  • BDTC 2017 中國大數據技術大會在京召開
    作為國內最具影響力、規模最大的大數據領域技術盛會,經過十年發展,中國大數據技術大會已經成為國內外中高級技術精英最期待的深度分享會,是極具行業實踐的專業大數據交流平臺。,超過 120 位的國內外技術專家在現場為千名以上的大數據行業精英、技術專家及意見領袖帶來 100 多場技術演講。
  • 大數據技術在航空保障領域中的應用與發展
    為應對龐雜數據的挑戰,以及繼續謀求信息優勢,迎接「大數據」時代的來臨,美國防部率先採取措施開展大量研究,積極推動大數據技術在航空保障領域中的應用與發展大數據技術在軍事領域的應用。早在2012 年,美國政府就將大數據研究與發展作為發展戰略重點之一,當年投入兩億美元推動軍事大數據科技創新與應用系統的開發,意圖以先進信息技術為基礎爭奪世界信息霸權,擴大與其它國家的信息化差距,這意味著大數據技術在世界經濟、政治和軍事等領域的應用全面展開。
  • 大數據關鍵技術淺談之大數據採集
    在前幾篇文章中,企通查為大家介紹了大數據處理的基本流程。從大數據的一系列處理過程中(抽取、集成、分析、解釋),我們可以發現這一整套流程中涵蓋了數據存儲、處理、應用等多方面的技術。 大數據價值的完美體現需要多種技術的協同。
  • 大數據時代大數據技術的應用和面臨的挑戰
    分析工具難以處理的海量的、多樣性的數據集合,難以分析出此類數據集合的深度價值,隨著網際網路技術的不斷發展成熟,雲計算應用的逐漸產生,從而使得大數據的獲取、存儲、處理都成為了可能。大數據技術基於網際網路信息技術,可以利用計算機工具對海量的數據集合進行搜索、提取和共享,企業合理利用大數據,可以幫助提升企業的發展規模和發展質量,機關部門利用大數據可以提升決策時候的準確性,更好的對民眾進行服務。