大數據技術,發展趨勢如何?

2021-02-13 順水映紅

大數據的技術是數據管理技術的一種,數據管理系統有著悠久的發展歷史,它是所有計算機應用的基礎。談到數據管理的軟體,必須關注數據管理軟體所依賴的硬體環境和它來解決的應用場景,我們可以通過圖1來認識數據管理軟體的位置。首先它是一種軟體,處於底層硬體和上層應用之間,本質上是利用計算機硬體的存儲和計算能力,對數據進行存儲、管理、加工等操作,最終為了支持上層各類應用。

數據管理技術到現在至少有50年的發展歷史,大概經歷了幾個發展階段,見圖2。第一個階段是關係型數據模型的提出,為關係資料庫發展奠定了理論基礎;第二個階段是Oracle和DB2等商業關係型資料庫的興起和發展壯大,開始了商業資料庫產品在各行各業的應用,資料庫也正式成為了繼伺服器、作業系統之外的第三個必須品;第三階段由於業務場景的需要,資料庫被分為面向業務的事務資料庫和面向分析統計的分析資料庫,兩者之間的架構和建模方式也發生了變化,這是資料庫技術的第一次分離;第四個階段是資料庫技術的分布式浪潮,最早是從數據分析端產生的,單機無法應對海量數據分析的需求,分布式水平擴展的需求提上日程,Hadoop、Spark和各類NoSQL都是為了應對這一需求而誕生,而分布式的技術也在2010年左右擴展到了事務資料庫領域,主要為了應對越來越多的網際網路業務。

數據管理系統處於硬體和應用之間的位置決定了它自身的技術演進主要依賴於底層硬體的發展和上層應用端的需求變化。在硬體端,從上世紀70年代開始,通用伺服器的晶片、內存的發展就遵循摩爾定律,單機的性能越來越強,推動著資料庫的處理能力不斷增強,利用內存能力也是一大趨勢。而進入2000年,晶片處理能力的增長趕不上業務和數據的增長,單機系統的瓶頸顯露,導致數據管理系統向分布式架構轉型。在應用端,業務的網際網路化、在線化使得業務流量和訪問頻率呈指數級的增長,單機集中式架構處理遇到瓶頸,而移動網際網路下動輒上千萬的級的用戶量,提出了海量數據分析的挑戰,分布式架構正是為應對這些挑戰而生。

大數據的應用和技術起源於網際網路,首先是網站和網頁的爆發式增長,搜尋引擎公司最早感受到了海量數據帶來的技術上的挑戰,隨後興起的社交網絡、視頻網站、移動網際網路的浪潮加劇了這一挑戰。網際網路企業發現新數據的增長量、多樣性和對處理時效的要求是傳統資料庫、商業智能縱向擴展架構無法應對的。

在此背景下,谷歌公司率先於2004年提出一套分布式數據處理的技術體系,即分布式文件系統谷歌文件系統(Google file system,GFS)、分布式計算系統MapReduce和分布式資料庫BigTable,以較低成本很好地解決了大數據面臨的困境,奠定了大數據技術的基礎。受谷歌公司論文啟發,Apache Hadoop實現了自己的分布式文件系統HDFS、分布式計算系統MapReduce和分布式資料庫HBase,並將其進行開源,這是大數據技術開源生態體系的起點。

2008年左右,雅虎最早在實際環境中搭建了大規模的Hadoop集群,這是Hadoop在網際網路公司使用最早的案例,後來Hadoop生態的技術就滲透到了網際網路、電信、金融乃至更多的行業。2009年UCBerkley大學的AMPLab研發出了Spark,經過5年的發展,正式替換了Hadoop生態中MapReduce的地位,成為了新一代計算引擎,而2013年純計算的Flink誕生,對Spark發出了挑戰。2014年之後大數據技術生態的發展進入了平穩期。

經過10年左右的發展,大數據技術形成了以開源為主導、多種技術和架構並存的特點。從數據在信息系統中的生命周期看,大數據技術生態主要有5個發展方向,包括數據採集與傳輸、數據存儲、資源調度、計算處理、查詢與分析。在數據採集與傳輸領域漸漸形成了Sqoop、Flume、Kafka等一系列開源技術,兼顧離線和實時數據的採集和傳輸。在存儲層,HDFS已經成為了大數據磁碟存儲的事實標準,針對關係型以外的數據模型,開源社區形成了K-V(key-value)、列式、文檔、圖4類NoSQL資料庫體系,HBase、Cassandra、MongoDB、Neo4j、Redis等資料庫百花齊放。資源調度方面,Yarn獨領風騷,Mesos有一定發展籤裡。計算處理引擎方面慢慢覆蓋了離線批量計算、實時計算、流計算等場景,誕生了MapReduce、Spark、Flink、Storm等計算框架。在數據查詢和分析領域形成了豐富的SQL on Hadoop的解決方案,Hive、HAWQ、Impala、Presto、Drill等技術與傳統的大規模並行處理(massively parallel processor,MPP)資料庫競爭激烈。

2014年以後,整體大數據的技術棧已經趨於穩定,由於雲計算、人工智慧等技術發展,還有晶片、內存端的變化,大數據技術也在發生相應的變化。總結來看主要有幾點發展趨勢:

一是流式架構的更替,最早大數據生態沒有辦法統一批處理和流計算,只能採用Lambda架構,批的任務用批計算引擎,流式任務採用流計算引擎,比如批處理採用MapReduce,流計算採用Storm。後來Spark試圖從批的角度統一流處理和批處理,Spark Streaming採用了micro-bach的思路來處理流數據。近年來純流架構的Flink異軍突起,由於其架構設計合理,生態健康,近年來發展特別快。而Spark近期也拋棄了自身微批處理的架構,轉向了純流架構Structure Streaming,流計算的未來霸主還未見分曉。

二是大數據技術的雲化,一方面是公有雲業務的成熟,眾多大數據技術都被搬到了雲上,其運維方式和運行環境都發生了較大變化,帶來計算和存儲資源更加的彈性變化,另一方面,私有部署的大數據技術也逐漸採用容器、虛擬化等技術,期望更加精細化地利用計算資源。

三是異構計算的需求,近年來在通用CPU之外,GPU、FPGA、ASIC等晶片發展迅猛,不同晶片擅長不同的計算任務,例如GPU擅長圖像數據的處理,大數據技術開始嘗試根據不同任務來調用不同的晶片,提升數據處理的效率。

四是兼容智能類的應用,隨著深度學習的崛起,AI類的應用越來越廣泛,大數據的技術棧在努力兼容AI的能力,通過一站式的能力來做數據分析和AI應用,這樣開發者就能在一個工具站中編寫SQL任務,調用機器學習和深度學習的算法來訓練模型,完成各類數據分析的任務。

數據管理技術已經發展了50多年了,大數據技術是在數據管理技術的基礎上,面向大規模數據分析的技術棧,它主要是分布式架構的設計思路,通過並行計算的方式來提升處理效率,同時具備了高擴展能力,根據業務需求隨時擴展。經過15年左右的發展,大數據的技術棧逐漸成熟,然而近年來雲計算、人工智慧等技術的發展,還有底層晶片和內存端的變化,以及視頻等應用的普及,都給大數據技術帶來新的要求。未來大數據技術會沿著異構計算,批流融合,雲化,兼容AI,內存計算等方向持續更迭,5G和物聯網應用的成熟,又將帶來海量視頻和物聯網數據,支持這些數據的處理也會是大數據技術未來發展的方向。

姜春宇:中國信息通信研究院雲計算與大數據研究所大數據與區塊鏈部副主任,大數據技術標準推進委員會辦公室主任。研究方向為大數據技術應用、資料庫技術、數據資產管理、數據流通。建立了國內首個大數據產品能力評測體系,制定了Hadoop平臺、MPP資料庫、數據集成工具、數據管理平臺、分布式資料庫等多項大數據技術標準規範。參與起草《促進國家大數據發展行動綱要》,參與編寫工信部《大數據產業十三五規劃》,參與起草國內第一個數據交易規則,參與編寫《數據資產管理實踐白皮書》、《金融分布式事務資料庫白皮書》。

來源:中國信通院CAICT

如果您對我們的方案有疑問或需求,歡迎諮詢

聯繫電話:肖鵬:18911585188 / 010-60498815

相關焦點

  • 大數據未來五年發展趨勢統計分析
    大數據未來五年發展趨勢統計分析 大數據未來五年發展趨勢統計分析 2018-08-16 09:27:23  來源:大數據D1net搶沙發 2018-08-16 09:27:23  來源:大數據D1net 摘要:隨著大數據技術的飛速發展,大數據已經融入到各行各業。
  • 2021年大數據技術的五個發展趨勢!
    有數據表明,在2021年,平均每個人會產生1.7兆億字節數據。我們來看一下,大數據如何日以繼日的影響組織和機構,以及它給這個世界帶來的影響。有以下5個關鍵趨勢將在2021年顯現:一、增強數據分析已經成為主流如果你留意過大數據相關領域,相信已經知道數位化與增強數據分析的趨勢。
  • 大數據未來七大發展趨勢怎樣
    大數據不僅意味著海量、多樣、迅捷的數據處理,更是一種顛覆的思維方式、一項智能的基礎設施、一場創新的技術變革。物聯網、智慧城市、增強現實(AR)與虛擬實境(VR)、區塊鏈技術、語音識別、人工智慧、數字彙流是大數據未來應用的七大發展方向。
  • 大數據未來七大發展趨勢
    其實質是利用先進的信息技術,實現城市智慧式管理和運行,進而為城市中的人創造更美好的生活,促進城市的和諧、可持續成長。這項趨勢的成敗取決於數據量跟數據是否足夠,這有賴於政府部門與民營企業的合作;此外,發展中的5G網絡是全世界通用的規格,如果產品被一個智慧城市採用,將可以應用在全世界的智慧城市。
  • 梅宏:大數據發展現狀與未來趨勢
    今天,我擬回顧大數據的發端、發展和現狀,研判大數據的未來趨勢,簡述我國大數據發展的態勢,並匯報我對信息化新階段和數字經濟的認識,以及對我國發展大數據的若干思考和建議。從文明之初的「結繩記事」,到文字發明後的「文以載道」,再到近現代科學的「數據建模」,數據一直伴隨著人類社會的發展變遷,承載了人類基於數據和信息認識世界的努力和取得的巨大進步。
  • 解鎖我國大數據行業發展現狀及趨勢
    近年來,隨著泛網際網路的發展,各行業的數據量激增,金融科技、徵信、工業、醫療等更多領域開始關注並利用大數據技術挖掘數據價值,並逐步成為大數據行業的主流下遊應用領域。4、在徵信領域應用隨著我國社會信用體系建設的步伐不斷加快以及計算機和網絡技術的不斷提高,徵信業的發展也需要適應大數據時代發展所帶來的技術變革。
  • 大數據時代可視化新聞的特點及發展趨勢
    從最初英美主流媒體率先實踐,到如今全球各國媒體重視發展讓其擁有廣闊應用前景,本文總結歸納了可視化新聞一路走來的發展特點和發展趨勢。這將有利於探索大數據時代對新聞報導的影響,以及未來新聞生產方式變革的合適途徑。
  • 2019年人工智慧發展趨勢!大數據分析走一波
    網際網路社會各大中小企業從自身的硬體、技術和解決方案等不同角度進行布局,來尋求更廣闊的發展空間,其中包括許多創業型企業以及傳統行業的公司都把涉足人工智慧列為重點發展對象。近年來,在醫療、金融、汽車、教育等業務上都開始應用人工智慧技術,這是社會發展最大的趨勢之一,誰能更好的掌握人工智慧,誰就能在技術領先方面獲得支持。
  • 解讀2020數據分析技術十大趨勢,看DataFocus如何持續創新!
    解讀Gartner 2020數據和分析技術十大趨勢,看DataFocus如何持續創新! 新冠疫情對數據分析領域有什麼影響?新的技術又將帶來哪些機會?每個數據分析領域的創新者和從業者都在關注著這些問題。
  • 大數據分析應用常見的困難及發展趨勢分析
    大數據分析應用常見的困難及發展趨勢分析 工程師郭婷 發表於 2018-07-24 14:31:00 一、政府大數據應用效益難題 1.
  • 賽迪專家吳志剛:數位技術的發展趨勢
    剛才阿里研究院高紅冰院長從產業視角闡述了如何看待數據要素、數據生產力以及解碼數據價值等問題。我認為,要真正釋放數據要素的價值,關鍵在於創造性運用數位技術,構建新型生產關係,探索新的商業模式,開創適應時代要求的新發展格局。下面,我從新要素、新業態和新作為三個角度來分析數位技術的發展趨勢。
  • 學而思網校技術團隊負責人李晨煜:談疫後大數據行業發展風險與機遇...
    6.行業中比較大的幾家公司目前都在做什麼,效果如何?7.行業未來3-5年的發展趨勢怎樣?而隨著大數據在營銷、金融、醫療、工業、公共安全治理等領域不斷深入發展,也表現出一些新的趨勢,如:數據安全與隱私保護需求日漸高漲;企業逐步推進數位化轉型和人工智慧應用,發揮數據價值;單一大數據平臺向大數據、人工智慧、雲計算融合的一體化平臺發展;中小型大數據企業往細分市場聚焦等趨勢。
  • 2020-2026年中國工業大數據行業現狀分析與發展趨勢研究報告
    《2020-2026年中國工業大數據行業現狀分析與發展趨勢研究報告》主要研究分析了工業大數據行業市場運行態勢並對工業大數據行業發展趨勢作出預測。)智能化技術      (3)網際網路技術      (4)大數據技術  1.3 中國工業大數據產業政策環境分析    1.3.1 相關發展規劃政策    1.3.2 資金扶持政策分析    1.3.3 政策發展趨勢預測第二章 全球工業大數據產業發展狀況分析  2.1 全球工業大數據產業發展現狀及趨勢預測分析
  • 大數據的發展體現在哪些方面
    導讀 未來大數據的發展前景非常廣闊,大數據將創造出一個全新的價值領域,而且成長空間和市場規模都比較龐大。
  • Gartner:2019年十大「數據和分析技術」趨勢
    「數據和分析技術趨勢」。   知名調研機構 Gartner 稱,增強型數據分析、持續型智能和可解釋的人工智慧(AI)是數據和分析技術的主要趨勢之一,並在未來三到五年內具有顯著的顛覆性潛力。
  • 如何正確看待大數據與雲計算技術(區別及聯繫、發展前景)
    隨著計算機技術的發展,數據量日益增長,現有技術也很難滿足業務的發展需求,在代碼的層層迭代和優化之後,還是很難滿足數據的增長需求,迫切需要一項新的技術來從事數據計算,因此就產生了雲計算和大數據這些技術。跟隨小編來詳細的了解一下什麼是大數據與雲計算技術,他們之間有什麼區別及聯繫,如何正確的看待他們。
  • 結合當前的行業發展趨勢和社會發展趨勢,計算機專業的前景如何
    首先,從當前的行業發展趨勢、技術發展趨勢和社會發展趨勢等多個方面來看,計算機專業的前景都是非常廣闊的,而且隨著網際網路整合資源的能力越來越強,未來大量的創新都離不開計算機專業人才,從這個角度來看,當前選擇計算機專業是不錯的選擇。
  • 人工智慧技術的未來發展趨勢
    我們已經了解了Facebook如何使用AI來改善其廣告活動,以及如何有效使用基於AI的聊天機器人。下一個是什麼?在新的一年裡,我們對人工智慧有什麼期望,以促進業務成功?通過利用AI,區塊鏈和機器人等新興技術,供應鏈有更好的機會來改善並取得成功。將機器人引入供應鏈的公司之一是亞馬遜。它於2012年收購了Kiva Systems,以改變其供應鏈的發展方向。多年來,在25個配送中心中,引入了80,000個機器人。人工智慧驅動的機器人在很大程度上幫助他們提高了效率並節省了成本。
  • 被譽為未來企業發展趨勢的技術營銷,國內該如何落地
    被譽為未來企業發展趨勢的技術營銷,國內該如何落地   對於國內企業來說,營銷技術可以加速數據資源的整合,輔助營銷決策。而國內的企業進一步成長,也勢必要挖掘數據的深層價值,接觸目標消費群體,以技術解決企業銷售、品牌或與消費者之間的溝通等多重場景問題。這些企業實際存在的訴求都是國內營銷技術發展的前提條件
  • 大數據專業的就業空間是否比較大,以及大數據的發展前景如何
    首先,當前有很多大學都陸續開設了大數據專業,所以選擇大數據專業也有很多高校可以選擇,雖然大數據專業的開設時間比較短,但是由於大數據技術體系已經趨於成熟,而且在研究生階段已經積累了大量的培養經驗,所以當前選擇大數據專業也會有一個比較好的學習體驗。