DTCC 2020|阿里雲葉正盛:資料庫2025

2021-01-08 阿里云云棲號

摘要:資料庫從上世紀五十年代發展至今,隨著基礎設施的改變,其技術也在不斷演進。資料庫市場也從原本商業化巨頭形成的壟斷地位逐漸變為雲廠商處於領導地位,而未來在雲上,資料庫將會是兵家必爭之地。與此同時,雲原生技術、資料庫自動駕駛技術以及資料庫和大數據技術的融合使得資料庫的未來更加充滿生機。在DTCC 2020大會上,阿里雲資料庫產品管理與運營部總經理葉正盛為大家分享他對於「資料庫2025」的展望。

本文內容根據演講錄音以及PPT整理而成。

演講嘉賓介紹:

葉正盛(花名:鬥佛),阿里雲資料庫產品管理與運營部總經理,目前擔任阿里雲資料庫產品總規劃師,主要負責阿里雲資料庫的產品規劃和產品運營相關的工作。之前從事軟體研發工作十餘年,2010年開始加入阿里做「去IOE」、異地多活和雲計算方面的工作,2020年帶領團隊衝進了Gartner全球資料庫領導者象限。

資料庫發展歷程

在介紹資料庫2025的規劃之前,首先回顧一下資料庫的發展歷程。資料庫的發展離不開計算機基礎設施的發展,因此可以將資料庫的發展分為五個階段。

第一階段:上世紀五十年代的大型機時代。在這個時代,大型機可能不到100臺,基本上用在科學研究和國防等領域,當時主要是層次和網狀資料庫,比較典型的產品是IBM的IMS,IMS已經很少能夠見到,在一些金融領域還有應用。第二階段:上世紀七八十年代,此時小型機已經開始普及。不僅是在國防和科學研究,更多的是在商業領域,包括銀行這樣的系統開始應用小型機。與此同時,關係型資料庫開始誕生,出現了包括DB2、Oracle以及Ingres等知名關係型資料庫。第三階段:上世紀九十年代,此時PC機、X86以及區域網等基礎設施已經非常健全,IT應用範圍已經擴展到企業全面的信息化,關係型資料庫開始蓬勃發展,出現了數據倉庫以及單機資料庫,比如SQL Server、dBase等資料庫。第四階段:到了2000年,開始進入網際網路時代。大家也都有非常深刻的體會,無論是搜索、社交還是電商等都有非常廣泛的應用,此時像MySQL、PG、Redis、MongoDB等開源資料庫也得到了非常廣泛的應用。第五階段:今天是資料庫的「雲+端」時代。無論是新媒體、移動應用、雲計算以及物聯網等,包括今年新冠疫情導致在線教育、在線辦公都飛速發展,其實都代表著一個新的時代的開始。在這個階段,雲資料庫起到了非常大的作用。比較典型的雲資料庫產品就是AWS的RDS和Redshift以及阿里雲的PolarDB和ADB等。DB-Engines數據統計

截止到2020年12月,在DB-Engines上目前一共有363種資料庫。按照資料庫模型來看,傳統的關係型資料庫和非關係型資料庫佔比為3:1,可以看出,關係型資料庫依舊是主流。而按照商業和開源資料庫的角度來看,兩者依舊是平分天下。在商業資料庫領域,具有代表性的資料庫有Oracle、SQL Server等;而在開源資料庫領域,具有代表性的數據由MySQL和PG等。

資料庫-兵家必爭之地

為什麼大家都來做資料庫呢?AWS認為資料庫是未來的兵家必爭之地,因此一直以來對於資料庫非常重視,每年的AWS re: Invent 上都有很多關於資料庫的重磅專題發布。一般而言,在IaaS層,也就是對於伺服器、網絡和存儲這一層面,大家都有比較統一的認識,今天很多企業其實已經建設的差不多了。而更上層的就是智能化應用,大家也正在逐漸形成統一的認識,那就是未來的應用一定是向著智能化發展。從IaaS到智能化應用需要經歷一定的環節,而在這個環節中,資料庫將會起到非常關鍵的作用,包括數據的產生、存儲、消費和分析,這些都是資料庫要去解決的問題。因此,我們可以看到無論是國際巨頭還是國內廠商都在資料庫裡面投入了大量的資源。

迎接新數據時代

前面的部分主要是進行回顧,接下來對資料庫的未來進行暢想。如今我們正在迎接新的數據時代,上圖中展示的數據來自IDC的報告,IDC統計預測,去年全球有45ZB數據,而到了2025年數據量將會達到175ZB。而作為新數據代表的物聯網,去年大約具有4.4ZB數據,而在2025年將會達到90ZB,也就是說僅物聯網將會佔據未來一半的數據量。此外,數據將會存儲在什麼地方呢?根據IDC的報告,去年全球大約有20%的數據存儲在公共雲上,而到2025年大約會有46%的數據存儲在公共雲,與此同時,還會有大量數據存儲在私有雲上。基本上就是說到2025年,大約80%至90%的數據將會存儲在雲上。

另一個方面,新數據會從哪些地方產生呢?以前數據基本上都是由PC、手機、平板電腦產生的,而在未來,汽車、視頻、智能設備以及工業網際網路都是新數據產生的典型場景,而且這些場景下數據產生的速度將會迅速提升。產生的數據大致分為兩類:一類就是結構化的數據,這裡的結構化數據不僅包括了關係型資料庫中存儲的關係數據,也包括了JSON、XML等之前大家稱為半結構化的數據,這樣的劃分是因為這些數據在今天使用資料庫的多模能力進行處理已經非常簡單了,不像十年前那麼複雜,因此這類的數據統稱為結構化數據。另一類是非結構化的數據,包括了如今無處不在的產生日誌、文本、圖片、語音、視頻和文件等,這些都是非結構化數據的代表。圖片怎麼結構化計算,視頻、語音等如何轉化為向量的多維數據來幫助分析或機器學習,都需要進行結構化的數據處理。今天的數據中臺所考慮的就是如何將數據的價值最大化,同時會結合AI相關的技術來做智能計算,這正是新數據時代的樣子。面對越來越多的數據量,如何處理結構化和非結構化的數據,存在非常多的技術挑戰和商業挑戰。

雲是資料庫最重要的發展方向

雲是資料庫最重要的發展方向,這也是Gartner的分析師給出的一個結論。其實Gartner分析師看得非常遠,早在2018年就預測2022年全球75%的數據都會存在雲上。從上圖中也可以看出,使用雲資料庫的體量其實在逐年增長,2018年是22.75%,2019年是34.68%,2022年預測是75%。

Gartner基本上每年都會發布魔力象限,所有的資料庫廠商都會非常關注魔力象限。可以看到,2013年資料庫魔力象限的領導者象限中主要包括Oracle、微軟、IBM和SAP,這幾個巨頭幾乎處於無敵的位置,所有的NoSQL廠商以及大數據廠商都在普通玩家的象限。而到2020年,領導者象限發生了很大的變化,最強的領導者已經變為了AWS,其次是微軟、谷歌、阿里雲,這四家都是雲計算廠商,這也印證了Gartner所認為的雲才是未來。無論是從市場份額,還是技術引領方面以及營銷方面,這些雲廠商所提供的資料庫都具有優秀的表現,所以才歸入領導者象限內。而其他小廠商如果不和雲結合,便很難在魔力象限中獲得一席之地。能夠進入魔力象限就已經是非常不錯的廠商了,如果能夠進入領導者象限,那就代表了Gartner認為這些廠商正在引領未來。

雲原生資料庫快速崛起

上圖的統計數據來自於DB-Engines,可以看到無論是Oracle還是DB2,他們的曲線相對而言比較平滑,其增長是非常緩慢的,而與之形成鮮明對比的是:雲原生資料庫領域發展得非常快。右圖是亞馬遜AWS、微軟Azure、谷歌雲以及阿里雲的自研雲原生資料庫全部統計數據,可以發現雲原生數據發展非常快。無論是從技術上還是生產上,雲原生資料庫代表著一種新的生產力。

資料庫支持多雲部署是最重要的戰略方向

資料庫支持多雲部署是最重要的戰略方向。無論是誰來做資料庫,如果不和雲結合,市場拓展會非常難。資料庫廠商有了很多的積累,如何打開未來資料庫的市場,讓自己的產品服務到更多的用戶,充分利用好云為我們提供的基礎設施是最重要的。現在全球的幾個比較著名的新興資料庫廠商,比如Atlas(MongoDB)、SkySQL(MariaDB)、Redis企業雲等都提供了多雲部署架構,而今年比較火的Snowflake提供了完全的雲原生部署,其不像是MySQL那樣可以下載,而只能運行在雲上面,這是因為Snowflake認為雲原生就是未來的發展方向,所以沒有必要再走其它的彎路。總體結論就是資料庫是支持多雲部署最重要的戰略方向,無論是初創產品還是開源的成熟生態,雲一定是資料庫的未來。

資料庫大數據技術一體化

資料庫、數據倉庫和大數據這幾個概念往往交織在一起,如今的一個觀點是資料庫和大數據技術朝著一體化發展。Gartner在報告中已經將OLAP和OLTP以及大數據合併在一起了,這是因為他們在之前評估OLAP和OLTP以及大數據的魔力象限時會發現各個廠商都在拿同樣的產品出來,因此可以看出各個廠商的產品都在向融合化的方向發展。而對於用戶而言,也不想要了解清楚各個技術概念,其所關心的是業務價值。總而言之,資料庫和大數據技術正在朝著一體化的方向發展。

進一步來分析為什麼會這樣呢?2003年到2006年可以認為是大數據的誕生期,谷歌的三大論文發表對於業界產生了巨大的影響力,但是值得注意的一點是谷歌所提出的技術重點是解決分布式擴展問題,不一定應用在資料庫上面。2006年到2014年是大數據的探索期,一些NoSQL資料庫比如HBase、Cassandra的早期版本在這個時期出現。此外,SQL的接口模型也逐漸成熟,之前大家認為MapReduce比較通用,但是經過實戰之後發現SQL的接口更加友好。與此同時,也開始出現了一些開源的分布式文件系統,如HDFS和Ceph等。2014年之後,技術發展趨勢變得有意思了,資料庫和大數據的技術開始融合,出現了像NewSQL這樣的分布式資料庫,比如Spanner、TiDB以及Cassandra後續版本等已經將分布式的BigTable理念與資料庫的理念結合在一起了,這是在BigTable路線上的變化。在編程模型部分,以前部分產品將SQL當做外置的接口增強,而如今的很多產品將SQL當做自身原生的能力,就像是資料庫一樣,將SQL當做自己的內核,還有部分產品將存儲過程當做自己的內核。而對於分布式文件系統部分,可以發現,雲廠商在這部分做的非常好,無論是AWS的S3還是阿里雲的OSS與雲盤,他們天然就是分布式存儲。雖然分布式存儲的技術挑戰非常大,但是雲廠商把這些問題基本上解決了,所以很多企業開始基於雲廠商基礎設施的能力構建分布式的數據計算能力,這也導致了大數據技術、數據倉庫以及資料庫逐漸走向融合。以前大家認為數據倉庫擴展性不好,所以出現了大數據技術,但是今天分布式基礎設施的能力已經變得非常強了,所以無論是資料庫還是數據倉庫,其擴展性都變得越來越好,足以處理PB級別的數據。另外一面,大數據產品開始將SQL能力全部融合進來,甚至將事務ACID等特性集成進去,這使得大數據技術和資料庫技術兩個領域快速融合,因此未來所需要考慮的事情是如何朝著這個趨勢演進,提供更多更優秀的產品。

資料庫自動駕駛能力持續增強

我在最開始的時候對於自動駕駛也持懷疑態度,但是隨著這項技術越來越成熟並且逐漸被大家開始廣泛使用,對於自動駕駛的認識也有所改變。資料庫的自動駕駛和汽車的自動駕駛還是不太一樣的,資料庫做自動駕駛更容易一些。2016年時,阿里巴巴資料庫的自動駕駛平臺叫做CloudDBA,這個產品所需要解決的核心問題就是整個阿里巴巴集團的資料庫自動化運維的問題。當時阿里巴巴集團的資料庫實例非常多,大約有幾十萬個,面對如此之多的資料庫實例,僅依靠DBA人工運維很難保障。

因此當時阿里巴巴做了CloudDBA產品,其集成了很多自動駕駛的概念,最終希望能夠讓資料庫不需要通過人工幹預,就能夠對於出現的問題進行自動優化、修復,甚至在容量不足的時候進行自動擴容,在雙11的時候能夠實現智能壓測,而且面對黑客攻擊或者大促意外產生的SQL高峰也能夠實現自動限流。到2018年的時候,這套產品就開始在阿里雲上進行輸出,叫做資料庫自治服務DAS。在今年的時候,資料庫自治服務DAS開始商業化,雖然一開始對於商業化並沒有特別大的期待,但是不到一年的時間,阿里雲上就已經有2000多家企業開啟了資料庫自治服務。這也反映出了客戶的一種訴求,那就是希望資料庫能夠實現自動駕駛。雖然很多用戶並不清楚資料庫自治服務背後的原理,但是卻開啟了這項服務,這是因為很多中小企業自身並沒有DBA,自己也不想去做SQL優化,當看到資料庫自治服務的產品介紹,比如SQL峰值自動限流、CPU自動擴容等特性,發現這些就是客戶自身所需要的。因此,從市場需求來看,資料庫自動駕駛這樣服務是需要的。從技術角度來看,其實也不是非常困難,DBA專家經驗加上機器學習技術就可以實現這件事情。目前,阿里巴巴的資料庫自治服務已經實現了「半自動」,雖然還沒有能夠達到理想情況下的客戶無需任何管理的情況,但是這個方向會持續增強,最終實現資料庫全自動駕駛。

總結

最後總結一下,如今我們正在迎接新的數據時代,因此需要做好準備。雖然今天我們的系統更多的跑在關係型資料庫和數據倉庫等,但是隨著物聯網、工業網際網路這些領域的爆發,如何去迎接新的數據時代是一個非常有意思的話題。其次,在新的數據時代,雲原生資料庫和數據倉庫將會全面普及。雲原生概念在2020年已經非常流行了,而且雲計算作為基礎設施已經得到了一致的認可,而雲原生代表著雲計算裡面最為核心的技術。再次,資料庫將默認開啟自動駕駛,這一點在技術上而言已經不再有瓶頸存在,未來將會在各個領域進行突破。最後,各種國產資料庫百花齊放,並且應用到各行各業,很多核心系統都開始切換到國產資料庫,如PolarDB、TiDB、達夢等等,國產資料庫必將全面崛起。

本文為阿里雲原創內容,未經允許不得轉載。

相關焦點

  • DTCC2020|阿里雲朱潔:NoSQL最新技術發展趨勢
    摘要:隨著工業網際網路時代的到來,資料庫這門已經具有接近五十年歷史的學科又綻放出新的生命活力,其中扮演著重要角色的NoSQL資料庫也出現了更多的發展趨勢。在第十一屆中國資料庫技術大會(DTCC2020)上,阿里雲資深產品專家朱潔為大家介紹了NoSQL資料庫業界最新趨勢以及阿里雲NoSQL技術的創新實踐和阿里雲NoSQL生態開放實踐。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    簡介: 資料庫將面臨怎樣的變革?雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 劍指雲內存資料庫,阿里雲在下一盤大棋
    在 2019 數據技術嘉年華大會上,阿里雲資料庫產品事業部總經理、李飛飛曾引用 AWS 創始人 Jeff Bezos 的話:資料庫是企業雲上的終極之戰。在這終極之戰中,阿里雲無疑是國內資料庫引領者:據 Gartner 最新發布的 2020 年度全球資料庫魔力象限報告,阿里雲首次進入全球資料庫領導者象限,這是中國資料庫 40 年來首次進入全球頂級資料庫隊伍。
  • 阿里雲資料庫代金券之阿里雲資料庫RDS購買使用需要注意什麼?
    首頁 > 傳媒 > 關鍵詞 > 阿里雲最新資訊 > 正文 阿里雲資料庫代金券之阿里雲資料庫RDS購買使用需要注意什麼?
  • Gartner最新報告:阿里雲進入全球資料庫領導者象限
    11月24日,國際知名行業研究機構 Gartner 公布 2020 年度全球資料庫魔力象限評估結果,阿里雲首次挺進全球資料庫第一陣營——領導者(LEADERS)象限。資料庫與晶片、作業系統並列為全球技術三大件,也是企業IT系統必不可少的核心技術,銀行、電信、製造、網際網路等主要行業都依賴於資料庫技術。「阿里雲擁有豐富的資料庫種類覆蓋度和完善的產品布局,為用戶提供了多種關係型和非關係型資料庫產品,還提供了混合雲環境部署,同時集成了備份、數據遷移與同步等能力。」Gartner分析師在報告中指出。
  • 阿里雲資料庫開始兼容Oracle 為企業節省大量成本
    7月22日,首屆阿里雲分享日在京召開,會上阿里雲正式宣布推出RDS for PPAS,該產品在支持先進的PostgreSQL資料庫基礎上,也兼容了Oracle,方便用戶平滑過渡上雲,可為企業節省大量成本,創造更多價值。
  • 甲骨文大裁員:阿里雲奉上一鍵資料庫遷移
    此舉隨即引發行業震動,但很少有人注意到,資料庫是甲骨文主營業務之一,不少使用甲骨文資料庫的中國企業正在擔憂是否會受到影響。5月10日,阿里雲資料庫產品總監曹偉發了一條很有意思的朋友圈,表示阿里雲POLARDB提供一鍵資料庫遷移服務,如果其他用戶現在需要遷移過來,尤其是甲骨文的用戶,阿里雲團隊隨時待命,並即可提供24小時不停機服務。而在這條朋友圈下,可以看到有人已經迅速提出了「想遷,私聊」。
  • 阿里雲李飛飛:資料庫發展的幾個重要趨勢
    圖片來源@視覺中國文 | 阿里雲,分享 | 李飛飛(阿里巴巴集團副總裁)上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央,2000年開始大數據技術興起,再到2010年後雲計算熱度持續升溫。技術的進程走到了今天這個奇妙的節點,看向未來,有幾個趨勢可能會發生。 僅以此文,分享一些淺見和實踐。
  • 阿里雲PolarDB發布更新,支持Oracle等資料庫一鍵遷移上雲
    5月21日,阿里雲PolarDB發布更新,提供傳統資料庫一鍵遷移上雲能力,可以幫助企業將線下的MySQL、PostgreSQL和Oracle等資料庫上雲,最快數小時內遷移完成。據估算,雲上成本不到傳統資料庫的1/6。目前,已有約40萬個資料庫遷移到阿里雲上。
  • 阿里雲李飛飛:傳統資料庫步履蹣跚,未來的機會在哪裡?
    在採訪中李飛飛表示,隨著計算和數據上雲的趨勢快速發展,傳統資料庫步履蹣跚,雲原生資料庫和數據倉庫利用雲原生技術最大化的發揮池化的計算和存儲資源彈性將是未來。同時隨著AI技術的不斷深入使用,資料庫也將會越來越智能化,阿里雲的目標是實現資料庫的完全自動化和智能化。
  • 阿里雲資料庫首推數據壓縮功能 5倍壓縮成本降80%
    7月17日,阿里雲資料庫RDS產品正式發布數據壓縮功能,該功能可將用戶數據進行壓縮,壓縮後有效降低用戶的數據存儲成本和運維難度。目前這是國內雲計算行業中唯一提供此類功能的服務商。
  • 阿里雲技術再突破 自研資料庫AnalyticDB登頂TPC-DS
    DoNews 5月14日消息(記者 趙晉傑)日前,來自權威國際處理性能委員會TPC官方數據披露,阿里雲自研雲原生數據倉庫AnalyticDB以1489萬的性能指標刷新了世界紀錄,比第二名提升近30%以上。
  • 阿里雲發布「自動駕駛」級資料庫平臺DAS 全球首創技術讓管理成本...
    4月23日,阿里雲發布全新資料庫產品DAS,該平臺由阿里雲及達摩院聯合研發,可提供自感知、自修復、自優化、自安全的全鏈路資料庫管控能力,無需人工幹預,讓企業像體驗「自動駕駛」一樣使用資料庫,資料庫管理成本降低90%。資料庫上雲已成業界共識。
  • 阿里雲自研資料庫打破世界紀錄 這些標的暗藏爆發契機
    2020年全國計劃招聘特崗教師10.5萬名。失業保險金全面實現網上申領。工行將向湖北提供超3000億元融資支持。重點特高壓項目有望加速推進 更多項目正在醞釀近日發布的四川省2020年政府工作報告中提到,加快「新三直」特高壓等重大項目的建設,即雅中-江西、白鶴灘-江蘇、白鶴灘-浙江±800千伏特高壓直流輸電工程。
  • 全球最難資料庫性能排行榜出爐 阿里雲AnalyticDB拿下雙料冠軍
    原標題:全球最難資料庫性能排行榜出爐 阿里雲AnalyticDB拿下雙料冠軍   據權威國際處理性能
  • 使用阿里雲PolarDB替代Oracle資料庫 申通完美扛過618業務高峰
    6月24日,記者採訪獲悉,今年618期間,申通快遞通過引入阿里雲PolarDB雲原生資料庫替代Oracle資料庫,完美扛過618業務高峰,IT成本降幅超過50%。以應對電商大促為例,以往申通要提前幾個月進行相關Oracle硬體和資料庫的擴容,但是大促之後,IT資源的使用率則非常低,投入產出比較低。2019年底,申通決定全面遷移至阿里雲,也因此成為業內首個全面上雲的快遞企業,並率先實現了訂單平臺、巴槍系統等核心系統的上雲,日處理訂單量近3000萬。
  • 阿里雲ECS雲伺服器優惠券,雲資料庫RDS哪裡免費領取?
    阿里雲ECS雲伺服器優惠券,雲資料庫RDS哪裡免費領取? 阿里雲ecs伺服器優惠券哪裡領取,阿里雲虛擬主機優惠券哪裡免費領取,相信很多人在阿里雲購買ecs伺服器時候,不經意在購買頁面注意阿里雲優惠券使用選項,然而多數人都會到搜尋引擎搜索」阿里雲優惠券」,其實目前阿里雲最新優惠是阿里雲代金券優惠活動,是阿里雲新推出升級版優惠券活動
  • 阿里雲資料庫:今年幫千家企業「去O」,甲骨文向雲轉型挑戰大
    6月9日,阿里雲資料庫負責人李飛飛在阿里雲峰會上表示,經過多年技術演進,「去O」已進入大規模攻堅階段。所謂「去O」是去掉Oracle(甲骨文)資料庫。因Oracle等傳統資料庫架構無法滿足企業面臨的業務挑戰,電信、金融和政務等客戶正在核心系統領域加速「去O」。儘管Oracle也在向雲邁進,但其中要面臨的挑戰並不小。
  • 阿里雲時空資料庫實戰(一):數據入庫與導出 - 阿里云云棲號
    阿里雲時空資料庫能夠存儲、管理包括時間序列以及空間地理位置相關的數據。傳感器網絡、移動網際網路、射頻識別、全球定位系統等設備時刻輸出時間和空間數據,數據量增長非常迅速,這對存儲和管理時空數據帶來了挑戰,傳統資料庫很難應對時空數據。
  • 阿里雲2020雙12活動火熱進行中
    【天極網IT新聞頻道】阿里雲2020雙12活動火熱進行中,2核4G配置僅需301.44元1年   隨著雙11的結束,阿里雲在12月9日又開啟了年底最後一次大促活動「阿里雲雙12爆款特惠」,2020年的雙12活動包含免費領取專屬代金券、新用戶專區、老用戶專區三個優惠專區,新老用戶均可參與今年的雙12活動,其中2核4G