李飛飛:雲原生分布式資料庫面臨哪些機遇與挑戰?

2021-01-07 阿里技術

阿里妹導讀:12月3日,由阿里雲CIO學院主辦的【2020中國企業數字創新峰會】在杭州舉行。400位企業CEO、CTO、CIO齊聚一堂,共同探討企業數位化轉型經驗。阿里巴巴集團副總裁、達摩院資料庫首席科學家李飛飛發表了題為《雲原生分布式資料庫系統——挑戰與機遇》的演講,探討雲原生資料庫的價值和商業應用。

文末福利:《阿里雲資料庫客戶案例集》開放下載。

一 背景與趨勢

雲計算加速資料庫系統演進

首先我們看一下雲計算的發展給資料庫系統帶來了哪些變化?資料庫系統是計算機領域三大基礎軟體系統之一,作業系統、編譯系統、資料庫系統。上世紀80年代初,資料庫系統開始走上了歷史舞臺,早期的關係型資料庫以甲骨文為代表,取得了巨大的商業成功。後來出現了開源的關係型資料庫,比如MySQL、Postgres等。到90年代,隨著關係型資料庫的廣泛應用,產生了大量的數據,分析這些結構化的數據對分析型的資料庫系統提出了很高的要求。這就是為什麼在90年代湧現出了一批分析型資料庫系統。世紀更迭,2000年到2010年左右的這段時間是大數據技術走上歷史舞臺的時代。

數據倉庫加速從BigData向Cloud-Native+FastData演進

大數據技術之所以會誕生,其原因可以總結為兩個方面:

大數據的產生。隨著網際網路技術的蓬勃發展,尤其是以谷歌為代表的網際網路公司,產生了大量的數據。谷歌做搜索推薦引擎,最核心的是不斷的爬取全世界所有的網頁,動態地對這些網頁之間的關聯關係進行分析、處理。

獲取、處理、分析數據的方式不一樣。比如說銀行最簡單的交易、轉帳,對隔離、一致性、持久性都有非常嚴格的要求。大數據就不一樣,做搜尋引擎,少爬一個網頁,或者計算的時候沒有把這個網頁的影響算進去,對最終的搜索結果會有一點影響,但不是特別重要。所以,這種應用場景和傳統的聯機交易關係型資料庫裡面的強要求是完全不同的。

這時候大數據系統就出現了,谷歌發表了耳熟能詳的分布式文件系統、分布式表格存儲、MapReduce三大論文,這奠定了今天大數據的整個技術生態圈的基石。從2010年往後,我們又看到另外一個趨勢,就是雲計算的熱度在這個時候逐漸升溫,對我們的數據處理系統產生了一個非常大的影響。我們看到雲原生技術在數據處理系統深入的應用,我們看到傳統的關係型資料庫和傳統大數據生態正在快速發生融合。

每個人都在講雲計算,如何深入理解雲計算這個概念呢?今天整個計算機領域的技術架構是基於60年代誕生的馮諾依曼架構的,其最核心的是兩個部分,計算和存儲,計算和存儲是緊耦合在一起的。從馮諾依曼架構一直到雲計算出現之前,所有的計算體系都是基於這樣的架構來實現的。比如一臺伺服器如果CPU資源不夠了,要做高並發處理,需要再加一臺伺服器。可能內存原本已經夠用了,但是為了擴容計算資源帶來了一定存儲空間的浪費。在對IT資源做預算的時候,就需要按照今年接下來的業務的高峰的峰值評估系統容量,不然系統無法支撐業務,但是這樣預算成本是浪費的。

這時候雲計算出現了,雲計算的本質就是利用分布式技術將資源高效池化,而對應用做到透明的集中式部署。

把雲計算、資料庫、以及大數據發展結合起來看,數據系統本質上就是對數據從生產、處理、消費、存儲的一個全鏈路的過程。可以看到業界發展的趨勢,資源的池化,以雲原生、分布式的技術為基礎,打造下一代的數據處理系統。我們之所以能夠支撐雙11,也是因為我們在不斷的實踐基於這些理念的一些思考。

資料庫挑戰(雙11)

第一張圖是我們歷年雙11的零點交易峰值的曲線,最新的2020年雙11的零點的峰值是58萬筆/秒。每一筆交易還會有一個拆單的動作,到資料庫系統就是每秒幾百萬TPS。第二張圖是我們系統零點負載的瞬間變化曲線。可以看到在一秒鐘時間內系統負載瞬間爆發了145倍。

如果我們不是利用這種雲原生的技術,只是簡單依賴傳統技術,是無法滿足這種高並發、彈性、高可用的要求的。

我們阿里雲利用這些技術在全球的資料庫市場也取得了一些成績。如今在雲資料庫這個市場營收份額是亞太第一,世界第三。剛發布的2019年到2020年的市場調查結果表明,我們已經進入了領導者象限,這也是中國的基礎軟體領域第一次進入領導者象限。最右邊是市場份額,也是第一次在線下+線上的模式裡面超過了甲骨文。

全球雲資料庫市場格局

看一下業界的趨勢。甲骨文是大家都知道傳統的資料庫廠商,它把傳統的基於IOE架構快速向雲化發展,也是基於雲原生的技術。Snowflake這家軟體公司近幾年發展迅猛,本質上也是做了資源池化、存儲池化、存儲計算分離。它把一些傳統的資料庫能力和傳統大數據的能力融合在一起,而底下資源池化。此外,還支持多雲部署。這是Snowflake成功的幾個關鍵的因素。

資料庫發展趨勢 (雲原生企業級一體化、資料庫大數據一體化)

從架構的角度來講,資料庫系統有哪些變化?最左邊就是傳統的馮諾依曼架構。最右邊是分布式架構。中間就是我們講的雲原生的架構,背後大量的利用了分布式技術。這種資源池化帶來的彈性、高可用的能力是顯而易見的。

資料庫系統架構演進

這是今天三種不同的架構,我們認為有這麼幾個趨勢:

大數據和資料庫一體化的趨勢雲原生和分布式技術結合的趨勢智能化的趨勢軟硬體一體化,比如利用高速網絡等來提升數據處理系統的性能和效率安全可信,如何確保數據不可更改

這是下一代資料庫的幾個核心技術:

下一代企業級資料庫關鍵技術

二 核心技術及產品

1 企業級雲原生分布式資料庫

下面結合我們的核心技術把這些背景、趨勢實例化。

雲原生關係型資料庫PolarDB

第一個是雲原生關係型資料庫PolarDB。

雲原生關係型資料庫PolarDB

每個數據塊也是分成三個物理節點,雖然下面大量使用分布式技術,但是不用關心分布式帶來的挑戰,比如說分庫分表、分布式的查詢,因為對應用是完全透明的,讀寫的是一份數據,做到了集中式部署。另外存儲計算分離,在分鐘級別部署一個新的計算節點,或者擴容存儲節點。同時在性能上做了大量的優化,非常好的兼容了生態,比如說100%兼容PG,高度兼容甲骨文。性價比在商業資料庫中有非常好的競爭優勢,在實際的客戶案例裡面,利用PolarDB甲骨文兼容版替換掉現有的甲骨文,在性能一樣的前提下,整體成本不到原來的三分之一。

兼容生態100%兼容 MySQL 5.6, 5.7 and 8.0100%兼容 PostgreSQL 11高度兼容Oracle

存儲計算分離5分鐘添加只讀實例15分鐘Scale Up

智能負載均衡透明讀寫分離自定義應用訪問路徑

分布式共享存儲100TB存儲空間分鐘備份數TB數據

用戶態I/O stack + NVM + RDMA最高6倍社區開源MySQL性能,100萬QPS/秒

基於Redo log複製備庫/只讀實例數據同步毫秒級延時

雲原生分布式資料庫PolarDB-X

除了雲原生的架構,也有分布式架構版的PolarDB。在每個分區裡面做這種三節點的架構,同時三節點是利用協議去做數據的一致性保障,而且三節點可以做到同城跨AZ部署。

雲原生分布式資料庫PolarDB-X

新一代雲原生分布式資料庫系統

下一代的系統是將雲原生技術和分布式技術合二為一,上面是分布式,而下面是雲原生的方式實現,帶來的好處就是每個分區享受到了雲原生帶來彈性、高可用的能力,同時上面有分布式帶來的水平拓展的能力,解決高並發可能帶來的瓶頸問題。

新一代雲原生分布式資料庫系統

2 雲原生數據倉庫與數據湖

再看看資料庫領域發生的一些其他的變化,比如說數據倉庫。

一體化設計成為下一代數據分析系統的核心理念

雲原生數據倉庫

雲原生的數據倉庫本質上也是雲原生的架構,存儲池化、計算池化、存儲計算分離。同時實現海量存儲彈性,輕量化部署。就像現實生活中的倉庫,所有物品都要分門別類放好,所以數據倉庫是比較適合已經範式化的數據格式、業務類型比較固定的場景,性價比非常高。這是我們在雲原生數倉方面做得一些工作,我們也利用這套架構支持了淘寶天貓對實時交易數據進行在線交互式分析和計算的需求。

雲原生數據倉庫

AnalyticDB 雲原生數據倉庫

數據湖

另外一個概念叫數據湖。湖面很平,湖底其實是參差不齊的,所以不同於數據倉庫,數據湖的存儲是多源異構的,只需要有一個統一的界面對這個數據進行分析、處理。我們打造一個雲原生的數據湖解決方案,基於對象存儲,對多源異構的數據存儲進行統一的分析,非常低成本的實現彈性高可用的能力,並且滿足安全性的要求。我們集團各個業務之間,可能需要訪問一份數據,但是計算要進行隔離。雲上很多用戶有這種需求,可以用雲原生的數據湖的產品和解決方案去滿足這種彈性、高可用的場景。

DLA 雲原生數據湖分析 (Serverless,統一元數據+開放存儲與分析計算)

3 智能化、安全可信與生態工具

智能化

我們在管控這一層去實現異常檢測、安全診斷,我們通過K8S這套編排技術,把多源異構的資源管理起來,打造智能化的運維管控平臺。

雲原生+智能化資料庫管控平臺

安全可信

我們做了全加密的資料庫,數據進入內核以後不需要解密。今天的安全體系裡面還有一個關鍵的薄弱點,就是數據進入大數據系統進行計算分析的時候必須進行解密。我們利用安全硬體技術做了全加密的流程和保護,實現了不解密也能進行數據加工和處理。

全加密雲資料庫- ApsaraDB RDS Encrypted

資料庫生態工具

從傳輸、備份到管理,傳輸採用DTS,做端到端數據的同步,用DBS數據備份做多雲多端的邏輯備份、物理備份,DMS做企業級的開發建模的流程。這一整套搭建起了阿里巴巴在雙11的核心鏈路,比如各個單元之間的數據同步,核心數據的容災備份,用DBS做數據的開發、管理,通過DMS做保障,這就是雙11背後的資料庫系統技術實踐。

多雲多端+混合云:數據高速公路,遷移、管理、備份、建倉

三 最佳實踐

今年的疫情期間看到各行各業的一個非常大的變化,傳統的離線業務和在線業務有一個快速融合,線上線下的邊界越來越模糊。這帶來的挑戰是,業務的波峰波谷的變化越來越劇烈。這是疫情帶來必然的變化。數位化的轉型是一個必然存在的事實。這種背景下,我們雲原生資料庫、雲原生數據倉,支持了不僅是雙11,還有疫情期間各行各業尤其是在線教育、遊戲等這些傳統的線上線下邊界變得越來越模糊的行業。

阿里雲資料庫技術對抗新冠疫情

阿里雲資料庫客戶案例集

開放下載

案例集覆蓋網際網路、新零售、能源、交通出行、行動支付、物聯網、軟體七大行業,客戶們傾心分享了各自應用阿里雲資料庫解決方案的最佳實踐,在資料庫選型的過程中助你更加敏捷、更加智能化,低成本實現雲上數位化轉型與升級。

相關焦點

  • 對話阿里雲李飛飛:雲原生資料庫的時代來了
    今年此時,在由阿里雲聯合英特爾共同主辦的第二屆資料庫大賽 —— Tair 性能挑戰如火如荼地報名之時,我見到了李飛飛,他同時說下了這樣一句話 —— 將「登高望遠、仰望星空」的能力和「日拱一卒、落子無悔」的工程師文化結合起來。
  • 對話阿里雲李飛飛:雲原生資料庫的時代來了
    今年此時,在由阿里雲聯合英特爾共同主辦的第二屆資料庫大賽 —— Tair 性能挑戰如火如荼地報名之時,我見到了李飛飛,他同時說下了這樣一句話 —— 將「登高望遠、仰望星空」的能力和「日拱一卒、落子無悔」的工程師文化結合起來。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    簡介: 資料庫將面臨怎樣的變革?雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 阿里李飛飛:資料庫將全面進入雲原生分布式時代
    、在線化、智能化演進,企業一方面面臨著指數級遞增的海量數據存儲需求,更多的熱點和突發流量也會帶來新的挑戰,另一方面又需要降本增效,進行智能數據決策,傳統的商業資料庫已經難以滿足和響應快速變化持續增長的業務訴求。
  • 進入雲原生、分布式的時代,什麼才是資料庫的正確打開方式
    李飛飛,阿里花名飛刀,2018年加入並帶領阿里雲資料庫團隊。 在阿里巴巴副總裁,阿里雲資料庫事業部負責人李飛飛看來,雙十一的場景特點就是數量大,並發高,瞬間對系統的要求非常極致,所以阿里巴巴主要通過雲原生架構的突破以及分布式技術的應用,實現了資源池化,資源池化以後進一步實現存儲計算分離,這樣帶來的好處就是極致的彈性以及高可用,從而可以在短時間內快速的分配資源,然後滿足這種系統負載瞬間飆高的場景需求。
  • 專訪李飛飛:從清華附中高材生到阿里飛刀,一口井鑽出「雲原生」
    李飛飛從學術界走向工業界,帶領阿里雲技術團隊一手打造了雲原生分布式資料庫,讓阿里「全面上雲」的戰役再下一城。今天,他用一口水井為我們道出了雲原生! 如果要用一個關鍵詞來定義中國當下的消費時代,「雙11」是再貼切不過了。
  • 為什麼雲原生+分布式是資料庫的未來?
    為此,CSDN有幸採訪到阿里巴巴集團副總裁、達摩院首席資料庫科學家,同時也是雲原生技術委員會核心成員之一的李飛飛。李飛飛接著說道,雲原生資料庫基於Shared Everything + Shared Storage 的存儲計算分離架構實現資源池化高效管理,同時兼具彈性高可用水平拓展的特性。而分布式,就是用Shared Nothing的架構,實現數據水平分片、水平擴展。
  • 阿里巴巴李飛飛:雲原生點亮數據上雲之路 | 資料庫的前瞻趨勢
    本次演講邀請了阿里巴巴集團副總裁李飛飛(飛刀)為大家分享資料庫的前瞻趨勢,解讀雲原生如何點亮數據上雲之路。演講嘉賓簡介:李飛飛(飛刀),阿里雲巴巴集團副總裁,高級研究員,ACM傑出科學家。領導雲原生資料庫PolarDB和雲原生數據倉庫AnalyticDB等多款自研資料庫產品。
  • 阿里雲李飛飛:傳統資料庫步履蹣跚,未來的機會在哪裡?
    在採訪中李飛飛表示,隨著計算和數據上雲的趨勢快速發展,傳統資料庫步履蹣跚,雲原生資料庫和數據倉庫利用雲原生技術最大化的發揮池化的計算和存儲資源彈性將是未來。同時隨著AI技術的不斷深入使用,資料庫也將會越來越智能化,阿里雲的目標是實現資料庫的完全自動化和智能化。「李飛飛,現任阿里巴巴集團副總裁、高級研究員,阿里雲智能資料庫事業部總負責人。
  • 阿里巴巴集團副總裁李飛飛:雲計算加速資料庫與大數據系統演進
    當算力有了極大突破,人工智慧的發展就能得到大力提升,而雲計算會加速資料庫和大數據系統的演進。」阿里巴巴集團副總裁李飛飛在9月20日召開的上海交通大學第二屆「安泰交響」高峰論壇上表示,疫情的出現,讓人工智慧、雲原生技術和大數據變得愈發重要。關鍵技術是大數據與資料庫一體化,雲原生加分布式。
  • 阿里雲李飛飛:資料庫發展的幾個重要趨勢
    文 | 阿里雲,分享 | 李飛飛(阿里巴巴集團副總裁)上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央,2000年開始大數據技術興起,再到2010年後雲計算熱度持續升溫。結合阿里雲資料庫的核心技術,把以上背景、趨勢實例化:雲原生關係型資料庫PolarDBPolarDB的每個數據塊分成三個物理節點,不用關心分布式帶來的挑戰,比如分庫分表、分布式的查詢,對應用完全透明,讀寫一份數據,做到了分布式技術透明化、集中式部署。
  • 專訪李飛飛:從清華附中高材生到阿里飛刀,一口井鑽出雲原生
    李飛飛從學術界走向工業界,帶領阿里雲技術團隊一手打造了雲原生分布式資料庫,讓阿里「全面上雲」的戰役再下一城。今天,他用一口水井為我們道出了雲原生!如果要用一個關鍵詞來定義中國當下的消費時代,「雙11」是再貼切不過了。
  • 深度|阿里雲李飛飛:資料庫發展的幾個重要趨勢
    李飛飛,阿里巴巴集團副總裁、高級研究員,阿里雲智能資料庫事業部總負責人上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央;2000年開始,大數據技術興起;再到2010年後,雲計算熱度持續升溫;技術的進程走到了今天這個奇妙的節點,看向未來有幾個趨勢可能會發生。僅以此文,分享一些淺見和實踐。
  • 阿里雲全面布局雲原生資料庫產品體系 點亮企業數據上雲之路
    9月18日雲棲大會,阿里雲智能資料庫產品事業部負責人、達摩院資料庫與存儲實驗室負責人、阿里巴巴集團副總裁李飛飛正式推出雲原生分布式資料庫PolarDB-X、雲原生數據倉庫AnalyticDB、雲原生數據湖分析Data Lake Analytics(DLA)、雲原生多模資料庫Lindorm等多款產品的發布與升級。自此,阿里雲資料庫正式全面升級到雲原生資料庫時代。
  • 阿里雲資料庫李飛飛:雲計算推動資料庫向雲原生快速演進
    阿里巴巴集團副總裁、阿里雲智能資料庫事業部總裁李飛飛表示,雲計算正在推動資料庫向雲原生快速演進,阿里雲資料庫已全面布局雲原生。深耕11年10萬餘客戶2020年11月,「完美日記「上市了。迅速崛起的「完美日記」,從2017年的全新品牌,到如今的 「國貨之光」,成為今年創投圈的現象級案例。快速的業務發展背後,是高壓力的系統挑戰。
  • 阿里雲全面布局雲原生資料庫產品體系,點亮企業數據上雲之路
    9月18日雲棲大會,阿里雲智能資料庫產品事業部負責人、達摩院資料庫與存儲實驗室負責人、阿里巴巴集團副總裁李飛飛正式推出雲原生分布式資料庫PolarDB-X、雲原生數據倉庫AnalyticDB、雲原生數據湖分析Data Lake Analytics(DLA)、雲原生多模資料庫Lindorm等多款產品的發布與升級。
  • 架構革新 高效可控 2020中國資料庫技術大會盛大召開
    隨著網際網路、移動通信、物聯網等新技術趨勢的發展,傳統關係資料庫的技術架構和服務水平,逐漸無法滿足新業態的發展需求。在新的挑戰和機遇下,達夢公司對分布式技術進行了大量探索。  李飛飛:企業級雲原生分布式資料庫與數據倉庫系統的挑戰和機遇  第二位為我們帶來分享的是來自阿里巴巴集團副總裁,阿里雲智能資料庫事業部總負責人,ACM傑出科學家,達摩院資料庫與存儲實驗室負責人李飛飛。  據李飛飛介紹,在雲計算時代,雲原生分布式資料庫開始崛起,提供彈性擴展、高可用、分布式等特性。
  • 阿里雲推出多款雲原生資料庫升級版 全面布局「雲原生+分布式」
    9月18日雲棲大會,阿里雲正式推出雲原生分布式資料庫PolarDB-X、雲原生數據倉庫AnalyticDB等多款雲原生資料庫產品的重磅升級版本。至此,阿里雲已擁有完整的雲原生分布式資料庫產品矩陣,通過「雲原生+分布式」的深度結合以及存儲計算分離、資源池化、彈性擴展、智能運維等技術能力,幫助企業從容應對業務高峰,加速邁入數字原生時代。
  • 阿里雲發布分布式資料庫PolarDB-X,應對海量數據管理
    雲原生的分布式資料庫PolarDB-X在阿里雲線上峰會上,阿里雲一口氣發布六款產品和多款解決方案,這也是具體落實張建鋒所說的「做深基礎、做厚中臺、做強生態」戰略。阿里雲的分布式資料庫PolarDB-X也是其中之一。
  • 雲原生、存算一體、持久化,阿里雲內存資料庫Tair出世不凡
    值得高興的是,隨著技術的不斷進步,特別是雲計算以及新一代存儲技術的出現,內存資料庫面臨的這些挑戰正在逐步得到解決,新一代的內存資料庫也應運而生,阿里雲推出的雲原生內存資料庫Tair正是這樣的一個產品。「內存資料庫正進入了新的階段,雲原生、持久化、融合計算是三大特徵。」 阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部總經理、高級研究員李飛飛表示。