深度|阿里雲李飛飛:資料庫發展的幾個重要趨勢

2021-01-15 迪比空間

李飛飛,阿里巴巴集團副總裁、高級研究員,阿里雲智能資料庫事業部總負責人

上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央;2000年開始,大數據技術興起;再到2010年後,雲計算熱度持續升溫;技術的進程走到了今天這個奇妙的節點,看向未來有幾個趨勢可能會發生。

僅以此文,分享一些淺見和實踐。

三段交叉的技術史

過去40年,資料庫系統、大數據和雲計算三項技術交替興起。

首先是資料庫系統,成型於上個世紀80年代,是計算機領域三大基礎軟體系統之一。早期的關係型資料庫以甲骨文資料庫為代表,取得了巨大的商業成功。後來出現了MySQL、PostgreSQL等開源的關係型資料庫。

90年代,隨著關係型資料庫的廣泛應用,產生了大量的數據,分析這些結構化的數據對分析型的資料庫系統提出了很高的要求,因而在90年代湧現出了一批分析型資料庫系統。

世紀更迭,2000年到2010年,大數據技術走上歷史舞臺的時代。大數據技術誕生的原因有以下兩方面:

一是大數據的產生。隨著以谷歌為代表的網際網路公司的發展,產生了大量數據。

二是獲取、處理、分析數據的方式不一樣。比如說銀行最簡單的交易、轉帳,對隔離、一致性、持久性有非常嚴格的要求,大數據不一樣,單一數據對最終結果沒有特別影響,這種應用場景和傳統的聯機交易關係型資料庫完全不同。

於是,大數據系統應運而生。谷歌發表了耳熟能詳的分布式文件系統、分布式表格存儲、MapReduce三大論文,奠定了今天大數據的整個技術生態圈的基石。

2010年後,另一個趨勢是雲計算的熱度逐漸升溫。雲計算的本質就是利用分布式技術將資源高效池化,而對應用做到透明的集中式部署。

把雲計算、資料庫以及大數據發展結合起來看,數據系統本質上就是對數據從生產到處理、消費、存儲的一個全鏈路的過程。

雲計算對數據處理系統產生了非常大的影響:

第一, 雲原生技術在數據處理系統深入的應用;

第二, 傳統的關係型資料庫和傳統大數據生態正在快速發生融合。

業界發展的趨勢,是資源的池化、資源解耦,以雲原生、分布式的技術為基礎,打造下一代的數據處理系統。舉例來說,阿里雲資料庫之所以能夠支撐雙11,也是在不斷實踐基於這些理念的思考。

以雙11為例,第一張圖是歷年雙11的零點交易峰值的曲線,最新的2020年雙11的零點峰值是58萬筆/秒。每一筆交易還會有一個拆單的動作,到資料庫系統就是每秒幾百萬TPS。

第二張圖是系統零點負載的瞬間變化曲線,一秒鐘時間內系統負載瞬間爆發了145倍。如果不是利用雲原生的技術,簡單依賴傳統技術根本無法滿足這種高並發、彈性、高可用的要求。

幾個重要趨勢

從架構的角度來看,資料庫系統的變化如下圖所示:

左邊是傳統的馮諾依曼架構,右邊是分布式架構,中間是雲原生的架構,背後大量利用了分布式技術。這種資源池化帶來的彈性、高可用的能力顯而易見。

這是今天三種不同的架構,有以下幾個趨勢:

大數據和資料庫一體化雲原生和分布式技術結合智能化多模數據處理軟硬體一體化:例如,利用高速網絡等來提升數據處理系統的性能和效率安全可信:例如,如何確保數據不可更改

結合阿里雲資料庫的核心技術,把以上背景、趨勢實例化:

1

雲原生關係型資料庫PolarDB

每個數據塊分成三個物理節點,不用關心分布式帶來的挑戰。比如分庫分表、分布式的查詢,對應用完全透明,讀寫一份數據,做到了分布式技術透明化、集中式部署。

PolarDB的存儲與計算架構分離,能在分鐘級別部署一個新的計算節點,或者擴容存儲節點。同時,在性能上做了大量的優化,非常好地兼容了生態,比如100%兼容MySQL和PostgreSQL,高度兼容Oracle。

其性價比在商業資料庫中有非常大的競爭優勢,在實際的客戶案例裡,利用PolarDB Oracle兼容版替換現有的Oracle,在性能一樣的前提下,整體成本不到原來的三分之一。

除了雲原生的架構,也有分布式架構版的PolarDB-X。在每個分區裡面做這種三節點的架構,同時,三節點利用協議做數據的一致性保障,而且三節點可以做到同城跨AZ部署。

2

一體化設計是下一代數據分析系統的核心理念

下一代的系統是將雲原生技術和分布式技術合二為一:上面是分布式,而下面是雲原生的方式實現。每個分區都可以享受雲原生帶來彈性、高可用的能力,同時,上面有分布式帶來的水平拓展的能力,解決高並發可能帶來的瓶頸問題。

3

雲原生數據倉庫AnalyticDB

雲原生的數據倉庫本質上也是雲原生的架構,存儲池化、計算池化、存儲計算分離,同時實現海量存儲彈性、輕量化部署。

利用這些技術實現數據處理和計算分析的離在線一體化、資料庫與大數據一體化。如同現實生活中的倉庫,所有物品要分門別類放好。所以,數據倉庫比較適合已經範式化的數據格式、業務類型比較固定的場景,性價比非常高。

這是我們在雲原生數倉方面做的一些工作,我們也利用這套架構研發了AnalyticDB(ADB),支持了淘寶天貓對實時交易數據進行在線交互式分析和計算的需求,同時支持複雜的離線ETL與在線分析的融合。

4

數據湖

數據湖,「湖底」的數據參差不齊,「湖面」卻是平的。不同於數據倉庫,數據湖的存儲是多源異構的,只需要有一個統一的界面對這些數據進行分析、處理。

我們打造了一個雲原生的Serverless數據湖解決方案DLA——基於對象存儲,對多源異構的數據存儲進行統一的計算和分析,利用雲原生的Serverless技術,可以用非常低的成本實現彈性高可用的能力,並且滿足安全性的要求。

5

多模、智能化和安全可信

在管控這一層實現異常檢測、安全診斷,通過K8S這套編排技術,把多源異構的資源管理起來,打造智能化的運維管控平臺。

我們做了全加密的資料庫,數據進入內核以後不需要解密。利用安全硬體技術做了全加密的流程和保護,實現了不解密也能進行數據加工和處理。

數據業務的多樣化帶來了除了結構化數據之外的多模數據,例如文本、時序、圖片、圖數據等非結構化數據。針對多模數據,我們設計研發了基於雲原生架構的多模資料庫Lindorm以及雲原生內存資料庫Tair來支持多模數據處理。

最後是生態工具,從傳輸、備份到管理。傳輸採用DTS,做端到端數據的同步,用DBS數據備份做多雲多端的邏輯備份、物理備份,DMS做企業級的開發建模流程,ADAM做針對基於傳統資料庫和數據倉庫開發的應用評估和遷移。

今年疫情期間,各行各業有一個非常大的變化——傳統的離線業務和在線業務在快速融合,線上線下的邊界越來越模糊。這帶來的挑戰是,業務波峰波谷的變化越來越劇烈。這是疫情帶來的必然變化,數位化的轉型也是一個必然發生的事實。

這種背景下,阿里雲原生資料庫PolarDB、雲原生數據倉庫AnalyticDB,不僅支持了雙11,更在疫情期間服務了各行各業,尤其是在線教育、遊戲等傳統的線上線下邊界越來越模糊的行業。

相關焦點

  • 對話阿里雲李飛飛:雲原生資料庫的時代來了
    同時,李飛飛也堅信,「傳統資料庫會像馬車一樣被淘汰。」而在雲生態發展下,「雲原生資料庫」已成為不可逆的趨勢之一。對此,李飛飛解釋道,所謂雲原生,重要有兩大部分:「雲」與「原生」。其中,雲,即用虛擬化的技術實現資源池化。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    簡介: 資料庫將面臨怎樣的變革?雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 喜訊| 阿里雲李飛飛榮膺「2020數據風雲獎——年度數據風雲人物獎」
    歷經11年的積累與沉澱,如今DTCC已然成為國內資料庫領域的頂級技術風向標,見證了整個行業的發展與演變,銘記了新型資料庫技術的關鍵成長曆程。  經過組委會專家的嚴格評審,憑藉為全球資料庫領域做出的傑出貢獻,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁李飛飛榮膺「2020年度數據風雲人物獎」殊榮,可謂實至名歸。
  • 阿里巴巴集團副總裁李飛飛:雲計算加速資料庫與大數據系統演進
    原標題:阿里巴巴集團副總裁李飛飛:雲計算加速資料庫與大數據系統演進   「
  • 李飛飛最新論文:結合深度學習和谷歌街景來估算美國人口結構
    雷鋒網按:最近,一篇名為《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的論文發布到了arxiv.org上,作為這篇論文的聯合作者之一
  • 銀泰百貨資料庫搬遷至阿里雲PolarDB,投入產出比增長2倍以上
    銀泰資料庫負責人李亞博透露,公司核心業務系統中的資料庫搬遷至阿里雲PolarDB之後,在相同成本的情況下可以支撐三倍以上的業務量。新零售四年,銀泰百貨通過數位化轉型,成為一家全面架構在雲上的網際網路百貨公司。在此過程中,銀泰百貨資料庫上雲對業務飛躍式發展進行了很好地支撐。作為零售型企業,銀泰百貨成立之後都在使用傳統商業資料庫,核心業務系統與資料庫產生了強綁定。
  • 阿里雲賈揚清:人工智慧是大數據業務發展的終極出口
    12月13日,阿里雲計算平臺負責人賈揚清在Flink Forward Asia 2020峰會上指出,擁抱「融合」是大數據演進的新方向,大數據和人工智慧一體化是必然趨勢,而人工智慧是大數據業務發展的終極出口。同時,他從不同角度討論了Flink的開源技術,以及雲時代下開源技術的發展和未來思考。
  • 阿里雲發布了第三代資料庫POLARDB,跑分超過了AWS
    在2017杭州雲棲大會前夕的9月21日,阿里雲正式發布了自研新一代商用關係型雲資料庫 POLARDB。阿里雲資料庫掌門人餘峰在發布會上表示:POLARDB 採用第三代分布式共享存儲架構,實現企業級 OLTP 與 OLAP 一體化資料庫系統整體設計,一個資料庫即可滿足多類資料庫的混合使用效果。在此基礎上,阿里雲資料庫產品家族已覆蓋了世界上主流的關係型、鍵值型、文檔型、搜索型、時序型、列式資料庫。
  • 李飛飛入選美國國家醫學科學院,她用AI改變醫療
    李飛飛對於很多人來說,並不是一個陌生的名字。她1976 年出生於北京,在四川長大。16歲時,全家移民到了美國。1999年畢業於普林斯頓大學後,李飛飛赴西藏研究一年藏藥。2005年獲得加州理工學院電子工程博士學位,進入史丹福大學AI實驗室,並在2012 年成為了史丹福大學終身教授。
  • 李飛飛對話斯坦福神經生物學教授Bill...
    第二個是神經網絡,這個領域的人知道如何構建深度卷積網絡和循環神經網絡,他們建模來解決一些已知神經系統可以解決的簡單問題。如果可以弄清楚這些網絡如何解決上述問題,我們或許就可以深入了解關於神經系統的一些新假設。第三個是高端數據分析。我們現在所得到的數據正在變得空前龐大、複雜,有時還很模糊。知道如何處理這些數據、如何避免統計陷阱已經變得非常重要。
  • 雲資料庫市場再起風雲,SAP HANA Cloud落地阿里雲
    臨近2020年底,中國雲計算市場再現大事件:SAP HANA Cloud落地阿里雲!SAP於10年前推出了劃時代的內存資料庫HANA,從此引領全球資料庫風向。推出HANA後,SAP HANA的需求量可以與SAP R/3 ERP軟體推出時相提並論。
  • AI圈八大女性領袖:李飛飛、NVIDIA工程副總等在列
    五、李飛飛:史丹福大學計算機科學系的教授世界上很少有人像李飛飛這樣在21世紀為人工智慧領域做出如此卓絕的貢獻。李飛飛於1976年出生於北京,16歲隨父母移居美國新澤西州。2007年,李飛飛作為普林斯頓一位年輕的教授,設想並牽頭做了一個名為ImageNet的項目,這是一個改變了整個AI發展軌道的含有幾百萬圖片的數據集。ImageNet中的先見之明就是海量的數據集,勝過其中的特別的算法,成為釋放AI潛力的鑰匙。
  • 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列
    她於 2018 年創立了 insitro,該公司是一家應用機器學習來轉變藥物研發和發展的公司。成立僅僅兩年,Insitro 已從 Andreessen Horowitz 等公司籌集了約 2.5 億美元,並於近期宣布與 Bristol Myers Squibb 建立重要的商業合作夥伴關係。
  • 李飛飛團隊正在研發家用AI系統,可監測獨居老人新冠症狀
    李飛飛在新冠肺炎大流行期間,照顧老年人變得更加困難。人工智慧是否在這個領域發揮作用?據李飛飛團隊介紹,這套家用系統的優勢在於,它可以讓看護人遠程監視老年人現有疾病和基本健康狀況,減少接觸的危險。李飛飛和她的團隊在直播演講中介紹,這套系統在新冠肺炎暴發前,由臨床醫生和計算機科學家組成的跨學科研究小組就已經在開發了。「過去幾年來,我們一直在研究一套AI系統,它可以幫助老年人獨立生活,還可以管理他們的慢性病。最近我們意識到,這套技術對新冠肺炎大流行下的老年人也有幫助。」
  • 李飛飛推薦:一篇文章幫你糾正十個機器學習誤區
    ----李飛飛在柯潔和阿爾法狗大戰熱忱之時,李飛飛在推特推薦了一篇文章說明機器學習的十大誤區,並說:機器快速,準確但有點「笨」,而人緩慢,不精準卻充滿創造力!  李飛飛推特截圖機器學習過去往往發生在幕後:亞馬遜通過挖掘你的點擊和購買記錄來給你推薦新物品;谷歌通過挖掘你的搜索來投放廣告;臉書通過挖掘你的社交網絡來選擇給你展示不同的新鮮事。
  • SAP HANA Cloud數據平臺亮相TechEd,已部署阿里雲
    兩家公司最近完成了合併,Diadem Bikes利用SeeUbike的維修數據創建了多個可視化視圖,發現有一項維修率高於正常水平,深度探測後很快發現,2017年12月12日生產的懸架存在質量問題。這就是SAP HANA Cloud可以順利連接並遠程其他任何資料庫,並且將所有資料庫表整合一起的功能。
  • 劉如謙、莊小威、李飛飛、王辰等當選美國醫學科學院院士
    此次新增院士中,莊小威、劉如謙、李飛飛、宋紅軍等多位華人學者當選,其中王辰院士當選外籍院士。莊小威DNA 編碼合成方法大大加速了藥物發現,發展了噬菌體輔助技術大大加速了蛋白質進化。李飛飛李飛飛,史丹福大學計算機科學系教授,國際人工智慧領域頂級學者,幫助建立基於視覺的人工智慧領域,帶來多種重要醫療應用,入選 2015 年「全球百大思想者」。
  • 馬來西亞電商企業PrestoMall拋棄甲骨文,轉投阿里雲POLARDB成本...
    日前,馬來西亞知名電商企業PrestoMall拋棄傳統甲骨文資料庫,轉投阿里雲自主研發的POLARDB雲資料庫,支撐公司平穩應對電商大促活動中創下的流量峰值,整體IT成本降幅達到40%以上。PrestoMall是馬來西亞知名電商企業之一,過去幾年數據量和客戶量都出現井噴式增長,營收規模近3個財年增長256%。隨著公司的快速發展,PrestoMall原有甲骨文資料庫產品限制了其彈性增長的需求,並且昂貴的資料庫授權費導致公司IT成本居高不下,阻礙了業務發展。2019年8月,PrestoMall決定停用甲骨文資料庫,並開始尋找可靠的替代方案。
  • 攜手阿里雲 潤和軟體金融科技五年(2020-2025)新戰略深度報告
    要素三:從業務發展的角度看,零售銀行、交易銀行、開放銀行等越來越成為重要的趨勢。近年來,傳統銀行的零售轉型步伐顯著加快,交易銀行也因為輕資本、低風險的特性而被普遍認為是傳統商業銀行推進數位化轉型的重要路徑,興起於2018年的開放銀行業也迅速成為行業的熱點。