深度|阿里雲李飛飛:資料庫發展的幾個重要趨勢

2021-01-10 迪比空間

李飛飛,阿里巴巴集團副總裁、高級研究員,阿里雲智能資料庫事業部總負責人

上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央;2000年開始,大數據技術興起;再到2010年後,雲計算熱度持續升溫;技術的進程走到了今天這個奇妙的節點,看向未來有幾個趨勢可能會發生。

僅以此文,分享一些淺見和實踐。

三段交叉的技術史

過去40年,資料庫系統、大數據和雲計算三項技術交替興起。

首先是資料庫系統,成型於上個世紀80年代,是計算機領域三大基礎軟體系統之一。早期的關係型資料庫以甲骨文資料庫為代表,取得了巨大的商業成功。後來出現了MySQL、PostgreSQL等開源的關係型資料庫。

90年代,隨著關係型資料庫的廣泛應用,產生了大量的數據,分析這些結構化的數據對分析型的資料庫系統提出了很高的要求,因而在90年代湧現出了一批分析型資料庫系統。

世紀更迭,2000年到2010年,大數據技術走上歷史舞臺的時代。大數據技術誕生的原因有以下兩方面:

一是大數據的產生。隨著以谷歌為代表的網際網路公司的發展,產生了大量數據。

二是獲取、處理、分析數據的方式不一樣。比如說銀行最簡單的交易、轉帳,對隔離、一致性、持久性有非常嚴格的要求,大數據不一樣,單一數據對最終結果沒有特別影響,這種應用場景和傳統的聯機交易關係型資料庫完全不同。

於是,大數據系統應運而生。谷歌發表了耳熟能詳的分布式文件系統、分布式表格存儲、MapReduce三大論文,奠定了今天大數據的整個技術生態圈的基石。

2010年後,另一個趨勢是雲計算的熱度逐漸升溫。雲計算的本質就是利用分布式技術將資源高效池化,而對應用做到透明的集中式部署。

把雲計算、資料庫以及大數據發展結合起來看,數據系統本質上就是對數據從生產到處理、消費、存儲的一個全鏈路的過程。

雲計算對數據處理系統產生了非常大的影響:

第一, 雲原生技術在數據處理系統深入的應用;

第二, 傳統的關係型資料庫和傳統大數據生態正在快速發生融合。

業界發展的趨勢,是資源的池化、資源解耦,以雲原生、分布式的技術為基礎,打造下一代的數據處理系統。舉例來說,阿里雲資料庫之所以能夠支撐雙11,也是在不斷實踐基於這些理念的思考。

以雙11為例,第一張圖是歷年雙11的零點交易峰值的曲線,最新的2020年雙11的零點峰值是58萬筆/秒。每一筆交易還會有一個拆單的動作,到資料庫系統就是每秒幾百萬TPS。

第二張圖是系統零點負載的瞬間變化曲線,一秒鐘時間內系統負載瞬間爆發了145倍。如果不是利用雲原生的技術,簡單依賴傳統技術根本無法滿足這種高並發、彈性、高可用的要求。

幾個重要趨勢

從架構的角度來看,資料庫系統的變化如下圖所示:

左邊是傳統的馮諾依曼架構,右邊是分布式架構,中間是雲原生的架構,背後大量利用了分布式技術。這種資源池化帶來的彈性、高可用的能力顯而易見。

這是今天三種不同的架構,有以下幾個趨勢:

大數據和資料庫一體化雲原生和分布式技術結合智能化多模數據處理軟硬體一體化:例如,利用高速網絡等來提升數據處理系統的性能和效率安全可信:例如,如何確保數據不可更改

結合阿里雲資料庫的核心技術,把以上背景、趨勢實例化:

1

雲原生關係型資料庫PolarDB

每個數據塊分成三個物理節點,不用關心分布式帶來的挑戰。比如分庫分表、分布式的查詢,對應用完全透明,讀寫一份數據,做到了分布式技術透明化、集中式部署。

PolarDB的存儲與計算架構分離,能在分鐘級別部署一個新的計算節點,或者擴容存儲節點。同時,在性能上做了大量的優化,非常好地兼容了生態,比如100%兼容MySQL和PostgreSQL,高度兼容Oracle。

其性價比在商業資料庫中有非常大的競爭優勢,在實際的客戶案例裡,利用PolarDB Oracle兼容版替換現有的Oracle,在性能一樣的前提下,整體成本不到原來的三分之一。

除了雲原生的架構,也有分布式架構版的PolarDB-X。在每個分區裡面做這種三節點的架構,同時,三節點利用協議做數據的一致性保障,而且三節點可以做到同城跨AZ部署。

2

一體化設計是下一代數據分析系統的核心理念

下一代的系統是將雲原生技術和分布式技術合二為一:上面是分布式,而下面是雲原生的方式實現。每個分區都可以享受雲原生帶來彈性、高可用的能力,同時,上面有分布式帶來的水平拓展的能力,解決高並發可能帶來的瓶頸問題。

3

雲原生數據倉庫AnalyticDB

雲原生的數據倉庫本質上也是雲原生的架構,存儲池化、計算池化、存儲計算分離,同時實現海量存儲彈性、輕量化部署。

利用這些技術實現數據處理和計算分析的離在線一體化、資料庫與大數據一體化。如同現實生活中的倉庫,所有物品要分門別類放好。所以,數據倉庫比較適合已經範式化的數據格式、業務類型比較固定的場景,性價比非常高。

這是我們在雲原生數倉方面做的一些工作,我們也利用這套架構研發了AnalyticDB(ADB),支持了淘寶天貓對實時交易數據進行在線交互式分析和計算的需求,同時支持複雜的離線ETL與在線分析的融合。

4

數據湖

數據湖,「湖底」的數據參差不齊,「湖面」卻是平的。不同於數據倉庫,數據湖的存儲是多源異構的,只需要有一個統一的界面對這些數據進行分析、處理。

我們打造了一個雲原生的Serverless數據湖解決方案DLA——基於對象存儲,對多源異構的數據存儲進行統一的計算和分析,利用雲原生的Serverless技術,可以用非常低的成本實現彈性高可用的能力,並且滿足安全性的要求。

5

多模、智能化和安全可信

在管控這一層實現異常檢測、安全診斷,通過K8S這套編排技術,把多源異構的資源管理起來,打造智能化的運維管控平臺。

我們做了全加密的資料庫,數據進入內核以後不需要解密。利用安全硬體技術做了全加密的流程和保護,實現了不解密也能進行數據加工和處理。

數據業務的多樣化帶來了除了結構化數據之外的多模數據,例如文本、時序、圖片、圖數據等非結構化數據。針對多模數據,我們設計研發了基於雲原生架構的多模資料庫Lindorm以及雲原生內存資料庫Tair來支持多模數據處理。

最後是生態工具,從傳輸、備份到管理。傳輸採用DTS,做端到端數據的同步,用DBS數據備份做多雲多端的邏輯備份、物理備份,DMS做企業級的開發建模流程,ADAM做針對基於傳統資料庫和數據倉庫開發的應用評估和遷移。

今年疫情期間,各行各業有一個非常大的變化——傳統的離線業務和在線業務在快速融合,線上線下的邊界越來越模糊。這帶來的挑戰是,業務波峰波谷的變化越來越劇烈。這是疫情帶來的必然變化,數位化的轉型也是一個必然發生的事實。

這種背景下,阿里雲原生資料庫PolarDB、雲原生數據倉庫AnalyticDB,不僅支持了雙11,更在疫情期間服務了各行各業,尤其是在線教育、遊戲等傳統的線上線下邊界越來越模糊的行業。

相關焦點

  • 阿里雲李飛飛:資料庫發展的幾個重要趨勢
    文 | 阿里雲,分享 | 李飛飛(阿里巴巴集團副總裁)上世紀80年代初,資料庫系統逐步走上信息技術舞臺的中央,2000年開始大數據技術興起,再到2010年後雲計算熱度持續升溫。2010年後,另一個趨勢是雲計算的熱度逐漸升溫。雲計算的本質就是利用分布式技術將資源高效池化,而對應用做到透明的集中式部署。把雲計算、資料庫、以及大數據發展結合起來看,數據系統本質上就是對數據從生產、處理、消費、存儲的一個全鏈路的過程。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    簡介: 資料庫將面臨怎樣的變革?雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 李飛飛:雲原生分布式資料庫面臨哪些機遇與挑戰?
    一 背景與趨勢雲計算加速資料庫系統演進首先我們看一下雲計算的發展給資料庫系統帶來了哪些變化?資料庫系統是計算機領域三大基礎軟體系統之一,作業系統、編譯系統、資料庫系統。上世紀80年代初,資料庫系統開始走上了歷史舞臺,早期的關係型資料庫以甲骨文為代表,取得了巨大的商業成功。後來出現了開源的關係型資料庫,比如MySQL、Postgres等。
  • 李飛飛卸任斯坦福AI主任 全力踐行理想
    具體而言,這一項目由李飛飛和斯坦福前教務長John Etchemendy共同主導,主要工作方向有三個:1、推進和發展下一代AI科學(著重於腦科學和認知學交叉);2、研究和預測AI對人類社會和生活的影響;3、設計和實現以人為本的AI技術和應用。
  • 李飛飛團隊最新Nature論文:AI傳感器如何改善醫療服務
    李飛飛她的主要研究方向為機器學習、計算機視覺,乍看上去高冷無比,其實與我們每一個人都有著千絲萬縷的關係。歷時八年,凝結了無數人的心血,十幾篇AI論文和半打醫療期刊論文,最終凝聚成李飛飛和團隊9月9日在Nature上聯合發表的重磅論文「Illuminating the dark spaces of healthcare with ambient intelligence」,探討AI傳感器對病患治療、養老和醫療服務影響,以及使技術更好地服務人類。
  • AI圈八大女性領袖:李飛飛、NVIDIA工程副總等在列
    李飛飛於1976年出生於北京,16歲隨父母移居美國新澤西州。2007年,李飛飛作為普林斯頓一位年輕的教授,設想並牽頭做了一個名為ImageNet的項目,這是一個改變了整個AI發展軌道的含有幾百萬圖片的數據集。ImageNet中的先見之明就是海量的數據集,勝過其中的特別的算法,成為釋放AI潛力的鑰匙。
  • 阿里雲資料庫專家德歌告訴你PostgreSQL的那些事
    阿里雲資料庫專家德歌告訴你PostgreSQL的那些事 什麼是雲棲神俠傳:雲棲社區(https://yq.aliyun.com
  • DTCC 2020 | 阿里雲葉正盛:資料庫2025
    在介紹資料庫2025的規劃之前,首先回顧一下資料庫的發展歷程。資料庫的發展離不開計算機基礎設施的發展,因此可以將資料庫的發展分為五個階段。雲是資料庫最重要的發展方向右圖是亞馬遜AWS、微軟Azure、谷歌雲以及阿里雲的自研雲原生資料庫全部統計數據,可以發現雲原生數據發展非常快。無論是從技術上還是生產上,雲原生資料庫代表著一種新的生產力。資料庫支持多雲部署是最重要的戰略方向
  • 李飛飛要從 Google 離開 ?官方已經給出回應
    作為人工智慧學界的一位知名專家,李飛飛在 2016 年 11 月加入到 Google 之後,很快就成為這家搜索巨頭在人工智慧領域的一個重要標籤;不過現在卻傳出她將要離開 Google 的消息。這一消息出自於外媒 The Information。
  • 李飛飛領銜!16位跨學科大牛談AI的下個十年乾貨
    AI we can trust),共持續了三個多小時。演講主題匯總:https://montrealartificialintelligence.com/aidebate2/readings.pdf辯論視頻:https://montrealartificialintelligence.com/aidebate2/一、李飛飛:與環境交互是下一顆AI「北極星」作為首位發言嘉賓,史丹福大學教授李飛飛提到了
  • 李飛飛團隊八年心血換一篇《自然》重磅:用AI照亮醫療的「黑暗空間」
    李飛飛團隊又放了個大招。昨天,李的博士生 Albert Haque 、斯坦福醫學院教授 Arnold Milstein 和李飛飛共同署名的一篇人工智慧/環境智能-醫療的跨界文章,在頂級學術期刊《自然》上刊登。
  • DB-Engines:2017年1月全球資料庫排名TOP 20 | 網際網路數據資訊網...
    總體來說,去年MySQL、SQLServer、PostgreSQL、MongoDB、Redis、 Elasticsearch 都是市場大贏家,在自家的地盤都發展得非常不錯。而Oracle、DB2、Access、Sybase幾家都比較悲催,活躍度在不停下滑。上圖是2013年以來幾大主流資料庫排名變化整體趨勢。
  • 李飛飛確認將離職 網友:現在去當老師很流行嗎?
    李飛飛將回到史丹福大學擔任教授,同時繼續保留谷歌雲的AI/ML顧問。資料圖 李飛飛 新華社記者林善傳攝對於離開谷歌回歸斯坦福的舉動,李飛飛表示,「我在產業工作所學到的知識將進一步加強學術界和產業界的合作,我期待與Andrew和谷歌雲AI團隊繼續密切合作。」今年6月,就有消息曝出,李飛飛將從谷歌離職,原因似乎與谷歌為美國國防部製造AI武器的郵件洩漏有關。
  • 李飛飛團隊抗疫新招:發布AI家用系統,跟蹤新冠體徵,同時保障隱私
    值得一提的是,李飛飛強調,這個系統在追蹤健康同時也注重保護隱私。它的目的是讓許多獨居的老年人可以得到醫療照顧,在新型冠狀病毒肺炎大流行期間照顧老年人的困難在於,既要減少他們與他人的接觸,又要考慮到對他們的照顧。該系統旨在解決跟蹤老年人健康狀況而不面臨接觸風險,還將允許護理人員遠程監測老年人的基本健康狀況。
  • 吳恩達、李飛飛、沈向洋:2021年的人工智慧會是這個樣子
    在今年的最後一天,吳恩達邀請了沈向洋、李飛飛等人工智慧的頂級學者,讓大牛們對 2021 年的 AI 技術發展進行了一次展望。在人才不斷流向業界、常規架構算力進入瓶頸期的今天,作為一名從業者應該看到什麼?他們是這樣說的……新的一年近在咫尺,吳恩達分享了自己對人工智慧在接下來一年中發展的三個願望:縮短概念證明與生產之間的差距。
  • 李飛飛等16位頂級科學家在AI Debate 2上的AI之辯
    兩位重量級的專家為全球的觀眾帶來了一場精彩的 AI 辯論,就推理、神經網絡、深度學習等領域展開討論,而這也激發了人們對於深度學習需要什麼先天知識、量子計算是否會改變人工智慧等方面的思考,對推動 AI 的普及和發展,意義非凡。那麼,今年的 AI Debate 上,各位大佬們又有哪些精彩討論呢?整體而言,本屆 AI Debate 活動歷時 4 小時,分三個討論小組進行。
  • 2021年重要的機器學習和A人工智慧的發展趨勢
    2021年重要的機器學習和A人工智慧的發展趨勢 Priya Dialani 發表於 2020-12-03 14:41:33 機器學習如今已經成為一種眾所周知的創新技術
  • 阿里雲生態建設進入新紀元,做強生態,擁抱新基建
    在2020年這個特殊的年份,2020阿里雲合作夥伴「雲上相聚」,在線觀影的方式依然備受歡迎,除了聚集上千名科學家、技術大咖和國內外知名企業領軍人之外,還有超過一萬名開發者以在線編程的方式參與到大會當中,吸引了近百傢伙伴企業聯合推出近萬個技術崗位。
  • 阿里雲聯手微鏈打造「新零售賽道明星」開班,阿里雲智能副總裁...
    2019年年初,阿里雲首次提出「被集成」戰略,據悉報導,截止到2020年6月,阿里雲與合作夥伴已發布500多款聯合解決方案,覆蓋30多個重點細分行業。顯而易見,「被集成」與「做強生態」一脈相承。阿里發展多年,積累了在電子商務、數字娛樂、本地生活等商業模式上的創新;同時在支付與金融服務、智慧物流、全域營銷、雲計算等領域,也做了科技創新上的硬核產品。在這個二十年的高速發展過程裡,我們也與市場裡大量的生態合作夥伴一起配合,共同繁榮市場,攜手創新。而在雲時代,阿里雲也已形成了新的雲上生態,雲原生、數據原生、雲產業網際網路等都有全新機會。
  • AI下一個十年走向,李飛飛等16位頂級科學家AI Debate 2激情辯論
    、熱點問題和未來的發展方向。兩位重量級的專家為全球的觀眾帶來了一場精彩的 AI 辯論,就推理、神經網絡、深度學習等領域展開討論,而這也激發了人們對於深度學習需要什麼先天知識、量子計算是否會改變人工智慧等方面的思考,對推動 AI 的普及和發展,意義非凡。  那麼,今年的 AI Debate 上,各位大佬們又有哪些精彩討論呢?