摘要:隨著工業網際網路時代的到來,資料庫這門已經具有接近五十年歷史的學科又綻放出新的生命活力,其中扮演著重要角色的NoSQL資料庫也出現了更多的發展趨勢。在第十一屆中國資料庫技術大會(DTCC2020)上,阿里雲資深產品專家朱潔為大家介紹了NoSQL資料庫業界最新趨勢以及阿里雲NoSQL技術的創新實踐和阿里雲NoSQL生態開放實踐。
本文內容根據演講錄音以及PPT整理而成。
嘉賓簡介:
朱潔(花名:所在),阿里雲資深產品專家,目前負責阿里雲的RDS和NoSQL資料庫產品。
本次分享的內容主要包括以下三個方面:
NoSQL資料庫業界新趨勢阿里雲NoSQL技術創新實踐阿里雲NoSQL生態開放實踐NoSQL資料庫業界新趨勢
資料庫發展歷程
首先,簡單回顧一下資料庫的發展歷程。其實,資料庫是一個具有非常悠久歷史的行業。從上世紀五十年代開始資料庫技術就開始啟蒙,但是一般通用說法是從上世紀70年代關係模型誕生起算,因此資料庫的誕生到現在也有接近五十年的歷史了,而資料庫一直在技術、業務以及應用場景等方面不停地演進和發展。比如上世紀九十年代,針對個人辦公、個人娛樂以及企業信息化的場景,基於X86伺服器誕生了像SQL Server、PG這些非常著名的資料庫。今天所要分享的NoSQL資料庫則是在2000年左右隨著整個網際網路的發展和推動而誕生的。網際網路業務的發展催生了非常著名的關係型資料庫MySQL,也出現了像MongoDB、Redis這樣的NoSQL資料庫,其解決的是傳統關係型資料庫所遇到的一系列性能、成本、可擴展性等問題。最後是2015年左右,隨著雲計算時代的發展,在資料庫領域也出現了一些新的變革,在國際上AWS發展非常強勢,在國內,阿里雲提供了TP/AP/NoSQL/工具整個體系的雲原生資料庫產品,典型的如PolarDB和ADB等。
資料庫處在投資風口
在計算機技術中,具有超過十年歷史的行業就已經是非常非常古老的了,資料庫這個行業已經接近五十年的歷史,甚至可以用「恐龍」來形容,但是非常有意思的是資料庫技術還是非常具有生命力的。上圖中簡單列舉了幾個最近國內外資料庫領域較大的投融資事件,可以發現資料庫行業非但沒有日薄西山,而是越來越成為投資風口。國內的達夢、Oceanbase、人大金倉、偶數、PingCAP都具有不錯的發展,而在國際上,Snowflake上市並且市值超過了1千億美元,這代表了資料庫業務到了重新煥發新生的地步。
雲資料庫新賽道實現中國軟體行業新突破
對於資料庫而言,雲計算是其發展的一個重要的新賽道。Gartner做了一個非常樂觀的預測,那就是在2022年預計有75%的資料庫都在雲上,而目前來看這一預測正在逐漸成為現實。而在2020年,阿里雲資料庫正式進入Gartner魔力四象限中的Leader象限,這不僅僅是阿里雲的突破,更是整個中國軟體行業在近四十年的歷史中第一次進入Leader象限,這是前所未有的。大家都知道,我們國家的軟體行業相比歐美發展要相對落後,因為起步較晚,而阿里雲資料庫能夠走到這樣的位置,其核心還是依靠雲計算這個新賽道,也代表了中國軟體行業出現新的突破,這是裡程碑式的事件。
硬體快速變遷驅動數據技術發展
另一方面,硬體的快速變遷也在驅動著資料庫技術的發展。其實,硬體和軟體是相輔相成的,硬體的快速發展推動著軟體不斷變革自身技術架構,而軟體則通過不斷更新迭代從而充分地將硬體資源使用起來,從而更好更快地支持業務發展。比如NoSQL資料庫做了很多事情去改變其組織模型和數據組織結構,都是為了解決像磁碟、CPU的使用率問題,將硬體資源更高效地組織起來。以前是CPU和磁碟,最近幾年在內存方面則有幾個非常重要的趨勢,首先內存的成本下降非常快;其次單機容量大規模提升,現在基本一臺單機伺服器達到幾百GB甚至1TB成為家常便飯;最後就是非易失內存技術的快速發展。應該說這些趨勢不是一個新聞,但是今年發生一個非常大的變化,就是這些技術開始真正實際得到應用和大規模商用,我看了下阿里雲持久化存儲的內存資料庫在中國是首家雲服務廠商做到規模商用的。
簡單總結一下,硬體的快速變革驅動了整個資料庫乃至整個軟體產業的發展,近兩年業界非常關注內存方面的變化,而不僅僅是CPU和磁碟了,因此可以說「RAM IS THE NEW DISK」已經不再是一個趨勢,而是成為了現實。
NoSQL相關資料庫概念演進
NoSQL資料庫是由於網際網路業務的誕生而產生的。最早是在2006年的時候,谷歌引入了BigTable,因此後續出現了HBase、Cassandra、MongoDB和Redis,這些資料庫都是由不同的底層數據組織形式去解決不同的問題。在2010年前後,谷歌又引入了以Spanner為代表的新產品,出現了F1、SequoiaDB、TiDB等NewSQL資料庫,即使用SQL解決應用性問題,也保留了NoSQL的可擴展性問題。而回到今天,會發現這些概念的爭論不再是熱點了,像AWS今年aws re:invent大會全面去講Purpose-build Database,也就是專用資料庫,這不是一個壞事情,也就是說今天驅動數據發展的是場景,我們正在進入一個更加創新,具有更多內涵,更具有深度的深水區。今天,阿里雲資料庫做的比較多的也是將軟硬一體化技術、工業物聯網技術、AI技術等相關的一系列技術,融合應用在資料庫領域,尤其是NoSQL資料庫領域。
NoSQL是資料庫中最活躍的版塊
雖然最近提及「去O」還是比較多的,但是實際上,NoSQL才是整個資料庫領域中最活躍的版塊。根據Gartner的報告,在2019年全球資料庫市場大約是552億美金,同比增長只有15.2%,而NoSQL同比增長卻達到了51.7%,因此NoSQL才是整個資料庫領域真正的市場增長引擎。在NoSQL版塊中,業務在蓬勃發展,技術也在不斷創新和變革。總結而言,對於NoSQL領域的技術人員而言,將遇到一個非常好的歷史機遇,NoSQL處在投資風口,硬體變革,新的業務思路疊加的好時代。這對於相關的創業者而言也是非常好的機遇,如果你正在從事NoSQL相關板塊的業務,將會有足夠多的空間大展拳腳。
阿里雲NoSQL技術創新實踐
接下來將為大家介紹在NoSQL這個資料庫領域最為活躍的版塊,阿里雲在過去的一年裡做了哪些技術創新實踐。
創新突破縱深場景
過去的一年中,阿里雲在NoSQL領域創新突破的縱深場景主要有四個方面。首先,在軟硬體結合方面,阿里雲今年發布的Tair雲原生內存資料庫裡面,做了大量軟硬體結合的工作;其次,在圖+AI一站式智能化平臺方面,阿里雲在圖資料庫GDB方面做了很多嘗試,在AI方面也做了很多事情;再次,在雲原生多模方面,面向未來工業網際網路時代,阿里雲發布了創新的多模資料庫;最後,阿里雲看到未來75%的資料庫都會在雲上,除了原來的創業公司之外,還有很多大公司需要上雲,針對於他們的需求,阿里雲實現了創新的MyBase新形態資料庫,針對於中大型客戶,解決了其資料庫上雲自主可控、靈活專屬的核心訴求。總而言之,阿里雲希望通過創新突破這些縱深場景,並為客戶帶來更多的使用價值。
內存資料庫的雲原生時代
如上圖所示的是阿里雲的雲原生內存資料庫Tair的大致架構。Tair是經過阿里巴巴內部長達十多年的錘鍊,自研的雲原生內存資料庫,其主要解決客戶的數據實時在線、系統加速以及高頻高吞吐處理的訴求。Tair資料庫具有幾個特點,第一,其完全兼容社區的Redis資料庫;第二,其通過擴展內存具有高性能持久存儲的能力,包括支持SSD版本,也支持非易失性內存版本;因為Tair資料庫位於雲上,因此其與雲上數據打通是非常方便的,同時能夠無縫的搭配雲上數據管理工具,幫助客戶支持遊戲、電商、政務等大型業務。
軟硬體結合,擴展新場景
阿里雲再非易失性存儲上其實有非常長時間的布局,在過去一年中,阿里雲所作的非常重要的事情就是讓這個內部技術商用化,雖然很多企業也在研究這方面技術,但是實現真正商用,阿里雲是國內第一家。阿里雲的Tair內存資料庫的底層基於神龍裸金屬實例和傲騰持久內存,通過這些硬體的特性,使得Tair既具備了內存的低時延又具有SSD的存儲容量和成本兼顧的能力。阿里雲Tair不僅僅是將軟硬體結合起來實現技術上的突破,而且更重要的是將之前利用率不高的場景進行了優化和處理。通過軟硬體結合,也成功拓展了一些新的場景,典型的包括計算中間數據對性能要求很高的場景;遊戲、直播、數據分析中大數據結果集對外提供查詢服務的場景以及高性能實時在線數據訪問等場景。通過新的介質以及原有雲上資料庫的一些關鍵能力,比如彈性擴容,在做到內存性能差不多的情況下將成本降低了60%以上。
AI算法賦能圖計算,實現圖分析和推理能力
近年來,AI技術的發展也帶動了業界產生非常大的變革。AI與資料庫在很多方面都有結合,本次重點介紹在圖資料庫應用的擴展,其實圖資料庫在業界已經有很多了,比如比較著名的Neo4j,而所謂原圖應用就是指直接通過一種新的數據組織結構去解決原來關係型模型解決不了的問題,比如關聯關係快速查詢等,研發的重點通常是提升查詢性能和導入性能等等,這也是常見的NoSQL資料庫的發展趨勢,比如MongoDB、Redis和HBase等。而在今年阿里雲在此基礎之上做了新的探索,希望通過增加AI能力,為客戶提供AI算法模型的訓練,應用,幫助客戶去方便的構建知識圖譜。除了提升性能,解決查詢問題之外,還能夠直接提供知識和算法模型、決策模型,阿里雲今年將只支持原圖查詢這樣一個簡單的事情擴展到了邏輯分析、推理能力,真正幫客戶提供智能化的解決方案,從而更好的解決整體的業務問題。
最佳實踐的圖資料庫,100+成功應用場景
圖資料庫的能力在阿里巴巴內部得到了非常廣泛的應用和驗證,比如天貓、高德及盒馬等都充分地將圖資料庫的能力應用起來,並實現了商用,除此之外我們的圖資料庫也廣泛地服務於外部客戶,如網際網路商、遊戲、金融等行業的外部客戶,並且積累了超過100個成功場景,應該說圖資料庫的應用場景和範圍變得越來越廣。
中國自主智慧財產權圖資料庫首次入圍
阿里雲的圖資料庫GDB是今年2月份剛商用的,是一個非常年輕的產品,通過AI的結合,成為一個真正能夠端到端解決客戶問題的非常好的產品,並且很快實現了突破。Q4的時候阿里雲圖資料庫作為中國自主智慧財產權的圖資料庫首次入圍Forrester Wave,這個成績作為一個商用不到一年的產品是非常了不起的成績。
多模資料庫理念
接下來分享面向未來工業網際網路和IoT的新的雲原生多模資料庫。重點來介紹下阿里雲對阿里云云原生多模資料庫的理解以及我們做的創新的能力等等。
首先雲原生能力是藉助雲的能力實現彈性伸縮和按需使用,並且具有開放生態;而多模原生能力則是指具備多個垂直引擎,並在此基礎上實現跨模融合和統一訪問的能力。通過以上兩者的能力結合才組成了雲原生多模資料庫,阿里雲再今年發布了Lindorm這個新的雲原生多模資料庫,我們希望打造一個基於客戶需求場景驅動的資料庫,能夠簡單高效地幫助客戶處理業務,並且整體提供了一個開放融合的生態。
Lindorm的多模能力
多模概念已經出現了很長時間了,在DB-Engines上面能看到很多支持多模的資料庫,但是彼此之間卻存在著非常大的區別,大部分業界的資料庫可能只停留在多模第一個階段或者第二個階段,可能能夠支持多種數據類型,或者具有多個垂直引擎,但是做不到跨模融合的能力。而阿里雲Lindorm已經達到了多模的第三階段,實現了跨模融合,並且正在朝著第四個階段,也就是統一訪問,實現模型引擎聯接的階段而努力。雖然業界的很多資料庫都叫多模,但在本質上存在跨代的差別。
雲原生多模資料庫Lindorm——多模態海量存儲能力,物聯網首選資料庫
IDC預測在2025年,全世界生產的163ZB數據中的70ZB來自於物聯網設備,以前講的資料庫的「4個V」指的是網際網路數據的,而如今「4個V」則是指的物聯網設備的數據,總結而言就是數量越來越大,種類越來越多,種類越來越多,價值越來越重。
以前,網際網路數據的價值非常高,因此存儲成本可以不考慮,但是如今面對物聯網設備所產生的數據,如果還是採用原本的存儲方式,將會造成較高的成本,因此需要降低雲存儲成本,讓企業存得起。Lindorm再存儲成本這塊沉澱了全方位的能力,從存儲成本,計算資源的彈性,壓縮算法方面,具體有通過雲盤+OSS混合存儲,配合本地緩衝,保證性能;藉助存儲與計算分離,按照靈活擴展性以及Serverless的資源管理模式,降低用戶的使用門檻,實現雲原生的彈性;通過自適應壓縮算法與智能冷熱溫熱熱度識別,優化存儲成本併兼顧訪問效率,實現智能化壓縮。
此外,在將數據存儲下來之後,要有豐富的處理能力才能發揮數據的價值,這個也是Lindorm多模數據的處理關鍵能力,Lindorm在時序引擎,多種數據模型,數據分析有全面的布局。同時解決物聯網數據的複雜性方面,通過支持多種數據類型,具備寬表、時序、搜索以及文件模型的處理能力,並且100%兼容開源訪問協議,尤其是在時序場景這塊,自研的時序數據引擎實現物聯網的時序高吞吐、高壓縮、多維聚合等時序處理;除此之外還可以與阿里雲內部產品做深度融合,比如DLA深度集成,提供強大的數據分析能力。Lindorm希望能夠通過提供高性價比的存儲能力,以及未來面向多模數據存儲的能力,最終在未來物聯網時代使得Lindorm成為首選的資料庫。我們重點打造和沉澱面向物聯網、大數據存儲、交互實時存儲以及數據湖存儲中心等場景的關鍵能力。
全面上雲之後,還需要專屬可控——公共雲上打造專有雲的體驗
Gartner預測,未來75%的資料庫都會上雲,那麼除了創業公司、中小企業之外,接下裡最重要的趨勢就是會有更多的大中型企業上雲。大客戶上雲和中小客戶上雲存在巨大的區別,那就是其業務複雜度、數據複雜度、業務靈活性以及開放性的要求是完全不一樣的。因此,今年阿里雲所作的一件事情就是希望能夠融合託管和自建資料庫的優勢,幫助客戶構建雲資料庫專屬集群MyBase,從而充分釋放技術紅利,讓客戶靈活使用,並且支持多種資料庫。
MyBase具有多種優秀的特點:
第一,專屬獨佔,可以解決全託管服務所有客戶混合部署在一起導致的各種衝突、爭搶、隔離的問題,單個大客戶具備獨佔的伺服器集群,這與傳統的模式具有非常大的區別,幫助客戶實現物理資源的專屬獨佔,又同時滿足了客戶想兼顧分配小實例的訴求。
第二,開放的能力,從底層的物理集群到上層的資料庫的權限全部開放;完全不同於傳統全託管封閉的體系,開放的體系滿足中大客戶更多自主可控的訴求。
第三,以前雲計算廠商提供的伺服器集群各種設置和參數往往是不可以調整的,或者是少量可以調整的。在MyBase專屬集群裡面,給予了客戶充分調整的能力,在專屬模式中,從底層的物理資源到上層的軟體和算法都是專屬的,全部開放給客戶,可以結合自己的業務進行調節和適配,通過資料庫能力和客戶業務的結合,進而實現整體的資源最小化和性能最佳。
此外,MyBase集群是和RDS等相同的內核,因此不會降低服務質量,也就是在公共雲上打造專有雲的服務體驗。這也是未來的非常重要的趨勢,如今大家都需要上雲,那麼需要基於公有雲的資源池降低成本,但是同時也有安全和自主可控的訴求,因此面對新的問題,也就需要新的方案來解決問題,需要能在公有雲上打造專有雲一樣的體驗,阿里雲希望給中大客戶一個全新的體驗。
開放OS權限
在此之中,阿里雲MyBase做了很多關鍵的工作,比如權限的事情,比如開放OS權限並不是那麼簡單的,如果不保證資料庫高可用,其他的事情又有什麼價值呢?所以首要保證資料庫的高可用又能做到深度開放背後是多年的實踐和關鍵技術。
開放這個一小步,對於客戶來說卻是非常有價值的,通過開放,在保留原來所有的運維工作模式的同時,又充分發揮DBA的價值,讓DBA可以繼續及時解決資料庫的問題。此外,原來業務系統中積累了很多的運維管理系統,如何在雲的形態中發揮其原來的作用,這也是非常大的挑戰。通過開放的這種能力,可以將業務各個工具很好的集成進來。此外,不同的系統裡面,靈活性也有了,可以針對實例級別設置資源彈性策略等獨立能力。所以通過開放的能力,一舉解決了中大客戶對自主可控和開放靈活的訴求,這在整個業界的資料庫中是比較大的創新,是以前雲資料庫從來沒有的模式,全球都是首家。
釋放阿里雲資料庫技術紅利——敏捷、開放、低TCO
除了開放之外,技術上阿里雲將自己內部使用各種技術進行了輸出。典型的有超配的能力, 資料庫混部的能力,單個集群裡面小實例管理的能力,實例靈活在線遷移的能力開放給大家,讓客戶享受阿里雲的成熟管理能力和服務。客戶的業務和服務商所提供的能力非常有效的結合才能充分享受技術紅利,達到敏捷、開放和低TCO。
在今年阿里雲集團資料庫上雲也全面採用MyBase的形態,阿里集團的各種電商、支付等等業務應該是再中國最大的資料庫使用者,MyBase這種靈活專屬,自主可控是阿里集團資料庫上雲的最佳實踐,成功經受住了雙十一場景的嚴苛考驗。
自動駕駛專屬資源池
另外我們觀察到,除了靈活專屬、自主可控之外,還會有更多的企業希望能夠實現資料庫的自動駕駛,就像是特斯拉一樣。在大部分場景下,簡單重複的工作,可以通過資料庫的自動駕駛能力釋放資料庫管理的負擔。真正在複雜場景裡面,以及需要和業務緊密貼合的場景,自動駕駛技術確實無法處理的時候,又可以讓人工靈活地介入項目。
當前在DBA常見重複性工作,如主機、實例以及磁碟等自動擴縮容,自動遷移等問題,阿里雲MyBase提供了自動駕駛的專屬資源池,所做的就是像特斯拉這樣,在通用道路場景下解決自動駕駛的問題,在特殊場景下又可以通過人工靈活地調整。
阿里雲NoSQL生態開放實踐
未來75%資料庫都會上雲,雲資料庫為什麼能夠替代傳統資料庫,除了不斷向新的場景中提供新的能力和通過創新帶來新的價值之外,非常核心的一點就是在雲所能夠提供的生態的能力。阿里雲在踐行雲的生態方面持一個非常開放的態度,我們一直希望通過與業界最優秀的廠商合作共同努力一起服務好客戶。
阿里雲獨家支持MongoDB新版本
在去年的10月份阿里雲和MongoDB官方達成了深度的合作,阿里雲是目前唯一能夠提供MongoDB新版本的雲廠商。簡單回顧下MongoDB的版本發展,在4.0版本中支持事務,並向傳統RDS市場滲透;在4.2版本中,支持了分布式事務,並向NewSQL轉型;在4.4版本中,則由用戶驅動實現全面提升,而且其中的一些feature由阿里巴巴和MongoDB官方一起深度合作、聯合開發,而MongoDB的最新版本只能在阿里雲上進行獨家提供。
物聯網、工業網聯網全場景覆蓋
阿里雲除了和類似MongoDB這種資料庫廠商的合作之外,還深入到具體的行業中提供一站式解決方案。在工業網際網路這部分,面對產生的New Data,阿里雲與國內外的廠商一起打造了各種場景解決方案,比如工業生產線IT和OT融合監控中的OSIsoft+Intel、智能樓宇的Honeywell等,提供全場景的方案,這些解決方案已經成功形成能力,並且落地在電力、鋼鐵等等非常大的行業,做到真正讓數據存得起,看得見。我們希望越來越多的優秀的廠商和我們一起合作共贏。
阿里雲NoSQL資料庫的創新和開放
阿里雲NoSQL資料庫在近一年來的創新和開放可以大致總結為以上五個方面,即非易失性存儲的軟硬體結合、AI技術賦能圖資料庫、面向工業網際網路的多模場景、面向中大客戶自主可控的新形態和開放共贏面向new data的生態。
阿里雲NoSQL的核心理念就是創新和開放,我們通過持續創新產品能力,去拓展縱深場景,創新產品形態,解決客戶關鍵的問題;同時我們希望更多的合作夥伴和我們一起共建生態,合作共贏,來共同打造解決方案來使能客戶。
本文為阿里雲原創內容,未經允許不得轉載。