雲原生、存算一體、持久化,阿里雲內存資料庫Tair出世不凡

2020-12-24 至頂網

(文/鄒大斌 )2020年「雙十一」已經落幕。數據顯示,11 月 1 日至 11 日天貓「雙十一」訂單創建峰值達58.3 萬筆/秒,11月1日0點-11日零時30分,天貓成交額破3723億元,雙雙再創新高。阿里天貓系統再次通過這場一年一度的「大考」。

在每年的「大考」中,是否能平穩地應對訂單高峰時的流量,系統不崩潰、用戶體驗不下降,是通過「考試」的關鍵,為此,阿里的技術人員一直持續不斷地研發技術、打磨產品,雲原生內存資料庫Tair就是其中最關鍵的產品之一。從2009年Tair首次應用在淘寶核心業務系統,至今已經連續11年為阿里「雙十一」提供了核心的在線訪問加速能力,承受住了最高每秒15億次的調用,是天貓「雙十一」的一大功臣。

今年年初,這個在阿里集團內部服務多年,歷經天貓「雙十一」、優酷春晚、菜鳥、高德等業務場景磨練的產品被阿里雲正式對外推出。儘管在內存資料庫市場Tair才入場,但經過阿里連續11年「雙十一」歷練的Tair註定與眾不同,其雲原生加持下的存儲一體、結合英特爾傲騰提供的持久化能力等等,使得Tair一出場就成為業界的焦點。

數據處理新趨勢:實時、海量、低成本

今天的我們已經進入一個大數據時代,數據規模一直在快速增長。來自研究機構的數據顯示,到2025年數據規模將是今年的4倍。與此同時,實時數據的處理佔比會越來越高。據預測,到2022年50%以上的業務需要採用實時處理數據方法來支撐業務的在線化運營。另外,新增數據中非結構性數據佔比會大大提升,佔比將會高達80%以上,同比增速超過50%。

應對這些以非結構化數據為主、實時在線的數據處理需求,傳統資料庫明顯力不從心,而內存資料庫成為越來越多人的選擇。近幾年,隨著內存價格持續走低,以Redis、Memcache為代表的內存資料庫迅速普及。據Verified Market Research在2020年發布的市場研究報告顯示,全球內存資料庫市場將以19.65%的複合年增長率增長。

不過,市場上現存的這些內存數據並沒有充分滿足企業的需求,主要體現在以下方面:

首先是成本,在所有存儲介質中內存是最貴的,內存的成本是用戶選擇內存資料庫首要的考慮條件,昂貴的內存成本也限制了內存資料庫的普及。

其次是彈性。市場上現有的內存資料庫產品普遍彈性不足,只能基於事先設好的參數值擴容,而無法根據業務的波峰、波谷的變化實時調整內存大小。

第三,計算能力不夠豐富。大多數內存資料庫數據模型以KV或者關係型為主,在非結構化數據佔比將達到80%以上的今天,人們希望其能提供更加豐富的計算能力,如向量分析、向量處理、圖數據類型臨近點分析等處理。

第四是企業級的能力。內存資料庫除了能提供傳統緩存提供的數據訪問加速能力之外,還希望能夠提供持久化、智能分層存儲以及熱點打散等功能,這些都是企業級應用需要的關鍵能力。

值得高興的是,隨著技術的不斷進步,特別是雲計算以及新一代存儲技術的出現,內存資料庫面臨的這些挑戰正在逐步得到解決,新一代的內存資料庫也應運而生,阿里雲推出的雲原生內存資料庫Tair正是這樣的一個產品。

「內存資料庫正進入了新的階段,雲原生、持久化、融合計算是三大特徵。」 阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部總經理、高級研究員李飛飛表示。

阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部總經理、高級研究員李飛飛

雲原生加持的內存資料庫Tair

阿里雲推出的雲原生內存資料庫Tair是阿里自研的一個完全兼容Redis協議的 KVS 緩存系統。Tair誕生於2009年,最早應用於淘寶核心業務系統,隨後逐漸進入阿里其他核心業務系統,經過多年持續不斷的打磨、完善和改進,如今已經演進到Tair 3.0。Tair也被阿里雲稱為Redis企業版。部分原因在於其最早的設計思路來自Redis,很多功能設計也參考了Redis,但更為重要的原因是,它完全兼容Redis的數據結構和接口API,原來採用Redis的應用可以無縫遷移到Tair。

當然,作為新一代內存資料庫的代表,Tair已經超過了Redis,實現了從緩存到一個真正內存資料庫的角色轉變,越來越多核心應用除了使用Tair的緩存模式之外,也使用Tair作為數據的持久化存儲方案。

在阿里雲Tair實現從數據緩存到真正的內存資料庫的角色轉變過程中,存儲技術的進步發揮了重要作用,特別是英特爾傲騰技術。英特爾的傲騰是近幾年來存儲介質的一次重大突破,傲騰數據中心級持久內存(AEP)通過3DXpoint技術實現了存儲介質在性能和成本上平衡,既提供了接近DRAM的訪問速度,同時還具有非易失性存儲的能力。

基於傲騰數據中心級持久內存,Tair通過軟硬結合實現了成本、性能和功能上的突破。目前,針對用戶對訪問延時、持久化、整體成本這三個核心需求,基於DRAM、AEP和ESSD雲盤存儲介質,Tair推出了多種不同形態的產品,通過為用戶提供更強的性能、更多的數據結構和更靈活的存儲方式,來滿足不同場景下的業務需求。

軟硬一體實現突破

「結合傲騰AEP的特性,通過軟硬體的融合,Tair在成本、彈性、計算和企業級能力上都實現了突破。」李飛飛在接受記者採訪時表示。

首先在成本上,得益於新技術的應用使得TCO有明顯下降。比如,Tair的持久內存型形態單實例成本對比Redis社區版最高可降低30%,而容量存儲型形態的單實例成本對比Redis社區版最高可降低85%。而且,數據持久化不依賴傳統磁碟,保證每個操作持久化的同時提供近乎Redis社區版的吞吐和延時,極大提升業務數據可靠性。

其次,在彈性上,Tair通過計算和存儲的解耦以及存儲的池化,實現了無損的縮擴容,用戶可以根據業務訪問的波峰波谷動態、彈性地用一個池化的內存池提供無縫彈性,這就避免了用戶為峰值「買單」,幫助用戶節約的成本。

「如果在沒有存儲和計算解耦,沒有存儲池化能力,內存的容量一定要按照業務峰值進行匹配,否則在峰值的時候就會出現內存被擊穿,資料庫被湧來的請求衝垮。而在傳統架構下,內存資料庫必須按照峰值容量部署,因此使用成本一定高。」李飛飛解釋說。

第三,計算模型上,Tair提供了非常豐富的功能,能支持圖計算、文本計算、圖片計算等。

最後,也是非常關鍵的企業級能力,這也是Tair的一大優勢所在。Tair提供了全分布式的能力、數據閃回的能力、數據洞察的能力、熱點打散的能力,以及智能數據分層存儲能力等。

比如,Tair可以跨多個可用區(AZ)部署和容災,不同AZ的數據可以自動實時同步,並且多點進行讀取,從而實現對就近內存數據的訪問。Tair的這種分布式能力對在線教育、娛樂、遊戲、出海業務等業務非常關鍵,南瓜電影就使用了阿里雲內存資料庫Tair的企業級功能,實現了數據多地域同步,為3000萬終端用戶帶去了更極致的體驗。

另外,熱點打散也是Tair的一項非常關鍵的能力。在視頻直播可能會有突然爆發的情況,而這些很難預測也無法做足預案,如果熱點來了應對不好很容易把緩存擊穿,通過Tair實時熱點打散能力就可以從容應對這種突發的狀況。

雲計算是最重要推手

回顧這些年資料庫進步的演進,李飛飛表示,一個明顯的趨勢是大數據與資料庫正在融合,其邊界變得越來越模糊,同時離線、在線邊界也變得越來越模糊,因為人們希望將數據處理一體化,數據處理實時在線化。而這背後最大的推手就是雲計算。

李飛飛解釋說,雲計算本質是資源池化。「通過資源的池化、存儲與計算分離、計算資源隔離這些雲計算的能力,同時結合如傲騰這樣的最新硬體技術,再和分布式資料庫技術融合起來,我們研發出了Tair這樣的新一代資料庫系統。」李飛飛說。

的確,雲原生資料庫已經成為行業發展趨勢。Gartner在去年發布的名為《The Future of the Database Management System (DBMS) Market Is Cloud》的報告中就明確提出,傳統的自己部署資料庫的方式已經過時。雲是未來,所有組織,無論大小,都將越來越多地使用雲資料庫。而阿里云云資料庫產品的推出也正是順應了這一趨勢。

值得一提的是,阿里雲在雲計算方面的整體技術實力為阿里雲資料庫產品性能提供了重要支持,確保其有著更好的性能表現。神龍架構就是一個很好的例子。神龍架構是阿里云為提升雲平臺整體性能而研發的新一代計算平臺,目前已經發布了第三代。在神龍架構中,阿里雲研發了專用的晶片、定製的專用主板,開發了專用的MOC卡,甚至開發了整套配套的軟體——從BIOS到應用層支撐軟體,再到整體調度軟體等一整套複雜的系統。其最終結果是,實現了全面支持ECS虛擬機、裸金屬、雲原生容器等,在IOPS、PPS等方面提升5倍性能,在雲上能獲得物理機100%的計算能力。

「這種基礎架構級的改進可以為上層的軟體提供直接的性能提升,很少或者幾乎不用做任何改動。」阿里雲智能基礎產品事業部技術戰略總監陳旭在接受記者採訪時表示。

正是憑藉阿里雲自身在雲計算方面的深厚技術,以及阿里集團獨一無二的「雙十一」這個獨特的練兵場,使得阿里雲在資料庫市場一年一個臺階,逐漸從一個市場的參與者變成了市場的領先者。

在今年11月份Gartner公布的2020年度全球資料庫魔力象限評估中,阿里雲首次挺進全球資料庫第一陣營——領導者象限,這也是中國資料庫40年來首次進入全球頂級資料庫行列,標誌著國產資料庫正式進入一線行列。另外,根據IDC的數據,在公有雲市場阿里雲在雲資料庫賽道上營收已經位居全球第三,而就整個資料庫市場而言,在中國市場份額阿里雲位居榜首。

展望未來,李飛飛表示,Tair會持續在成本、彈性、計算、企業級方面發力,重點是雲原生、軟硬體技術結合、數據存儲和計算一體化等核心能力。

「我們對雲原生內存資料庫接下來的布局是,通過池化的內存存儲來提供多種計算模型和計算能力的支撐,實現存儲計算在內存層面真正的一體化。」李飛飛說。

相關焦點

  • 飛刀:雲原生內存資料庫解鎖存算一體
    「內存資料庫進入了新階段,雲原生,持久化,融合計算是三大特徵」,12月13號,阿里雲資料庫負責人李飛飛在雲內存資料庫峰會上表示,經過多年阿里巴巴經濟體內應用的驗證,今年年初上線的阿里雲內存資料庫Tair進入大規模分享技術和硬體紅利給雲上用戶的階段。
  • 飛刀:讓數據實時在線 雲原生內存資料庫時代到來
    「內存資料庫進入了新階段,雲原生,持久化,融合計算是三大特徵」,12月13號,阿里雲資料庫負責人李飛飛在雲內存資料庫峰會上表示,經過多年阿里巴巴經濟體內應用的驗證,今年年初上線的阿里雲內存資料庫Tair進入大規模分享技術和硬體紅利給雲上用戶的階段
  • 一文讀懂內存資料庫
    隨著雲上環境的成熟,Tair基於AEP,全新研發了數據持久落地的自研引擎,並融入神龍裸金屬伺服器和雲原生資料庫管理系統的技術優勢。整體能力上,獲得了近似內存的性能,90%的吞吐能力,而成本降低了30%。同時,從內存的易失性到AEP的持久能力,Tair自研引擎的每個操作都能持久化,大幅降低數據丟失的風險。
  • 阿里雲Tair究竟何方神聖?
    近期,Gartner公布了2020年度全球雲資料庫魔力象限評估結果,阿里雲表現極為亮眼,首次挺進全球雲資料庫第一陣營——領導者(LEADERS)象限,這也是中國資料庫40年來首次進入全球頂級資料庫行列。  在雲資料庫賽道上,其營收已經躍居全球第三,在中國市場份額也首次超過了Oracle。
  • 揭秘阿里自研分布式緩存系統 Tair
    阿里妹導讀:本文以雙11面臨的挑戰為背景,從Tair(阿里自研高速緩存系統)發展和應用開始談起,重點分享了性能優化方面的實踐,最後對緩存熱點難題給出了解決方案,希望能對大家的工作有所啟發。本文作者為宗岱,阿里巴巴資深技術專家,2008年加入淘寶,阿里分布式緩存、NoSQL資料庫Tair和Tengine負責人。
  • 【線下首場免費報名啦】阿里雲2020雲內存資料庫峰會 年度開發者的...
    為了讓更多開發者解決應用面對的困惑,感受雲內存資料庫的使用之美。阿里雲首場線下雲內存資料庫峰會即將亮相北京,本屆峰會以「實時在線、數智未來」為主題,聚焦雲原生內存資料庫的技術與理論,凝聚行業界、學術界領袖大咖,知名企業技術leader和開發者,資深媒體等共議雲原生內存資料庫的趨勢發展和實踐,並且還將震撼發布雲內存資料庫白皮書,與廣大業內人士共同定義未來5年的雲內存資料庫的發展新思路。
  • 阿里雲發布多款雲原生資料庫產品
    原標題:阿里雲發布多款雲原生資料庫產品   近日,阿里雲旗下推出雲原生
  • 第二屆資料庫挑戰賽閉幕,選撥內存資料庫明日之星
    由阿里雲和英特爾聯合主辦的第二屆資料庫大賽—Tair性能挑戰賽於12月13日落幕並舉辦頒獎典禮。經過125天的層層評選,最終決出了6支優秀團隊分別獲得了冠亞季軍,其中美國的資料庫領域自由職業者金星獲得本次比賽冠軍。Tair是阿里雲自研的雲原生內存資料庫,專注於多數據結構的緩存與高速存儲場景,接口兼容開源Redis/Memcache。
  • 進入雲原生、分布式的時代,什麼才是資料庫的正確打開方式
    「在這個前提下,我們認為在雲原生的時代,資料庫的設計和資料庫的理念都將發生本質性的變化。」李飛飛這樣講道。 作為前沿技術的創新者和引領者,阿里巴巴自然不會坐失機遇。可以看到,阿里巴巴首次在行業內提出了雲原生分布式資料庫的概念。
  • 阿里雲全面布局雲原生資料庫產品體系,點亮企業數據上雲之路
    【天極網IT新聞頻道】9月18日雲棲大會,阿里雲智能資料庫產品事業部負責人、達摩院資料庫與存儲實驗室負責人、阿里巴巴集團副總裁李飛飛正式推出雲原生分布式資料庫PolarDB-X、雲原生數據倉庫AnalyticDB、雲原生數據湖分析Data Lake Analytics(DLA)、雲原生多模資料庫Lindorm等多款產品的發布與升級。
  • 阿里雲發布雲資料庫Redis企業版(Tair)系列及專屬主機組服務
    最快緩存,Redis 企業版(Tair)性能增強系列Redis 企業版(Tair)是阿里內部自研的完全兼容 Redis 協議的 KVS 緩存系統,幾乎涵蓋了淘寶、天貓、阿里媽媽、菜鳥、釘釘、優酷、高德等阿里巴巴所有核心業務。十多年來,始終如一為阿里業務提供著高可靠、高性能、低成本的數據存儲與訪問服務。
  • 2020年阿里云云原生市場現狀與發展趨勢分析 雲原生促阿里雙11訂單...
    阿里云云原生構建目標明確,未來阿里云云原生發展可期。雲原生促阿里訂單峰值創新高2020天貓雙11狂歡季成交額為4982億,同比增長26%,再次創下新高。阿里雲創建訂單峰值也較上一年繼續提升,達到58.3萬筆/秒,下單體驗更為流暢,除了其周期放長原因之外,其背後的雲原生技術功不可沒。
  • 共話實戰 深剖企業那些年為何如此青睞雲原生
    作為一家典型的「生於雲、長於雲、爆發於雲」的創業公司,玩物得志的雲原生之路,為更多想要藉助雲原生技術實現自身業務高速發展的初創公司,帶來很大的借鑑價值。雲原生加速數字創新升級2020年,雲原生的關注度依然居高不下,越來越多的開發者熱衷於雲原生技術、越來越多的企業開始探索雲原生架構轉型落地。
  • 阿里雲李飛飛:傳統資料庫步履蹣跚,未來的機會在哪裡?
    隨著資源池化,雲原生架構可以提供更好的彈性,並且易於靈活擴展。這也是新的雲原生方向的初創公司激增的原因。以前你要承受固定成本和綁定資源,但是今天你能夠以靈活成本的方式使用資源池。如果你的應用在雲上,你不但可實現高可用,並且停機時間為零。現在說回雲原生資料庫。
  • 對話阿里達摩院李飛飛:3次涅槃,阿里資料庫的自研路
    自此,傳統商業資料庫幾乎成為這些企業的專利,壟斷了整個資料庫行業市場。誰來改變資料庫「遊戲規則」?興起於2000年左右的開源資料庫是一種改變遊戲規則的嘗試,而由雲廠商主導的雲原生資料庫則是將這種「改變」推向了高潮。
  • 加速企業數位化創新 阿里雲宣布成立雲原生實戰聯盟
    阿里云云原生應用平臺負責人丁宇新冠疫情期間,雲計算向市場證明了自身價值,如何充分挖掘雲紅利成為企業搶灘數字創新的當務之急。阿里雲資料庫產品事業部總經理佔超群表示,"阿里雲企業級資料庫系統全面雲原生化,加速數據處理向分布式、資料庫與大數據一體化、在離線一體化演進,一站式解決數據生產、存儲、分析、消費的全鏈路用戶需求。利用雲原生資料庫技術和產品體系,助力業務進行數智化創新更實時在線、更全局、更簡單、更敏捷。
  • 阿里雲宣布推出業內首個雲原生企業級數據湖解決方案
    據悉,阿里云云原生企業級數據湖解決方案採用了存儲計算分離架構,基於阿里雲對象存儲OSS構建,並與阿里雲數據湖分析Data Lake Analytics(DLA)、數據湖構建Data Lake Formation(DLF)、E-MapReduce(EMR)等計算引擎無縫對接,兼容豐富的開源計算引擎生態,可滿足大數據系統統一存儲、海量數據規模。
  • 大數據入門:Spark持久化存儲策略
    所謂的Spark持久化存儲,就是將一個RDD持久化到內存或磁碟中,以便重用該RDD,省去重新計算的環節,以空間換時間。這樣的執行流程,不免遇到重複計算,理論上來說造成了計算過程當中更多資源的佔用,持久化機制就是避免重複計算帶來的開銷而設計的。 Spark提供了persist和cache兩個持久化函數,其中cache將RDD持久化到內存中,而persist則支持多種存儲級別。兩個持久化方法的主要區別是:cache()方法默認使用的是內存級別,其底層調用的是persist()方法。
  • 騰訊雲首次發布企業雲原生路線圖
    原標題:騰訊雲首次發布企業雲原生路線圖   「
  • 看看久經考驗的Redis企業版(Tair)吧
    Tair和RedisTair團隊是阿里集團最核心的團隊之一,負責整個阿里的緩存和高速存儲體系。MemCache/Redis/圖資料庫GDB都是Tair團隊將阿里內部成熟的產品孵化到雲上,服務公有雲和專有雲客戶。雲Redis企業版就是Tair3.0。