雲原生、存算一體、持久化,阿里雲內存資料庫Tair出世不凡

2020-12-18 至頂網

(文/鄒大斌 )2020年「雙十一」已經落幕。數據顯示,11 月 1 日至 11 日天貓「雙十一」訂單創建峰值達58.3 萬筆/秒,11月1日0點-11日零時30分,天貓成交額破3723億元,雙雙再創新高。阿里天貓系統再次通過這場一年一度的「大考」。

在每年的「大考」中,是否能平穩地應對訂單高峰時的流量,系統不崩潰、用戶體驗不下降,是通過「考試」的關鍵,為此,阿里的技術人員一直持續不斷地研發技術、打磨產品,雲原生內存資料庫Tair就是其中最關鍵的產品之一。從2009年Tair首次應用在淘寶核心業務系統,至今已經連續11年為阿里「雙十一」提供了核心的在線訪問加速能力,承受住了最高每秒15億次的調用,是天貓「雙十一」的一大功臣。

今年年初,這個在阿里集團內部服務多年,歷經天貓「雙十一」、優酷春晚、菜鳥、高德等業務場景磨練的產品被阿里雲正式對外推出。儘管在內存資料庫市場Tair才入場,但經過阿里連續11年「雙十一」歷練的Tair註定與眾不同,其雲原生加持下的存儲一體、結合英特爾傲騰提供的持久化能力等等,使得Tair一出場就成為業界的焦點。

數據處理新趨勢:實時、海量、低成本

今天的我們已經進入一個大數據時代,數據規模一直在快速增長。來自研究機構的數據顯示,到2025年數據規模將是今年的4倍。與此同時,實時數據的處理佔比會越來越高。據預測,到2022年50%以上的業務需要採用實時處理數據方法來支撐業務的在線化運營。另外,新增數據中非結構性數據佔比會大大提升,佔比將會高達80%以上,同比增速超過50%。

應對這些以非結構化數據為主、實時在線的數據處理需求,傳統資料庫明顯力不從心,而內存資料庫成為越來越多人的選擇。近幾年,隨著內存價格持續走低,以Redis、Memcache為代表的內存資料庫迅速普及。據Verified Market Research在2020年發布的市場研究報告顯示,全球內存資料庫市場將以19.65%的複合年增長率增長。

不過,市場上現存的這些內存數據並沒有充分滿足企業的需求,主要體現在以下方面:

首先是成本,在所有存儲介質中內存是最貴的,內存的成本是用戶選擇內存資料庫首要的考慮條件,昂貴的內存成本也限制了內存資料庫的普及。

其次是彈性。市場上現有的內存資料庫產品普遍彈性不足,只能基於事先設好的參數值擴容,而無法根據業務的波峰、波谷的變化實時調整內存大小。

第三,計算能力不夠豐富。大多數內存資料庫數據模型以KV或者關係型為主,在非結構化數據佔比將達到80%以上的今天,人們希望其能提供更加豐富的計算能力,如向量分析、向量處理、圖數據類型臨近點分析等處理。

第四是企業級的能力。內存資料庫除了能提供傳統緩存提供的數據訪問加速能力之外,還希望能夠提供持久化、智能分層存儲以及熱點打散等功能,這些都是企業級應用需要的關鍵能力。

值得高興的是,隨著技術的不斷進步,特別是雲計算以及新一代存儲技術的出現,內存資料庫面臨的這些挑戰正在逐步得到解決,新一代的內存資料庫也應運而生,阿里雲推出的雲原生內存資料庫Tair正是這樣的一個產品。

「內存資料庫正進入了新的階段,雲原生、持久化、融合計算是三大特徵。」 阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部總經理、高級研究員李飛飛表示。

阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部總經理、高級研究員李飛飛

雲原生加持的內存資料庫Tair

阿里雲推出的雲原生內存資料庫Tair是阿里自研的一個完全兼容Redis協議的 KVS 緩存系統。Tair誕生於2009年,最早應用於淘寶核心業務系統,隨後逐漸進入阿里其他核心業務系統,經過多年持續不斷的打磨、完善和改進,如今已經演進到Tair 3.0。Tair也被阿里雲稱為Redis企業版。部分原因在於其最早的設計思路來自Redis,很多功能設計也參考了Redis,但更為重要的原因是,它完全兼容Redis的數據結構和接口API,原來採用Redis的應用可以無縫遷移到Tair。

當然,作為新一代內存資料庫的代表,Tair已經超過了Redis,實現了從緩存到一個真正內存資料庫的角色轉變,越來越多核心應用除了使用Tair的緩存模式之外,也使用Tair作為數據的持久化存儲方案。

在阿里雲Tair實現從數據緩存到真正的內存資料庫的角色轉變過程中,存儲技術的進步發揮了重要作用,特別是英特爾傲騰技術。英特爾的傲騰是近幾年來存儲介質的一次重大突破,傲騰數據中心級持久內存(AEP)通過3DXpoint技術實現了存儲介質在性能和成本上平衡,既提供了接近DRAM的訪問速度,同時還具有非易失性存儲的能力。

基於傲騰數據中心級持久內存,Tair通過軟硬結合實現了成本、性能和功能上的突破。目前,針對用戶對訪問延時、持久化、整體成本這三個核心需求,基於DRAM、AEP和ESSD雲盤存儲介質,Tair推出了多種不同形態的產品,通過為用戶提供更強的性能、更多的數據結構和更靈活的存儲方式,來滿足不同場景下的業務需求。

軟硬一體實現突破

「結合傲騰AEP的特性,通過軟硬體的融合,Tair在成本、彈性、計算和企業級能力上都實現了突破。」李飛飛在接受記者採訪時表示。

首先在成本上,得益於新技術的應用使得TCO有明顯下降。比如,Tair的持久內存型形態單實例成本對比Redis社區版最高可降低30%,而容量存儲型形態的單實例成本對比Redis社區版最高可降低85%。而且,數據持久化不依賴傳統磁碟,保證每個操作持久化的同時提供近乎Redis社區版的吞吐和延時,極大提升業務數據可靠性。

其次,在彈性上,Tair通過計算和存儲的解耦以及存儲的池化,實現了無損的縮擴容,用戶可以根據業務訪問的波峰波谷動態、彈性地用一個池化的內存池提供無縫彈性,這就避免了用戶為峰值「買單」,幫助用戶節約的成本。

「如果在沒有存儲和計算解耦,沒有存儲池化能力,內存的容量一定要按照業務峰值進行匹配,否則在峰值的時候就會出現內存被擊穿,資料庫被湧來的請求衝垮。而在傳統架構下,內存資料庫必須按照峰值容量部署,因此使用成本一定高。」李飛飛解釋說。

第三,計算模型上,Tair提供了非常豐富的功能,能支持圖計算、文本計算、圖片計算等。

最後,也是非常關鍵的企業級能力,這也是Tair的一大優勢所在。Tair提供了全分布式的能力、數據閃回的能力、數據洞察的能力、熱點打散的能力,以及智能數據分層存儲能力等。

比如,Tair可以跨多個可用區(AZ)部署和容災,不同AZ的數據可以自動實時同步,並且多點進行讀取,從而實現對就近內存數據的訪問。Tair的這種分布式能力對在線教育、娛樂、遊戲、出海業務等業務非常關鍵,南瓜電影就使用了阿里雲內存資料庫Tair的企業級功能,實現了數據多地域同步,為3000萬終端用戶帶去了更極致的體驗。

另外,熱點打散也是Tair的一項非常關鍵的能力。在視頻直播可能會有突然爆發的情況,而這些很難預測也無法做足預案,如果熱點來了應對不好很容易把緩存擊穿,通過Tair實時熱點打散能力就可以從容應對這種突發的狀況。

雲計算是最重要推手

回顧這些年資料庫進步的演進,李飛飛表示,一個明顯的趨勢是大數據與資料庫正在融合,其邊界變得越來越模糊,同時離線、在線邊界也變得越來越模糊,因為人們希望將數據處理一體化,數據處理實時在線化。而這背後最大的推手就是雲計算。

李飛飛解釋說,雲計算本質是資源池化。「通過資源的池化、存儲與計算分離、計算資源隔離這些雲計算的能力,同時結合如傲騰這樣的最新硬體技術,再和分布式資料庫技術融合起來,我們研發出了Tair這樣的新一代資料庫系統。」李飛飛說。

的確,雲原生資料庫已經成為行業發展趨勢。Gartner在去年發布的名為《The Future of the Database Management System (DBMS) Market Is Cloud》的報告中就明確提出,傳統的自己部署資料庫的方式已經過時。雲是未來,所有組織,無論大小,都將越來越多地使用雲資料庫。而阿里云云資料庫產品的推出也正是順應了這一趨勢。

值得一提的是,阿里雲在雲計算方面的整體技術實力為阿里雲資料庫產品性能提供了重要支持,確保其有著更好的性能表現。神龍架構就是一個很好的例子。神龍架構是阿里云為提升雲平臺整體性能而研發的新一代計算平臺,目前已經發布了第三代。在神龍架構中,阿里雲研發了專用的晶片、定製的專用主板,開發了專用的MOC卡,甚至開發了整套配套的軟體——從BIOS到應用層支撐軟體,再到整體調度軟體等一整套複雜的系統。其最終結果是,實現了全面支持ECS虛擬機、裸金屬、雲原生容器等,在IOPS、PPS等方面提升5倍性能,在雲上能獲得物理機100%的計算能力。

「這種基礎架構級的改進可以為上層的軟體提供直接的性能提升,很少或者幾乎不用做任何改動。」阿里雲智能基礎產品事業部技術戰略總監陳旭在接受記者採訪時表示。

正是憑藉阿里雲自身在雲計算方面的深厚技術,以及阿里集團獨一無二的「雙十一」這個獨特的練兵場,使得阿里雲在資料庫市場一年一個臺階,逐漸從一個市場的參與者變成了市場的領先者。

在今年11月份Gartner公布的2020年度全球資料庫魔力象限評估中,阿里雲首次挺進全球資料庫第一陣營——領導者象限,這也是中國資料庫40年來首次進入全球頂級資料庫行列,標誌著國產資料庫正式進入一線行列。另外,根據IDC的數據,在公有雲市場阿里雲在雲資料庫賽道上營收已經位居全球第三,而就整個資料庫市場而言,在中國市場份額阿里雲位居榜首。

展望未來,李飛飛表示,Tair會持續在成本、彈性、計算、企業級方面發力,重點是雲原生、軟硬體技術結合、數據存儲和計算一體化等核心能力。

「我們對雲原生內存資料庫接下來的布局是,通過池化的內存存儲來提供多種計算模型和計算能力的支撐,實現存儲計算在內存層面真正的一體化。」李飛飛說。

相關焦點

  • 阿里雲李飛飛:雲原生內存資料庫解鎖存算一體
    「內存資料庫進入了新階段,雲原生,持久化,融合計算是三大特徵」,12月13號,阿里雲資料庫負責人李飛飛在雲內存資料庫峰會上表示,經過多年阿里巴巴經濟體內應用的驗證,今年年初上線的阿里雲內存資料庫Tair進入大規模分享技術和硬體紅利給雲上用戶的階段。
  • 阿里雲2020雲內存資料庫峰會 年度開發者的盛宴!
    為了讓更多開發者解決應用面對的困惑,感受雲內存資料庫的使用之美。阿里雲首場線下雲內存資料庫峰會即將亮相北京,本屆峰會以「實時在線、數智未來」為主題,聚焦雲原生內存資料庫的技術與理論,凝聚行業界、學術界領袖大咖,知名企業技術leader和開發者,資深媒體等共議雲原生內存資料庫的趨勢發展和實踐,並且還將震撼發布雲內存資料庫白皮書,與廣大業內人士共同定義未來5年的雲內存資料庫的發展新思路。
  • 李飛飛推薦,30萬獎金,阿里雲天池平臺發起第二屆資料庫性能大賽!
    大賽聚焦內存資料庫技術,召集全球資料庫技術愛好者挑戰熱點洪峰下的極致性能。比賽現已面向全社會開放,個人參賽或高等院校、科研單位、網際網路企業等人員均可報名參賽。本次大賽將由阿里雲計算有限公司、英特爾(中國)有限公司聯合主辦,中國電子技術標準化研究院作為指導單位,全程有資深技術專家提供技術指導。
  • 第二屆資料庫挑戰賽閉幕,選撥內存資料庫明日之星
    Tair是阿里雲自研的雲原生內存資料庫,專注於多數據結構的緩存與高速存儲場景,接口兼容開源Redis/Memcache。本次大賽以Redis為代表的內存資料庫技術,結合Tair的應用實踐並借力英特爾?傲騰?持久內存技術,挑戰在持久內存上Keyvalue的性能極限。
  • 第二屆資料庫挑戰賽閉幕 選撥內存資料庫明日之星
    原標題:第二屆資料庫挑戰賽閉幕,選撥內存資料庫明日之星   由阿里雲和英特爾
  • 知存科技王紹迪:存算一體AI晶片如何打破「內存牆」困局?
    其創始團隊已在存算一體領域深耕八年,早在2014年就實現了存算一體晶片的流片,並完成了全球第一款存算一體深度學習晶片驗證。成立三年來,知存科技已完成由科大訊飛、中芯聚源、國投創業、啟迪之星等產業資本領投的多輪融資,累計融資近兩億元。演講期間,王紹迪系統解讀了存算一體技術存在的價值、具體實現路徑和適用的落地場景。
  • 阿里雲全面布局雲原生資料庫產品體系,點亮企業數據上雲之路
    9月18日雲棲大會,阿里雲智能資料庫產品事業部負責人、達摩院資料庫與存儲實驗室負責人、阿里巴巴集團副總裁李飛飛正式推出雲原生分布式資料庫PolarDB-X、雲原生數據倉庫AnalyticDB、雲原生數據湖分析Data Lake Analytics(DLA)、雲原生多模資料庫Lindorm等多款產品的發布與升級。
  • 第二屆資料庫大賽落幕,全球開發者共同挑戰持久內存上的性能極限
    Tair是阿里雲自研的雲原生內存資料庫,專注於多數據結構的緩存與高速存儲場景,接口兼容開源Redis/Memcache。本次大賽以Redis為代表的內存資料庫技術,結合Tair的應用實踐並借力英特爾®傲騰™持久內存技術,挑戰在持久內存上Keyvalue的性能極限。
  • 共話實戰 深剖企業那些年為何如此青睞雲原生
    玩物得志 CTO 張淼表示,「玩物得志是一家得益於雲原生技術和產品的非常典型的快速迭代的創業公司,與其它公司不同的是,我們沒有業務系統遷移上雲的過程,一開始就是雲心智。為了支撐業務的快速發展,採用雲平臺提供的 SaaS、PaaS 服務。大數據體系在阿里雲大數據平臺 MaxCompute 等產品框架體系上建設起來,對原來一鍵式整庫歸檔數據倉庫的方式做了調整。
  • 魚和熊掌可以兼得 雲原生開啟「資料庫大數據一體化」新時代
    10月23日數據湖高峰論壇上,阿里巴巴集團副總裁、阿里雲智能資料庫產品事業部負責人、達摩院資料庫與存儲實驗室負責人李飛飛表示:「雲原生作為雲計算領域的關鍵技術與基礎創新,正在加速數據分析全面進入資料庫大數據一體化時代」。
  • 伏羲聯合實驗室新成果 平安雲-浪潮推出基於英特爾傲騰持久內存的...
    2018年12月,浪潮與平安雲建立「伏羲」聯合實驗室,基於計算技術與應用場景的融合,共同為客戶提供領先的雲創新產品,此次推出的基於傲騰持久內存的Redis雲服務就是聯合實驗室發布的最新成果。為什麼選擇推出基於英特爾傲騰持久內存的Redis雲服務?
  • 阿里雲重磅發布《雲原生架構白皮書》,涵蓋多項雲原生內容
    港股研究社7月22日消息,據36氪報導,由阿里雲20+位雲原生技術專家共同編撰的《雲原生架構白皮書》正式對外發布。據官方介紹,本書涵蓋了雲原生架構的產生緣由、阿里雲對於雲原生架構的定義、目前行業領先的雲原生技術、阿里巴巴的雲原生架構設計、雲原生架構的實踐案例、雲原生架構未來發展趨勢等內容。在報告撰寫過程中,基於阿里巴巴的技術基因,以技術為原點,結合深度應用場景分析,通過「技術解讀 + 案例解析」的形式,讓大家能更為全面而深度地了解雲原生架構規劃設計與技術應用落地。
  • 雙十一夜晚靜悄悄,阿里頂住「血拼洪流」背後的技術生力是什麼?
    一般來說,虛擬化技術讓雲計算具備彈性等優勢,但其也會如同黑洞般吸收走一部分機器的性能,舉個例子,一臺96核的伺服器上運行雲伺服器,可能需要佔用8核32G來抵消虛擬化的開銷,留給用戶使用的只剩88核和剩餘內存,造成了算力的極大浪費。作為2017年誕生的「新物種」,神龍開創了雲計算時代的新計算範式,將晶片、軟體以及硬體伺服器融合與銜接,攻克了計算資源和性能損耗的 「頑疾」。
  • 看DTCC2015:阿里、360、京東 NoSQL實踐
    想真正了解京東和阿里的NoSQL資料庫嗎?想了解360自主研發過程與挑戰嗎?想了資料庫存儲引擎技術發展趨勢嗎?2015第六屆中國資料庫技術大會(DTCC)上,來自京東高級架構師袁航即將為大家發表主題為《京東內存存儲技術演進》的精彩演講,同時,一淘及搜索事業部離線系統團隊搜索研發專家雨田將為大家講述《HBase在阿里搜索的應用與擴展》,360高級技術專家王超會為大家分享《Bada-構建主從/去中心混合架構的NoSQL》,而華為企業中間件首席架構師彭淵也會給我們分享《高性能原創資料庫引擎Coolhash》。
  • 雲原生2.0新戰場,華為雲GaussDB如何利劍出擊?
    雲原生2.0時代,資料庫將面臨怎樣的變革?雲原生資料庫將如何如何加速企業數位化轉型,助其成為「新雲原生企業」。12月30日,來華為雲TechWave雲原生2.0技術峰會,聽華為雲資料庫技術專家解讀雲原生資料庫的新動向。
  • 業界首發|雲原生領域首本架構白皮書重磅發布
    來源 | 《雲原生架構白皮書》【導讀】今日,由阿里雲 20+ 位雲原生技術專家共同編撰的《雲原生架構白皮書》正式對外發布。作為業界第一本全方位構建雲原生架構規劃與實踐全景圖的白皮書,本書在詳細闡述雲原生架構定義的同時,完整展示雲原生架構應用所需的演進路徑與設計規則,旨在幫助企業更好地理解與應用雲原生架構,助力企業數位化轉型升級。
  • 騰訊雲十年新風向:雲原生與開源的未來
    今天更為強調的微信小程序雲開發、騰訊音視頻、騰訊資料庫、騰訊大數據與AI、騰訊安全等相關領域的技術生態,很大程度上也源自於貫穿騰訊過去十年的關鍵詞——擁抱雲原生與開源。其中,「開發雲原生」聚焦如何提升軟體研發運維流程效率;「計算雲原生」聚焦如何利用容器服務、函數服務等技術; 「架構雲原生」則深入到軟體開發架構層面,對架構重新梳理和微服務化改造;「數據云原生」聚焦大數據、資料庫等數據類服務
  • 騰訊雲重磅升級資料庫品牌、生態戰略,重塑資料庫市場格局
    12月24日,騰訊雲正式宣布其資料庫品牌TDSQL的全新戰略升級計劃及未來發展戰略。未來,騰訊雲原有的TDSQL、TBase、CynosDB三大產品線將統一升級為「騰訊雲企業級分布式資料庫TDSQL」。全新升級後的騰訊雲TDSQL將涵蓋分布式、分析型、雲原生等多引擎融合的完整資料庫產品體系。
  • 雲管理平臺讓阿里雲+VMware混合雲方案如虎添翼
    在這個背景下,雲管理平臺領域的創業者們,敏銳地察覺到了幾個問題:1.阿里雲和VMware兩大巨頭聚焦混合雲解決方案的原因是什麼?2.這種聯合開發、集成的混合雲方案,可靈活擴展和利用雲原生技術,同時帶來了哪些管理挑戰?3.這麼多年,雲管理平臺領域的創業者們帶領團隊,致力於持續提升雲管理平臺的產品力。
  • 無伺服器資料庫競技,哪家雲服務落伍了?
    12月7日,在亞馬遜 re:Invent 2020 上,AWS Lambda推出了幾個重點發布,包括:運行時長的計費粒度從100毫秒縮小到1毫秒,可以節省費用高達70 %;更大的內存空間 ,最大10 GB 的內存;更多的 CPU 資源,最多 6vCPU;支持容器鏡像等。無伺服器計算為什麼如此重要?