對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好數據...

2020-12-08 手機鳳凰網

1970 年,關係資料庫之父、IBM研究員E.F.Codd發表了一篇名為《A Relational Modelof Data for Large Shared Data Banks》的論文,首次提出了關係模型的概念,並成為現代資料庫產品的主流,這是資料庫歷史上的一個重要轉折點,今天,我們看到的主流資料庫幾乎都是圍繞這一模型做研究。

1976年,霍尼韋爾公司(Honeywell)開發了Multics Relational Dat a Store,開啟了商用關係資料庫的時代。彼時Larry Ellison(甲骨文創始人)正在一家名為Ampex的軟體公司工作,該公司正為美國中央情報局工作。

1977年,Ellison 與 Bob Miner 和 Ed Oates創辦了一家名為軟體開發實驗室(Software Development Laboratories,SDL)的計算機公司(Oracle前身),並在創辦後的第三年裡推出了第一個商用SQL關係資料庫管理系統。

1983年,IBM終於將DB2帶入了商業市場;軟體巨頭微軟在1989年推出了另一個明星產品SQL Server。

自此,傳統商業資料庫幾乎成為這些企業的專利,壟斷了整個資料庫行業市場。

誰來改變資料庫「遊戲規則」?

興起於2000年左右的開源資料庫是一種改變遊戲規則的嘗試,而由雲廠商主導的雲原生資料庫則是將這種「改變」推向了高潮。

2014年,AWS發布了業內首個雲原生的關係型資料庫Aurora;2017年9月,阿里雲在國內率先發布了自主研發的雲原生資料庫POLARDB,在2018年4月正式商用。

作為規則改變者,阿里資料庫的研究本身也是一條艱辛的道路。

如何看待資料庫雲服務的未來?阿里有哪些核心的資料庫產品?在阿里雲十周年北京峰會上,雷鋒網與ACM 傑出科學家得主、達摩院資料庫與存儲實驗室負責人李飛飛展開了對話。

此李飛飛非彼李飛飛,他究竟何許人也?在達摩院的官網上,對李飛飛的介紹是:

猶他大學計算機系終身教授。曾獲ACM、IEEE、Visa、Google、HP、華為等多個獎項,獲IEEE ICDE 2014 10年最有影響力論文獎、ACM SIGMOD 2016最佳論文獎、ACM SIGMOD 2015最佳系統演示獎、IEEE ICDE 2004最佳論文獎、美國NSF Career Award、中國基金委海外重點研發獎,2018年ACM傑出科學家等。擔任多個國際一流學術期刊和學術會議的編委、主席。

據李飛飛介紹,他是2018年5月正式加入阿里巴巴,成為資料庫團隊負責人,併兼任達摩院資料庫首席科學家,帶領團隊投入到具有自主智慧財產權的資料庫系統研發當中。他的團隊打磨的產品和技術包括新一代分布式資料庫、非結構化數據管理、數據安全、智能化資料庫等。

目前,李飛飛不僅負責雲智能資料庫產業事業部,同時也負責達摩院下面的資料庫與存儲實驗室,覆蓋了阿里巴巴集團資料庫從研發到業務支持再到雲上商業輸出到服務客戶的整條鏈路。

阿里巴巴資料庫三個階段:商用、開源、自研

李飛飛談到,阿里巴巴資料庫發展到今天,並不是一蹴而就的,而是有一段艱難的「破繭成蝶」的摸索期。

第一階段,阿里用的是商用資料庫,來自IBM DB2和甲骨文。

阿里早期是淘寶起家,IBM DB2和甲骨文的資料庫能支持淘寶天貓快速發展,因為那時候核心主航道就是電商,資料庫就是支撐角色出現的,當時阿里集團內部資料庫的團隊主要就是以傳統資料庫廠商的角度來理解問題。這一階段持續到2011年-2012年,彼時電商業務高速發展,對傳統的甲骨文企業級資料庫的解決方案提出很多挑戰,最明顯的挑戰是成本太高,當高並發網際網路電商發展到巨大的規模,那個成本將是天文數字。

第二階段,雙十一誕生後,阿里開始大規模使用開源資料庫。

很多業務邏輯太複雜,而單純使用甲骨文的弊端也開始顯現,例如有些業務場景無法解決,簡單依靠請甲骨文的技術人員到場解決問題的方式一是成本高,二是時效上阿里等不起。這邊出個問題分鐘級就要恢復,不要說一天了,幾個小時幾分鐘都等不起,不可能有些核心問題解決不了給甲骨文打電話,廠商派人來——這個模式是受到挑戰的,所以阿里巴巴集團從2012、2013年後,尤其是雙十一誕生以後,就開始考慮所謂的樸素的業務驅動的邏輯,開始大規模使用開源資料庫——當時就是利用中間件的形式來做分布分表。

第三個階段,阿里雲發展迅猛,自研雲原生資料庫誕生。

到了雲的時代,阿里雲的業務快速發展,加上在集團業務裡面,傳統的分布分表中間件的解決方案,已經不能滿足(簡單業務可以)業務越來越複雜以後的挑戰,內部自研一款雲原生資料庫已經迫在眉睫。POLARDB就順勢而生了。

雲資料庫POLARDB是何新物種?

資料顯示,POLARDB 是阿里雲自研的下一代關係型雲資料庫,100% 兼容 MySQL,存儲容量最高可達100 TB,性能最高提升至MySQL 的 6 倍,單庫最多可擴展到 16 個節點,適用於企業多樣化的資料庫應用場景。POLARDB 採用存儲和計算分離的架構,所有計算節點共享一份數據。

POLARDB基於Cloud Native(雲原生)設計理念,其架構示意圖及特點如下:

POLARDB架構

POLARDB的特點主要包括:

一寫多讀。採用分布式集群架構,一個集群包含一個主節點和最多15個只讀節點(至少一個,用於保障高可用)。主節點處理讀寫請求,只讀節點僅處理讀請求。主節點和只讀節點之間採用Active-Active的Failover方式,提供資料庫的高可用服務。

計算與存儲分離。滿足公有雲環境下用戶業務彈性擴展的剛性需求。資料庫的計算節點(DB Server)僅存儲元數據,而將數據文件、Redo Log等存儲於遠端的存儲節點(Chunk Server)。

此外,POLARDB還具有分鐘級備份恢復、秒級彈性擴容能力,100%兼容MySQL 5.6、MySQL 8.0、Oracle、PG等,還可以為Raft協議提供金融級高可用服務。雷鋒網注意到,目前POLARDB已經在猿輔導、心動網絡、百勝軟體、輕鬆籌等平臺上應用。

阿里資料庫生態:四大板塊,巨大場景

但實際上,POLARDB只是阿里資料庫生態的其中一個版塊。

外界眼中那個「很龐大很複雜」的阿里資料庫究竟長什麼樣?李飛飛做了簡單的梳理。他指出,從形態上來說,分為四個版塊。如圖。

  • 第一塊:OLTP——關係型交易型資料庫。包括:POLARDB-X(今年即將推出的POLARDB分布式版本):分布式關係型資料庫系統,橫向擴展架構設計,應用於跨IDC多活和雙十一等高並發業務場景;POLARDB——Cloud Native資料庫,基於共享存儲計算分離架構的軟硬體,一體化設計、彈性縮擴容;MySQL/PG/MSSQL/MariaDB/PPAS——開源及第三方商業資料庫。

    第二塊:OLAP——在線分析類資料庫。包括:AnalyticDB——海量數據實時高並發在線分析雲服務;Data Lake Analytics——Serverless化的聯邦數據湖交互式分析服務;TSDB——時序時空資料庫,應用於IoT/城市大腦等。

    第三塊:NoSQL——非結構化及專有領域。包括:GraphDB——高性能分布式緩存系統及基於此的圖資料庫;Redis/Memcache——開源緩存雲服務;MongoDB——文檔型資料庫等。

    第四塊:工具產品。包括:DTS——數據傳輸服務,異構多活數據同步中心;DBS——資料庫雲備份服務等。

    前面已經提到,發展成今天這樣的資料庫的生態,阿里經過了漫長的探索。李飛飛覺得,這和阿里與生俱來的一個優勢緊密不可分——巨大豐富的場景。

    傳統資料庫廠商的做法是,研發一款資料庫產品,讓客戶使用之後進行反饋,可以縫縫補補;而阿里內部天然具有大量的業務場景,這就形成了一塊巨大的「試驗田」,任何一項新技術都不會急於在公有雲上向客戶輸出,而是經過「內部練兵」的方式來驗證和保證可靠性、安全性,這些工作做完之後才會對公有雲、私有雲、混合雲的客戶進行發布和提供。

    這一點是阿里雲、AWS這樣的企業共同具有的優勢,而傳統的資料庫廠商則並不具備。

    全球資料庫大戰一觸即發!

    今天的阿里資料庫在國內已經屬於領先,但在國際市場怎麼看自己的位置呢?

    李飛飛同樣有自己的想法。他以原生分布式資料庫技術為例講了講(雷鋒網註:原生分布式資料庫是分布式資料庫兩大解決方案之一,另一種則是出現地更早的分布式資料庫中間件)。

    在世界範圍內,原生分布式資料庫技術最領先的是Google,它最早提出Spanner,可以做到跨數據中心的數據一致性分布式技術(2009年10月25日,Google提出名為Spanner的遠景計劃。該規劃的原理是一旦流量激增、硬體超負荷,數據就會在百萬級的數據中心中自動轉移。Spanner:「扳手」,又有「橋梁的交叉支撐」。寓意為:「橫跨數據中心,自動移動與複製數據。」)Google在Spanner數據中心裡配備了自己的原子鐘和GPS接收器,這些時間協調裝置會連接到特定數量的主伺服器,然後再由主伺服器向整個谷歌網絡中運行的其他電腦傳輸時間讀數。

    李飛飛覺得Google有一個取巧的過程,即利用了硬體(原子鐘)。他個人認為阿里巴巴在分布式資料庫某些領域、某些維度上可能超過像Google這樣的一些公司在分布式領域的積累。為什麼?

    「我覺得任何技術都是業務推動來衍生的,只要你有業務場景,我覺得你的技術一定會逐步發展到領先。而阿里電商雙十一的場景在世界上都是絕無僅有的,規模和並發量是超過Google和亞馬遜的,此前亞馬遜做了一個類似雙十一的活動,結果資料庫直接宕機。」(雷鋒網註:此次宕機事件有可能指的是CNBC報導過的亞馬遜因放棄Oracle資料庫,導致Prime Day宕機 )

    值得關注的是,李飛飛還透露了兩個重要的信息:

    1、2019年下半年,他們團隊有可能將公布雲原生資料庫POLARDB和分布式關係型資料庫X-DB合併的最新進展,也就是前文提到的POLARDB分布式版本。

    2、他們團隊將在2019年的ACM SIGMOD數據管理國際會議(全球資料庫領域具有最高學術地位的國際性學術會議)上分享雙十一場景下的分布式資料庫架構。據了解,谷歌Spanner、AWS Aurora等都是首先在SIDMOD會議上發布的。這實際上意味著中國廠商從技術上與頂級資料庫廠商站在了同一個舞臺上。

    「從技術和商業角度往前看,我們希望永遠以業務來驅動技術發展,而不是閉門造車,研而不發。我們不說領先世界,但我們希望能夠永遠站在世界的前列,和AWS、甲骨文這些廠商站在技術和商業資料庫第一陣營的位置。」

    對於業界極為關注的不同廠商資料庫之間的兼容問題,李飛飛一併做了解答。

    他表示,阿里將儘可能去兼容現有生態而不是破壞現在的生態。業務上,阿里會鼓勵支持更多中小開發者以及合作夥伴、生態合作方能夠圍繞阿里現有的體系去開發上層的應用,維護管控一系列的工具和人力投入。商業打法上,阿里會有專門的支持計劃推出,面對金融行業、政府行業、新零售行業重點打造典型案例。當雙方資料庫之間有一個良性循環,生態做的足夠大,就可以獨立發展自己的生態。

    「當我這個熱帶雨林也長起來以後,就是一個獨立的熱帶雨林,從你這分叉出去,就是我的目標。不過我們現在還沒有到那一步,這是我們最終的目標。」

    在阿里雲北京峰會當天,阿里雲發布了POLARDB v2.0,這是業界首款兼容Oracle的雲原生資料庫。

    加入阿里:迎接挑戰,帶領團隊走向更遠

    李飛飛坦言,他也面臨著一些挑戰,但雷鋒網認為這也是行業的一些共性挑戰。

    第一個挑戰是內外部的壓力。假如把傳統資料庫廠商比喻成汽車製造廠商,專門造車就完事了。而阿里不僅要造車,還要同時支持集團的業務、服務雲上的外部用戶——既是製造商又是4S店,既有研發又有運維。

    第二個是混合雲的數據架構帶來的業務上的挑戰。雖然說現在雲計算市場蓬勃發展,無論是國內阿里、騰訊、華為還是海外的AWS、微軟Azure,都面臨一個問題——上雲不是黑和白、0和1的問題,而是有些業務可以上雲,有些業務不上雲(仍舊保持傳統IT架構),如何保障安全穩定高效的混合雲部署是有挑戰的。

    第三是數據的安全隱私保護,無論是AWS還是阿里雲,這是一個永恆的話題。

    第四是智能化系統的大規模落地應用。現在系統形態複雜、數據量越來越大,運維挑戰越來越高,依靠人力投入不是一個最佳選項,必須利用AI和機器學習的技術儘可能解決問題,提高運維效能。

    但這些挑戰是李飛飛加入阿里之前就能想到的。作為橫跨了學術界、科研界、工業界的「全能型」技術人,他深刻洞悉了他在企業和學術圈的不同:

    「企業界更多從應用需求出發,先解決問題再看怎麼繼續跑,類似5+5不知道怎麼計算的時候就全部拆成1,用工程化的思維去解決問題;而學術界和科研界會關注一些單點核心技術的突破和優化,甚至進行前沿布局,但離集成到商業系統有一段路程。」

    在採訪最後階段,談及加入阿里的原因,李飛飛十分直爽地表示,阿里的業務場景豐富,是一個天然的資料庫的聖地,能支持各種業務練兵,做最牛的技術,同時又能商業化產業化。另外,他坦言,阿里網際網路化程度高,開放式、有合力,他在美國待那麼多年,比較適應這種文化。選擇加入阿里是個很自然的過程。

    現在,全球資料庫市場競爭激烈,傳統廠商實力強大,李飛飛還將帶領阿里雲資料庫和達摩院資料庫與存儲實驗室,繼續走向更深更遠處。

相關焦點

  • ACM 傑出科學家得主達摩院李飛飛教授:資料庫研究道阻且長,需持之...
    雷鋒網 AI 科技評論消息,11 月 8 日,美國計算機協會(ACM)公布 2018 年度傑出科學家名單,全球資料庫領域領軍人物、達摩院資料庫首席科學家、阿里巴巴資料庫事業部負責人李飛飛教授入選。ACM 是國際上歷史最悠久、規模最大、最權威的計算機專業學會,著名的圖靈獎即由該組織評定頒布。
  • 阿里資料庫掌門人獲選美國計算機協會傑出科學家
    11月8日,美國計算機協會(ACM)公布2018年度的傑出科學家名單,全球資料庫領域領軍人物、達摩院資料庫首席科學家、阿里巴巴資料庫事業部負責人李飛飛教授入選。ACM傑出科學家必須是對計算機領域做出重大成就和影響的研究人員。美國計算機協會傑出科學家、達摩院資料庫首席科學家李飛飛此前,作為美國猶他大學計算機系的終身正教授、世界級的資料庫系統專家,他曾屢次獲得電氣和電子工程師協會( IEEE)與ACM資料庫領域的最具影響力論文獎。
  • 劍來:阿里達摩院外傳
    2016年7月,前微軟合伙人周靖人加盟阿里,任職阿里雲首席科學家。他帶領阿里雲中美兩地的研發團隊,總體負責阿里雲大數據平臺和iDST的科研工作。周靖人早年畢業於中科大,後獲得哥倫比亞大學計算機博士,是雲計算大數據、大規模分布式系統和資料庫等領域的國際級權威學者。
  • 又一位量子計算頂級科學家加盟阿里,稱與達摩院不謀而合
    繼去年9月施堯耘入職後,阿里雲量子實驗室又迎來一位世界頂級科學家,匈牙利裔美國計算機科學家馬裡奧·塞格德。2018年伊始,兩次理論計算機最高獎哥德爾獎得主、匈牙利裔美國計算機科學家馬裡奧·塞格德(Mario Szegedy)入職阿里巴巴達摩院位於西雅圖的阿里雲量子實驗室(AQL)。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    鄢志傑,達摩院語音實驗室負責人,中國科學技術大學博士,IEEE高級會員。長期擔任語音領域頂級學術會議及期刊專家評審。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員。
  • 只5人拿到100分以上 第二屆阿里數學競賽全球最強73人出爐
    阿里巴巴全球數學競賽(Alibaba Global Mathematics Competition)由中國科學技術協會、阿里巴巴基金會、阿里巴巴達摩院共同舉辦。今年,賽事共吸引了海內外七十多個國家和地區的5萬多名報名者。
  • 阿里達摩院官網今日上線,5 大研究領域、14 個實驗室全公開
    目前,達摩院官網已經上線,在上面可以看到關於達摩院的最全介紹,覆蓋達摩院五大研究領域、兩大合作生態以及人才儲備和需求。  北京大學應用數學博士,IEEE Fellow,ACM 傑出科學家。
  • 達摩院(DAMO)是個什麼鬼?
    目前,「達摩院」已經開始在全球各地組建前沿科技研究中心,包括亞洲達摩院、美洲達摩院、歐洲達摩院,並在北京、杭州、新加坡、以色列、聖馬特奧、貝爾維尤、莫斯科等地設立不同研究方向的實驗室,初期計劃引入100名頂尖科學家和研究人員。
  • 阿里「達摩院掃地僧」為什麼要去客串淘寶客服?
    阿里「達摩院掃地僧」為什麼要去客串淘寶客服? iwangshang / 黃天然 / 2019-05-13 摘要:AI可以替代客服讓效率越來越高,但是給予客戶的愛與溫度是永遠無法被替代的。
  • 達摩院NLP團隊斬獲六項世界冠軍背後,讓AI沒有難懂的語言
    在阿里巴巴達摩院語言實驗室負責人司羅看來,預訓練語言模型技術最近的進展極大地推動了自然語言智能的發展,「越來越多的應用與深度語言模型能夠結合起來,在業務實踐中取得了比較大的實際落地效果。」與此同時,帶著各自的預訓練語言模型在各大數據集上同臺切磋,成為各大科技公司展現自身技術實力的一大舞臺。當然,阿里巴巴也不例外。
  • 達摩院骨科AI成果已被MICCAI 2020收錄
    為了提高醫生的工作效率,達摩院提出了一種THA術前規劃自動測量的方法,利用AI模擬醫生的測量過程,通過先定位這些關鍵點,再根據點的坐標計算得到測量結果。區別於傳統AI只檢測關鍵點的方法,達摩院還根據這些待測量量,定義了解剖點之間的連接邊,以強化同一個測量量相關的各個點之間的聯繫,測量數據更加直觀。
  • 獨家| 阿里達摩院大牛任小楓離任:一波三折轉入高德地圖
    阿里「NASA」計劃曾經的核心人物任小楓,現已轉入高德地圖體系。機器之心消息,經機器之心聯繫多方知情人士確認,阿里達摩院前視覺實驗室負責人任小楓已經離開阿里達摩院,轉入高德地圖,擔任高德地圖首席科學家。2014 年,高德被阿里全資收購,現作為阿里巴巴的全資子公司。
  • 葉傑平入選、華人佔4成,2020年ACM傑出科學家榜單出爐
    要入選ACM傑出科學家,要求入選者至少有 15 年的專業經驗,並且在過去10年中至少5年具有ACM專業會員資格。而評選比例,ACM 傑出科學家不超過 ACM 會員的10%。此外ACM共會從三個方面評選出傑出科學家,分別是表彰其在計算機領域中的教育、工程以及科學上的傑出貢獻。
  • 葉傑平入選、華人佔4成,2020年ACM傑出科學家榜單出爐
    而評選比例,ACM 傑出科學家不超過 ACM 會員的10%。此外ACM共會從三個方面評選出傑出科學家,分別是表彰其在計算機領域中的教育、工程以及科學上的傑出貢獻。葉傑平,因為在科學上的傑出貢獻入選了今年的ACM傑出科學家。
  • 達摩院骨科AI成果已被...
    為了提高醫生的工作效率,達摩院提出了一種THA術前規劃自動測量的方法,利用AI模擬醫生的測量過程,通過先定位這些關鍵點,再根據點的坐標計算得到測量結果。區別於傳統AI只檢測關鍵點的方法,達摩院還根據這些待測量量,定義了解剖點之間的連接邊,以強化同一個測量量相關的各個點之間的聯繫,測量數據更加直觀。
  • 繼施堯耘之後,又一量子計算大牛入職阿里巴巴達摩院
    雷鋒網 AI 科技評論消息,兩次理論計算機最高獎哥德爾獎(Gdel Prize)得主、匈牙利裔美國計算機科學家馬裡奧·塞格德(Mario Szegedy)入職阿里巴巴達摩院,進駐位於西雅圖的阿里雲量子實驗室 (AQL)。
  • 阿里達摩院科學家,3年造出小蠻驢!量產物流機器人,全自動駕駛
    達摩院自動駕駛實驗室負責人王剛說,人工智慧解決問題的發展規律,一定是不斷減少人工參與。所以在打造小蠻驢的整個過程中,他們始終秉持這樣的理念:不斷把人工規則和方法,變成計算驅動,變成自學習,告別有多少人工才有多少智能的尷尬。
  • 任小楓阿里「三調」,現任高德地圖首席科學家
    雷鋒網 AI 科技評論按:經確認,阿里達摩院機器智能實驗室旗下機器視覺實驗室負責人任小楓,現已轉入阿里於 2014 年全資收購的子公司高德地圖擔任首席科學家。雖然在阿里達摩院官網,智能實驗室旗下機器視覺實驗室負責人仍顯示為任小楓,但是任小楓在華盛頓大學官網的個人主頁上,已將自己的現任職務更新為「chief scientist of AutoNavi, a subsidiary of Alibaba」。
  • ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎
    大會網站:https://2020.acmmm.org/大會組委會成員本次大會榮譽主席:本次大會主席:其中阿里巴巴集團副總裁、達摩院城市大腦實驗室負責人、IEEE Fellow 華先勝主要領導完成了所有線上會議的籌備工作
  • 阿里數學競賽73人獲獎:最小的19歲,95後博士蟬聯金獎
    阿里巴巴全球數學競賽( Alibaba Global Mathematics Competition)由馬雲發起,由中國科學技術協會、阿里巴巴基金會、阿里巴巴達摩院共同舉辦。大賽不設報名門檻,全世界愛好數學的人都可參與,不論是否出身數學專業、是否投身數學研究。據澎湃新聞記者了解,阿里巴巴為決賽選手準備了總計超過100萬元人民幣規模的獎金。