雲計算十年:阿里雲第三代神龍雲伺服器如何挑戰摩爾定律極限

2020-12-18 經濟觀察報

經濟觀察網記者 陳伊凡 7月15日,一襲粉色襯衫的張獻濤站在屏幕前,通過釘釘直播2020阿里雲彈性計算產品年度發布會,在會上宣布推出第三代神龍雲伺服器——目前整體算力最強的伺服器,比目前全球最頂級雲伺服器的綜合性能要快30%以上。

張獻濤是阿里雲彈性計算產品線負責人,經歷雲計算從無到有、從弱到強,在雲計算一線已經工作15年。過去十年,阿里雲的存儲性能提升了2000倍,網絡性能提升了500倍,整體算力以平均每12個月翻一番的速度增長,向摩爾定律的極限發起挑戰。「十年時間的發展,我們重構了整個計算的服務模式。」張獻濤說。

在阿里內部,神龍架構已經大規模應用於淘寶、天貓、菜鳥等業務,解決高峰值的性能瓶頸問題。在發言和後續的採訪中,張獻濤解釋了當初為何阿里決定自研神龍,十年間企業需求的變化以及未來迭代的方向。

變化的客戶需求

「十年前,我們可能更多是勸客戶上雲,但今天是和他們一起探討如何選好雲、用好雲,解決性能、穩定性、彈性等這些方面的訴求。」這是在一線的張獻濤發現的變化。

客戶們的訴求,在過去10年間變得更加清晰,第一訴求是業務永續,第二是性能極致,第三就是對資源的極速、彈性訴求,第四個是自助服務。

這樣的需求變化其實不難理解。對於傳統數據中心,經常會碰到各種由於硬體故障或IDC故障導致宕機的問題,這些企業上雲後,期待雲計算能夠解決他們業務永續的問題。

這也給雲計算帶來新挑戰。「過去幾年,我們不斷做產品和技術方面的創新,我們有上百萬臺伺服器,積累大量硬體故障相關的信息,通過人工智慧及其學習的模式,對一個即將要發生故障的硬體進行提前預測,在發生故障之前,就把客戶的業務通過熱遷移模式,遷移到一臺好的機器上,避免業務中斷。」

此外,企業上雲的另一個關注點就是如何提高業務性能。阿里的做法是自研神龍計算平臺、盤古存儲平臺和洛神網絡平臺,通過這種軟硬體結合的方式提升計算的效率。去年,阿里雲發布了自研的針對人工智慧業務的含光晶片加速器。

每個業務都可能有波峰波谷,當波峰到來時,對應的平臺算力就要提升,否則業務就會受到影響。像有社會熱點發生時,微博需要彈出幾倍算力去應對熱點事件,需要在幾分鐘內彈出幾十萬核甚至上百萬核的算力,去應對突增的業務訪問請求。

張獻濤解釋,這在傳統IT時代很難完成,因為IT資源的擴充需要以月為單位來滿足。「雲計算時代,使用彈性計算產品可以在幾分鐘內彈出50萬核來應對這種突發業務。」他們現在在底層平臺也進行一些優化,和達摩院的算法科學家進行合作,對客戶的業務負載做一些預測。

除了以上三點變化,客戶還體現出自助服務的訴求。「也許客戶沒有提出這個訴求,但我們在和他們溝通的過程中發現,他們其實遇到了這方面的問題,在遷雲階段,也為了解決遷移上雲難的問題,開發了一鍵式的遷移上雲服務中心,還有一些自動化診斷、自動化運維編排的能力,能夠讓企業們免去人力運維。」

自研神龍

一直以來,性能損耗是虛擬化技術無法規避的難題,無論伺服器多先進,只要是虛擬化,就一定會有部分性能要用在虛擬化調度上,這也是整個雲計算行業尚未被解決的問題。

很多企業使用虛擬機和虛擬化管理系統的宿主機是 「共處一室」,這會導致資源的爭搶,帶來虛擬機計算能力的波動。雲廠商沒法把這臺機器的全部算力給到客戶。例如,一個32核的物理伺服器,雲廠商只能把16核或20核給到客戶,剩下的12核需要對存儲、網絡進行虛擬化。

資源的浪費帶來了成本的提升。正因為性能和成本的問題,很多企業上雲之後又回到傳統IT。為了解決這一問題,2016年阿里雲低調啟動了一項代號為「X-Dragon」的項目。

為什麼決定自己做,張獻濤解釋,2016年正遇到阿里巴巴這個經濟體的業務往雲上遷移,對產品提出更高要求。他們在評估業界同行的晶片之後,發現無法滿足阿里的業務需求,因為其整體設計還是傳統的X86架構。

經歷軟體虛擬化、通用硬體虛擬化、專用硬體晶片虛擬化三個階段後,2019年推出的第三代神龍架構實現了裸金屬伺服器、ECS虛擬機等計算平臺的架構統一,用戶可獲得高質量的彈性資源,貫穿整個IaaS計算平臺,並在IOPS、PPS等方面提升5倍性能。

「晶片研發方面是最難的,神龍雲伺服器是一年一代的節奏,但整體研發難度很大。」接受經濟觀察網記者採訪時,張獻濤說,首先要經得住穩定性的考驗,畢竟其所服務的是大規模的客戶業務,大規模做應用,十萬臺、幾十萬臺伺服器起步,這對於晶片的可靠性和穩定性的要求很高,所有晶片,尤其是數據方面,不能有瑕疵。因此,儘管去年9月份就已經在雲棲大會上發布,今年5、6月份才推出產品。

張獻濤說在這個過程中,團隊更多是在內部的業務場景進行壓測,例如雙十一,可以讓他們有條件做各種各樣的壓力測試。「所以在整個第三代神龍架構研發的過程中,怎樣能夠在快速的網際網路迭代方式下,我們要能夠解決掉晶片也能夠隨著用戶周期的迭代,並且能夠確保他的穩定性能,在這些方面對我們提出了很大的挑戰。雖然我們在這個領域可能走的相對來說比較靠前,但在這個領域,大家面對的挑戰,我相信基本上是一致的。」

2020年7月,阿里雲推出第三代神龍雲伺服器,基於神龍架構再次將算力逼向極限,相比上一代整體性能提升160%,提供最多核、最大2086TB內存,在多項性能參數中斬獲世界第一。

未來走向

曾經,一位在晶片領域從業多年的行業人士就做過這樣的比喻:AI算法相當於菜譜、數據是原料、晶片這些就是烹飪的工具。這其中,數據是核心。

「做AI晶片最後能夠扛下來的,都是擁有數據的那些公司。」擁有數據就意味著擁有場景,這對於很多晶片公司來說極其重要,他們需要這些場景為晶片性能做試驗、提升。

這個邏輯同樣也可以用在雲計算廠商和傳統設備廠商之中。正如張獻濤所說,因為傳統設備廠商的需求很多都是來自於雲計算廠商。

事實證明,如今那些擁有海量數據的巨頭們,都已經進入自研晶片市場。百度和三星合作,使用14nm工藝,基於自研的XPU神經處理器架構,推出崑崙AI晶片;阿里成立平頭哥晶片公司,推出自研的玄鐵910CPU、含光800AI推理晶片。

「神龍架構發布後,帶來的優勢不僅其他雲計算廠商看到了,傳統的設備廠商、做網卡晶片、做存儲晶片的廠商,現在都在朝著神龍的架構來做,下一代產品的規劃,其實都是照著神龍的架構演進的。」張獻濤覺得很欣慰,因為在這樣一個關鍵技術方面不再孤獨,這個也說明代表了未來的趨勢。

張獻濤在採訪中表示,下一代神龍伺服器會從存儲的性能以及安全方面有所提升,「不是說現在不安全,是大家對各種各樣業務場景的適配。就像今天我講的在可信計算領域、金融領域,還有一些合規性的要求,這些領域對特殊的加解密算法,各種和場景合在一起的需求,這些方面的增強,我覺得是未來我們第三代會重點去進攻的方向。」

相關焦點

  • 挑戰摩爾定律極限,揭秘阿里雲神龍的「封神」之路
    與上一代相比,第三代神龍雲伺服器的綜合性能提升高達160%,比目前全球最頂級的雲伺服器還要快30%以上,整體算力全球最強。 第三代神龍雲伺服器 在去年推出的第三代神龍架構的基礎上,第三代神龍雲伺服器再次將算力逼向極限
  • 阿里雲神龍Ⅲ:極限性能的探索之路
    我們都知道,神龍雲伺服器的誕生是為了獲得超越物理機的性能,併兼有有虛擬機的體驗。換言之,神龍解決虛擬化損耗的初衷,就是為了獲得極致性能而來的。所以從2017年到2020年,三代神龍伺服器的架構迭代,本質是就是對伺服器性能極限的一次「衝刺」。
  • 阿里雲打造異類神龍伺服器,備戰雲計算下一個十年
    這個話看上去有些拗口,但當你深入理解後,發現這是阿里雲多年雲計算服務下沉澱出來的底層需求。2017年10月,阿里雲在全球率先推出了同時融合物理機和虛擬機特性的「跨界」雲伺服器——彈性裸金屬伺服器神龍X-Dragon,它採用了自主研發的虛擬化2.0技術,兼具「虛擬機的心臟」和「物理機的肌肉」,被認為是雲計算領域的新物種。
  • 讓伺服器突破性能極限 阿里雲神龍論文入選計算機頂會ASPLOS
    日前,ASPLOS 2020公布了計算機界最新科技成果,其中包括阿里雲提交的名為《High-density Multi-tenant Bare-metal Cloud》的論文,該論文闡述了阿里雲自研的神龍伺服器架構如何解決困擾雲計算行業多年的虛擬化性能損耗問題,打破物理機的性能神話,讓雲伺服器突破性能極限。
  • Gartner發布雲產品評估報告:阿里雲計算能力全球第一
    作為唯一的中國廠商,阿里雲已連續兩年入選。Gartner在報告中指出,作為全球雲計算市場的領導者,阿里雲提供了多樣的基礎設施服務選擇,包括裸金屬伺服器、Kubernetes服務,更適用於通用場景。值得注意的是,阿里雲在數據分析、人工智慧/機器學習相關服務上具備差異化優勢,同時提供了包括數據倉庫、數據湖在內的各種數據處理服務。
  • 雲計算十年:序章,拐點,生死戰
    同期的《網際網路周刊》封面文章「雲計算第三代」對此的描述是: 「當演講臺上各大巨頭津津樂道於自己所取得的雲計算成就時,坐在臺下的很多國內本土企業更像是它們的擁躉。」 10年之後,中國是全球雲計算增長最快的市場。阿里雲、騰訊雲和華為雲躋身全球雲計算排名前十的名單。
  • 晶片破壁者(六):摩爾定律的一次次「驚險」續命
    此後十幾年,不斷挑戰半導體產業極限的摩爾定律,也在一次次撞向「天花板」的時候「被死亡」。關於摩爾定律的唱衰言論層出不窮。2014年國際半導體技術路線圖組織宣布,下一份路線圖將不再依照摩爾定律。臺積電張忠謀、英偉達黃仁勳等挑戰者更是「語出不遜」,認定摩爾定律不過是苟延殘喘。
  • 阿里雲第三代神龍伺服器...
    阿里雲第三代神龍伺服器亮相,整體算力全球最強 7月15日,阿里雲宣布推出第三代神龍雲伺服器,向全球提供頂級算力。與上一代相比,第三代神龍雲伺服器的綜合性能提升高達160%,比目前全球最頂級雲伺服器還要快30%以上,整體算力全球最強。
  • 摩爾定律即將走到極限,英偉達試圖推動半導體「黃氏定律」
    記者 | 彭新「在摩爾定律失效的當下,如果我們真想提高計算機性能,『黃氏定律』就是一項重要指標,且在可預見的未來都將一直適用。」在近日舉辦的GTC中國峰會上,英偉達首席科學家Bill Dally做出上述發言。
  • AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍
    過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司英偉達(NVIDIA)創始黃仁勳(Jensen Huang)名字命名的定律「黃氏定律 (Huang’s Law)」對AI性能的提升作出預測,預測GPU將推動AI性能實現逐年翻倍。
  • 電子晶片逼近1nm極限,摩爾定律失效,頂上來的將是光電晶片
    隨著摩爾定律逐步逼近物理規律極限,微電子技術集成電路發展瓶頸已經出現,光電晶片成為下一代晶片技術發展的方向之一。3.對中國的影響和啟示人工智慧、大數據、超級計算機和雲計算等前沿科技飛速發展,帶動晶片製造工藝和設計水平直線提升。隨著微電子晶片製造工藝逼近1納米物理極限,依靠工藝水平精進提升晶片性能的方法越來越難以奏效,摩爾定律正瀕臨失效。
  • 阿里雲密集發布數款新產品,留給其他玩家的時間還多麼?| 雲棲大會...
    而在今天,阿里雲又發布了一系列新品,雷鋒網在下文做了總結,想要了解又沒在現場的同學,看這一篇就足夠了:神龍雲伺服器(X-Dragon Cloud Server)神龍雲伺服器是一種可水平彈性伸縮的高性能計算服務,融合了物理機與雲伺服器的優勢。
  • 雲計算國內阿里雲獨領風騷,百度、華為成為新變數
    這裡值得一提的是2018年,阿里雲成功超越谷歌位居全球第三。國內雲計算市場格局在國內市場,雲計算領域同樣是競爭激烈,不僅BAT,包括華為在內的電信運營商及許多創業公司更是將「雲計算」作為新的機遇,先後成立各自的「雲平臺」搶佔市場。
  • 阿里雲神龍伺服器+ZStack,私有雲用戶更需要的彈性裸金屬
    而這也是區別於第一代裸金屬的「真正」彈性裸金屬技術——讓伺服器在雲平臺中有跟虛擬化一樣的使用體驗,可以像虛擬化一樣使用雲平臺的所有功能。如果將這些功能比作衣服,基於彈性裸金屬技術的神龍就是穿上衣服還可以根據不同場景換裝的智能裸金屬。
  • 在IDCC 2020年度盛典零距離接觸阿里雲浸沒式液冷
    近十年來,液冷在不斷推動數據中心綠色革命,浸沒式液冷是其中最為降本增效的解決方案。2018年以來的三屆雙十一,阿里雲液冷服務集群承載了海量的計算服務,可靠性符合預期。浸沒式液冷如何「給伺服器泡澡」,在IDCC 2020產業大典的展臺上,記者終於一見真容並與負責阿里雲智能基礎設施的技術專家們展開了交流。
  • 黃仁勳定律是新的摩爾定律!這就是黃教主收購Arm的原因
    ,黃仁勳定律(Huang's Law)是新的摩爾定律,這也是英偉達收購Arm的原因。 在現代計算的開元時代,摩爾定律佔據了上風。 華爾街日報報導稱,摩爾定律正在放緩,但有一項新定律,可能對計算下半個世紀同樣重要。 「我們用英偉達的 CEO 的名字(Jensen Huang)將其命名為黃仁勳定律(Huang『s Law),該定律是新的摩爾定律。」
  • 蟬翼微舞 柔性屏帶來新摩爾定律「旋風」
    3月25日,柔宇科技董事長兼CEO劉自鴻在開年後的第一場線上發布會上,談到了自己對於第三代蟬翼全柔性屏的期許。當天呈現在觀眾眼前的,除了業界關注的第三代蟬翼全柔性屏、新一代摺疊手機FlexPai 2,還有一場重磅籤約儀式。柔宇與中興通訊達成戰略合作,意味著柔性+戰略版圖的再次擴充。
  • ZStack+阿里雲神龍伺服器,畫一條新基建上雲的彩虹
    「而雲計算始終存在時間窗口,哪怕零點幾秒的中斷也將造成致命損失。如今,我們找到了最佳方案。」ZStack創始人&CEO 張鑫所說的是彈性裸金屬。「彈性裸金屬」 · 靈魂拷問「彈性裸金屬完成了我十年前的夢想:讓物理機在雲平臺中有和虛擬機一樣的體驗。」張鑫說。1.什麼是裸金屬?裸金屬技術早在雲虛擬化技術之前已經出現。
  • ZStack+阿里雲神龍伺服器,畫一條新基建上雲的彩虹?
    「而雲計算始終存在時間窗口,哪怕零點幾秒的中斷也將造成致命損失。如今,我們找到了最佳方案。」ZStack創始人&CEO 張鑫所說的是彈性裸金屬。「作為一家雲廠商,我們並不擔心在新基建過程中新的技術能否落地,我們關心的是如何讓諸如醫院、能源電力、交通、製造業等傳統應用快速適應新環境、投入到新基建的環境中。」張鑫解釋。