經濟觀察網記者 陳伊凡 7月15日,一襲粉色襯衫的張獻濤站在屏幕前,通過釘釘直播2020阿里雲彈性計算產品年度發布會,在會上宣布推出第三代神龍雲伺服器——目前整體算力最強的伺服器,比目前全球最頂級雲伺服器的綜合性能要快30%以上。
張獻濤是阿里雲彈性計算產品線負責人,經歷雲計算從無到有、從弱到強,在雲計算一線已經工作15年。過去十年,阿里雲的存儲性能提升了2000倍,網絡性能提升了500倍,整體算力以平均每12個月翻一番的速度增長,向摩爾定律的極限發起挑戰。「十年時間的發展,我們重構了整個計算的服務模式。」張獻濤說。
在阿里內部,神龍架構已經大規模應用於淘寶、天貓、菜鳥等業務,解決高峰值的性能瓶頸問題。在發言和後續的採訪中,張獻濤解釋了當初為何阿里決定自研神龍,十年間企業需求的變化以及未來迭代的方向。
變化的客戶需求
「十年前,我們可能更多是勸客戶上雲,但今天是和他們一起探討如何選好雲、用好雲,解決性能、穩定性、彈性等這些方面的訴求。」這是在一線的張獻濤發現的變化。
客戶們的訴求,在過去10年間變得更加清晰,第一訴求是業務永續,第二是性能極致,第三就是對資源的極速、彈性訴求,第四個是自助服務。
這樣的需求變化其實不難理解。對於傳統數據中心,經常會碰到各種由於硬體故障或IDC故障導致宕機的問題,這些企業上雲後,期待雲計算能夠解決他們業務永續的問題。
這也給雲計算帶來新挑戰。「過去幾年,我們不斷做產品和技術方面的創新,我們有上百萬臺伺服器,積累大量硬體故障相關的信息,通過人工智慧及其學習的模式,對一個即將要發生故障的硬體進行提前預測,在發生故障之前,就把客戶的業務通過熱遷移模式,遷移到一臺好的機器上,避免業務中斷。」
此外,企業上雲的另一個關注點就是如何提高業務性能。阿里的做法是自研神龍計算平臺、盤古存儲平臺和洛神網絡平臺,通過這種軟硬體結合的方式提升計算的效率。去年,阿里雲發布了自研的針對人工智慧業務的含光晶片加速器。
每個業務都可能有波峰波谷,當波峰到來時,對應的平臺算力就要提升,否則業務就會受到影響。像有社會熱點發生時,微博需要彈出幾倍算力去應對熱點事件,需要在幾分鐘內彈出幾十萬核甚至上百萬核的算力,去應對突增的業務訪問請求。
張獻濤解釋,這在傳統IT時代很難完成,因為IT資源的擴充需要以月為單位來滿足。「雲計算時代,使用彈性計算產品可以在幾分鐘內彈出50萬核來應對這種突發業務。」他們現在在底層平臺也進行一些優化,和達摩院的算法科學家進行合作,對客戶的業務負載做一些預測。
除了以上三點變化,客戶還體現出自助服務的訴求。「也許客戶沒有提出這個訴求,但我們在和他們溝通的過程中發現,他們其實遇到了這方面的問題,在遷雲階段,也為了解決遷移上雲難的問題,開發了一鍵式的遷移上雲服務中心,還有一些自動化診斷、自動化運維編排的能力,能夠讓企業們免去人力運維。」
自研神龍
一直以來,性能損耗是虛擬化技術無法規避的難題,無論伺服器多先進,只要是虛擬化,就一定會有部分性能要用在虛擬化調度上,這也是整個雲計算行業尚未被解決的問題。
很多企業使用虛擬機和虛擬化管理系統的宿主機是 「共處一室」,這會導致資源的爭搶,帶來虛擬機計算能力的波動。雲廠商沒法把這臺機器的全部算力給到客戶。例如,一個32核的物理伺服器,雲廠商只能把16核或20核給到客戶,剩下的12核需要對存儲、網絡進行虛擬化。
資源的浪費帶來了成本的提升。正因為性能和成本的問題,很多企業上雲之後又回到傳統IT。為了解決這一問題,2016年阿里雲低調啟動了一項代號為「X-Dragon」的項目。
為什麼決定自己做,張獻濤解釋,2016年正遇到阿里巴巴這個經濟體的業務往雲上遷移,對產品提出更高要求。他們在評估業界同行的晶片之後,發現無法滿足阿里的業務需求,因為其整體設計還是傳統的X86架構。
經歷軟體虛擬化、通用硬體虛擬化、專用硬體晶片虛擬化三個階段後,2019年推出的第三代神龍架構實現了裸金屬伺服器、ECS虛擬機等計算平臺的架構統一,用戶可獲得高質量的彈性資源,貫穿整個IaaS計算平臺,並在IOPS、PPS等方面提升5倍性能。
「晶片研發方面是最難的,神龍雲伺服器是一年一代的節奏,但整體研發難度很大。」接受經濟觀察網記者採訪時,張獻濤說,首先要經得住穩定性的考驗,畢竟其所服務的是大規模的客戶業務,大規模做應用,十萬臺、幾十萬臺伺服器起步,這對於晶片的可靠性和穩定性的要求很高,所有晶片,尤其是數據方面,不能有瑕疵。因此,儘管去年9月份就已經在雲棲大會上發布,今年5、6月份才推出產品。
張獻濤說在這個過程中,團隊更多是在內部的業務場景進行壓測,例如雙十一,可以讓他們有條件做各種各樣的壓力測試。「所以在整個第三代神龍架構研發的過程中,怎樣能夠在快速的網際網路迭代方式下,我們要能夠解決掉晶片也能夠隨著用戶周期的迭代,並且能夠確保他的穩定性能,在這些方面對我們提出了很大的挑戰。雖然我們在這個領域可能走的相對來說比較靠前,但在這個領域,大家面對的挑戰,我相信基本上是一致的。」
2020年7月,阿里雲推出第三代神龍雲伺服器,基於神龍架構再次將算力逼向極限,相比上一代整體性能提升160%,提供最多核、最大2086TB內存,在多項性能參數中斬獲世界第一。
未來走向
曾經,一位在晶片領域從業多年的行業人士就做過這樣的比喻:AI算法相當於菜譜、數據是原料、晶片這些就是烹飪的工具。這其中,數據是核心。
「做AI晶片最後能夠扛下來的,都是擁有數據的那些公司。」擁有數據就意味著擁有場景,這對於很多晶片公司來說極其重要,他們需要這些場景為晶片性能做試驗、提升。
這個邏輯同樣也可以用在雲計算廠商和傳統設備廠商之中。正如張獻濤所說,因為傳統設備廠商的需求很多都是來自於雲計算廠商。
事實證明,如今那些擁有海量數據的巨頭們,都已經進入自研晶片市場。百度和三星合作,使用14nm工藝,基於自研的XPU神經處理器架構,推出崑崙AI晶片;阿里成立平頭哥晶片公司,推出自研的玄鐵910CPU、含光800AI推理晶片。
「神龍架構發布後,帶來的優勢不僅其他雲計算廠商看到了,傳統的設備廠商、做網卡晶片、做存儲晶片的廠商,現在都在朝著神龍的架構來做,下一代產品的規劃,其實都是照著神龍的架構演進的。」張獻濤覺得很欣慰,因為在這樣一個關鍵技術方面不再孤獨,這個也說明代表了未來的趨勢。
張獻濤在採訪中表示,下一代神龍伺服器會從存儲的性能以及安全方面有所提升,「不是說現在不安全,是大家對各種各樣業務場景的適配。就像今天我講的在可信計算領域、金融領域,還有一些合規性的要求,這些領域對特殊的加解密算法,各種和場景合在一起的需求,這些方面的增強,我覺得是未來我們第三代會重點去進攻的方向。」