把時鐘向回撥過半年,2019年的雙11購物狂節,似乎和每年的雙11沒有什麼不同,依然是刷新著日訂單世界紀錄,儘管54.4萬筆/秒的訂單量,已經是2009年第一次雙11的1360倍,但這一切放在阿里巴巴身上,就感覺是那麼的理所應當。
其實,這個沒有硝煙的戰場背後,卻有著不同尋常的故事,阿里巴巴早已悄悄將數以十萬計的伺服器遷移到了公有雲上,做到了核心系統100%跑在阿里雲公共雲上。而核心電商業務應用大規模部署在自研的神龍裸金屬伺服器上,這亦是「神龍」首次經受真正意義上的大規模實戰考驗。
我們都知道,神龍雲伺服器的誕生是為了獲得超越物理機的性能,併兼有有虛擬機的體驗。換言之,神龍解決虛擬化損耗的初衷,就是為了獲得極致性能而來的。
所以從2017年到2020年,三代神龍伺服器的架構迭代,本質是就是對伺服器性能極限的一次「衝刺」。
7月15日,阿里雲宣布推出第三代神龍雲伺服器,與上一代相比,第三代神龍雲伺服器的綜合性能提升高達160%,比目前全球最頂級雲伺服器還要快30%以上,整體算力全球最強。
彈性的代價,虛擬化之殤
從2006年,亞馬遜正式發布AWS算起,公有雲行業已經足足走過了14年。雲計算從理念被接受,到公有雲形成網際網路的技術洪流,最近幾年才到了企業客戶上雲的時代。我們知道,企業客戶本身通常有傳統IT的基礎,它們對雲的思考維度更多,思維也更縝密。
早期的公有雲,較為粗放的通過虛擬機來分配計算力,但虛擬機的計算能力、平穩性、彈性由下沉的虛擬化軟體,而不是虛擬機來完成的。所以,必然會導致資源爭搶、算力損失、性能瓶頸,同時也難以支持裸機服務。
虛擬化固然是雲計算的基礎。軟體定義的方式來管理數據中心的計算資源,讓雲計算廠商可以根據企業需求輸出計算能力,但彈性能力的代價則是以犧牲性能損耗的形式來換取的。
正是這些原因讓當時的企業用戶對公有雲產生了一些排斥,部分企業在嘗試了上雲之後,又回歸傳統IT的懷抱,但這絕非公有雲之過,而是虛擬化之殤。
阿里雲彈性計算負責人張獻濤說,企業用戶需要更強的計算性能、需要更快的網絡接入、更高的存儲讀寫能力,存儲的IOPS要高、網絡的PPS要高、網絡的帶寬存儲能力要高。解決所有這些問題的根源就在於變革虛擬化技術。
在阿里雲的成立之初,也是採用了開源虛擬化軟體XEN,做到了準虛擬化,後來在2014年升級到KVM架構,後者在在虛擬機和硬體之間加了一個軟體層,Hypervisor,直接運行在物理硬體之上,大幅降低了虛擬化性能損耗。
但這並不足夠,一個大膽的想法,慢慢在阿里內部滋生。
三代神龍,衝刺極限性能
2016年阿里雲秘密啟動了一項代號為「X-Dragon」的項目,次年即推出了首款自研神龍雲伺服器第一代。
神龍誕生的本質就是軟硬融合的虛擬化技術。而最早的神龍第一代伺服器,還做不到追求真正的極致性能。它更多的是解決上雲後如何支持裸機服務,但是又不能是傳統的物理機,需要充分和雲計算基礎設施融合。
為了實現超越物理機的性能,有虛擬機的體驗,阿里雲設計了神龍MOC卡,通過神龍晶片做高速數據面的轉發,並通過晶片加速引擎,存儲EBS、網絡,所有管控面的東西,都下沉到晶片中,讓所有的接口都和虛擬機保持一致。最終實現了一張晶片其實解決所有問題,物理機可以使用雲存儲、VPC網絡、掛載本地盤的問題。
神龍晶片
而第二代神龍可以叫做融合虛擬化的踐行者,它的神龍晶片能力進一步增強,不但可以支持的裸金屬系統,還可以支持虛擬機。
有了前兩代神龍的探索,第三代神龍伺服器則真正成為了極致性能的追求者。全新發布的第三代神龍雲伺服器產品家族提供了最多208核、最大6TB內存,雲盤IOPS高達 100萬、網絡轉發高達2400萬、網絡帶寬高達100G,均為全球最高性能水平,支持CPU、GPU、NPU、FPGA等多種計算形態,具備3分鐘交付50萬核vCPU的極速擴容能力,堪稱雲原生的最佳載體。
追求性能的極致,將虛擬機的性能損耗降至接近於「零」是最快的捷徑。目前,全球僅有兩家有類似技術實現了虛擬化零損耗,另一家是亞馬遜AWS。
讓雲原生變成雲「原生」
我們知道,在雲計算時代誕生了雲原生(Cloud Native)的概念。它不是一個產品,而是一套技術體系和一套方法論,指的是產品解決方案基於雲計算,不需要再經歷從傳統的架構轉移到雲平臺,讓很多應用不做任何改動就可以在雲平臺運行起來。換言之,雲原生就是距離雲更近,效率也更高。
張獻濤說,「以前虛擬化技術的設計思路,前提都是伺服器和計算架構都已經定了,如何通過軟體適配計算架構。我們做神龍則是反其道而行之。隨著雲計算向縱深方向發展,軟硬一體化的架構設計將成為雲技術架構的主流。3-5年內,容器在IT架構裡面佔比將達到一半以上。雲原生需要我們將虛擬化推向極致。」
的確,今天的雲計算是構建在虛擬化基礎之上的,雲原生趨勢需要將虛擬化推向極致,更極致的啟動速度、並發能力、部署密度,同時又不失安全、成本更低。這是神龍伺服器,讓雲原生真正變成雲「原生」的真正能力。
一方面,神龍架構對雲原生浪潮下容器等產品適配程度極高。通過I/O offload晶片加速,高效調度和自動化彈性伸縮的容器化產品可幫助用戶降低50%的計算成本,綜合性能比物理機還快30%,對雲原生浪潮下容器等產品適配程度極高。
另一方面,與容器服務做到融合。例如2019 年阿里巴巴雙11 系統以雲原生的方式上雲,基於神龍伺服器、輕量級雲原生容器以及兼容 Kubernetes 的調度的新的 ASI(alibaba serverless infra.)調度平臺。其中KubernetesPod 容器運行時與神龍裸金屬完美融合,Pod 容器作為業務的交付切面,運行在神龍實例上。
容器也是一種輕量級的虛擬化方案,神龍+容器+Kubernetes 的結合正是雲原生時代的最佳拍檔,也將是未來的主流技術形態。
事實上,神龍伺服器的成長與壯大,也是阿里雲彈性計算整體發展的一個縮影。從技術角度,阿里雲ECS的單實例穩定性從原來的99.95%提升到99.975%,跨AZ多實例穩定性從原來的99.99%提升到99.995%,均為全球最高水準。
經過10年發展,阿里雲彈性計算已經服務全球上百萬的客戶,在全球22個地域,構建了63個大型的數據中心。在國內超過80%的科技創新企業都運行在阿里雲上,阿里雲彈性計算服務為這些企業的產品業務創新提供著有力的支撐。同時,阿里雲彈性計算已覆蓋網際網路、金融、零售等行業近300種場景,支撐了各種流量高峰:如12306的春運搶票、微博熱點的暴漲流量、釘釘2小時擴容10萬臺雲伺服器等等。
對極致性能的追逐,仍將是雲計算發展進程中的不變的目標,神龍第三代伺服器為代表的阿里彈性計算,以依然在路上。