數據中心運營,雲巨頭是如何修煉「內功」的?

2020-12-27 雲智小號

亞馬遜雲服務(AWS)是全球最大的雲服務提供商,目前它在全球擁有24個地理區域,77個可用區(AZ)。如此龐大的雲基礎設施是如何運維的,一直以來都備受業界關注,而多年來AWS很少談及這個話題。

在今年的亞馬遜re:Invent在線峰會上,AWS首次揭開了自己雲基礎設施的神秘面紗,從數據中心的供電管理系統,雲數據中心的延遲,到晶片的研發等等,雖然只是冰山一角,但可以從不同的視角更加直觀、清晰的了解AWS是如何修煉「內功」的。

讓深度睡眠不再「奢侈」

在AWS全球基礎架構和客戶支持資深副總裁Peter DeSantis看來,「AWS保持如此龐大、複雜的雲基礎設施的穩定性和可靠性沒有捷徑,是靠一步一步的積累走出來的,必須對每個細節進行研究」。

對於負責數據中心運維的工程師而言,充分的睡眠是相當「奢侈」的東西,因為他們會時刻收到來自數據中心基礎設施中的各項報警郵件、簡訊等信息,Peter也不例外。

Peter通過數據中心的配電系統和UPS管理來展示其如何通過良好的數據中心運維手段來保證自己的睡眠質量,十分形象。圖上的橫軸為雲數據中心的複雜度,縱軸是破壞半徑,當AWS雲數據中心的發電機、配電系統和UPS複雜度越高,破壞半徑係數越高的時候,Peter的睡眠質量就處於Insomnia的失眠狀態;而當Peter通過優化AWS雲數據中心基礎設施之後,其睡眠質量得到了明顯改善,處於了Deep Sleep深度睡眠的狀態。

Peter是如何做到的?總體來看,關於AWS雲數據中心運維可總結為可靠可控,降低管理複雜度。

AWS雲數據中心的供電系統由發電機組、配電系統和UPS等組件構成。AWS為其發電機組配備了冗餘的發電機來提升可靠性。

相比於發電機可以通過冗餘來作為基礎的思考,配電系統和UPS就要複雜的多。「不論是GE、ABB還是施耐德,它們的配電開關系統功能都很完善,但挑戰是對於AWS這樣的超大規模雲數據中心而言,並不是每個功能都適用」,Peter坦言。

說白了就是配電開關的嵌入式軟體束縛了AWS數據中心運維的手腳,而AWS憑藉多年的運維經驗很清楚哪些功能適合,哪些根本不需要。比如有的功能,AWS不需要;而有的,AWS有更加優化的方案。

Peter總結了三個方面:第一,當發現軟體系統的Bug,AWS工程師的響應很快,而等配電供應商去修改周期更長;第二,有些功能與實際用途不匹配;第三,AWS需要經常優化自己的管理系統、流程等,嵌入式軟體無法保證可控性。

基於此,AWS重寫了配電控制系統,從而為其配電系統帶來了可控性,運維也更加簡單。

同樣對UPS的控制系統,AWS也通過重寫UPS控制系統來滿足自身對功能的需求。Peter特別介紹了如何為UPS電池減重,從而大大降低了UPS電池管理的複雜度。

標準的一兆瓦UPS電池重達12000磅,AWS重新定製了UPS電池,做成了5000瓦一個,可插拔的放入到機架中,並通過專有控制系統來對UPS進行管理。這樣做的好處的顯然的,「UPS電池單元體積和重量降低後,破壞半徑會降低,可插拔的方式讓工程師可秒級換掉損壞的UPS,運維複雜性大大降低」,Peter說。

「這些是AWS設計基礎架構中最重要的思維模式,思考它的破壞半徑大概有多大,同時它的複雜度有多大,從這兩個維度想辦法去提升運維穩定性」,Peter總結說。這也讓AWS雲數據中心的UPS的冗餘系統擁有了7個9的可用性,遠超行業的平均水平。

「一毫秒」是關鍵

從電商業務起家的亞馬遜,最早的數據中心位於美國西雅圖,隨著業務的發展,亞馬遜開始在美國多地建立數據中心,以滿足不斷增長的數據規模和業務需要。

在數據中心的地理位置選擇上,亞馬遜會綜合考慮諸多自然條件因素,比如雷電、龍捲風、海嘯、地震等,這就使得數據中心的之間的距離較遠。Peter說,早期亞馬遜的數據中心之間有70毫秒的延遲,如何將數據中心之間的延遲降低?於是,亞馬遜考慮到數據中心之間數據傳輸,以及自然條件的因素,找到了平衡的區域AZ概念,即在同一區域部署多個數據中心。

於是亞馬遜在2003年開始著手考慮雲業務AWS的時候,首次提出了區域(Region)和可用區(AZ)的概念。區域英文名稱Region,是指雲提供商的基礎設施所覆蓋的範圍,比如你的雲數據中心位於北美或者亞太,抑或歐洲。在《Gartner的雲基礎設施和平臺服務魔力象限》報告中,如果要參與評估,會要求雲提供商在說明格式中表述關於位置的要求:「按國家、公司開展業務所用的語言和可提供技術支持的語言所劃分的數據中心位置,供應商必須在至少三個大洲擁有經過ISO27001審核(或同等標準)的數據中心。」所以在一個區域,雲提供商會建設一組數據中心。

可用區英文簡稱AZ是指一個數據中心,即在一個區域(Region)中可包含多個可用區(AZ),AWS為每個區域標配至少三個可用區,比如AWS位於中國的北京區域(光環新網運營)和寧夏區域(西雲數據運營),至少就有6個數據中心。

「AZ之間的距離在若干英裡或幾十英裡之間,這樣的距離是保持數據中心延遲在一毫秒的關鍵」,Peter說。

也就是說在保證一毫秒關鍵的前提下,讓數據中心之間的距離拉遠,來減小數據中心的相互幹擾,甚至是雷電等不可預測因素同時給相近的數據中心帶來相互影響。

在AZ的設計上,AWS為數據中心配置獨立的網絡,供配電系統,配線系統等。

所以,AZ之間儘量的互不幹擾,獨立系統,以及低延遲等嚴苛因素的配置,不僅帶來的更好的冗餘,也將破壞半徑的影響再次降低。

如圖中所示,一個AWS區域,配備了3個獨立的可用區,以及兩個網絡接入點(Transit Center)。

「目前,AWS在24個地理區域擁有77個可用區,並已公布計劃在澳大利亞、印度、印度尼西亞、日本、西班牙和瑞士新建6個AWS區域、18個可用區」,Peter說。

同時,除了可用區架構之外,AWS也會充分考慮人對數據中心的影響。AWS數據中心執行嚴格的保密制度,「AZ所在的位置是嚴格保密的,比如所有運往AZ的硬體設備,都會首先運達一個中轉中心,再由那裡運往AZ所在的位置」,AWS大中華區產品部計算與存儲總監周舸如是說。

雲端「適用」的晶片設計

自從2015年亞馬遜收購Annapurna labs後,AWS雲上的晶片研發就在加速奔跑。如今,其自研的Graviton2處理器已經上市,同時Nitro系統也演進了到了第四代。

「AWS是目前在雲端唯一能夠提供支持英特爾、AMD、英偉達和ARM處理器的雲提供商,Nitro系統起了非常關鍵的作用」,Peter說。

正是如此廣泛的晶片支持,使得Amazon EC2計算實例,從2019年的270種跨越到了現在超過400種,並不斷給用戶帶來更具性價比的計算實例選擇。

在今年的re:Invent大會上,AWS發布了Amazon EC2 Mac實例,來支持2800萬Apple開發者在雲端構建macOS環境,並可以動態擴容,按需付費;基於AWS Graviton 2處理器的C6gn實例,可提供100 Gbps的網絡性能,與當前基於x86的同類實例相比,性價比提高了40%。

而且,在Nitro系統的加持下,AWS專門為機器學習推出了滿足模型訓練和推理的高性價比晶片,比如使用AWS自研AWS Inferentia晶片的Inf1實例,為機器學習推理帶來最優的性價比;以及剛剛發布的全新機器學習訓練晶片AWS Trainium,與標準的AWS GPU實例相比,可帶來30%的吞吐量提升,以及降低45%的單次引用成本。

為什麼AWS自研了基於Arm架構的晶片後,Graviton2很快在雲端獲得了諸多用戶的青睞?

「Graviton 2處理器跨越到了更多的領域,激活了整個生態系統,很多基於Linux系統的應用都可以快速、簡單的轉到Graviton上」,Peter說。

AWS在晶片設計上有自己的理解,「AWS要做的是真正滿足雲端性能而且省電的處理器,這是關鍵」,Peter解釋說,「所以我們自研處理儘量做到多核,以及滿足微服務的發展。」

近年來,AWS在晶片上的每一次迭代,都會給用戶帶來更優的計算實例性價比,性能提升的同時,整體成本也大幅降低。

在給用戶帶來高性價比晶片的同時,通過自研晶片的發展,AWS大大降低了其雲數據中心的碳排放,降幅達88%。

結語

Peter還提及了數據中心採購供應鏈的多元化,以及數據中心的可再生能源對AWS雲基礎設施的影響。在2015年,AWS雲數據中心中4個關鍵組件的供應商來自4個國家和地區的29個供應商,而在2020年已經變成7個國家和地區的86個供應商,多元化夯實了AWS抵禦風險的能力;同時AWS也積極擁抱再生能源,如今的規模已經達到每年6.5GW,並承諾在2025年實現100%使用再生能源。

相關焦點

  • 特殊新學期修煉教師特別內功
    在這個特殊新學期,對於每一位教師來說,都將面對一個在後疫情時代如何修煉特別內功的挑戰。從上一學期最初的線上教學,到分批開學後線上線下的混合式教學,再到現在的全面開學複課,教師經歷了一次看似被動、實則主動的教學場景轉移和教學方式變革。在這場教育系統的戰「疫」中,每位參與其中的教師在現代數位技術運用能力和立德樹人教育方式上都得到了提升與更新。
  • 跨境電商修煉內功之財務數據管理
    那麼在此時局下,跨境電商賣家該如何做好自我調整? 為此,特意推出一個系列——跨境電商內功修煉三法: 1.跨境電商賣家之財務數據管理 2.跨境電商賣家之組織架構管理 3.跨境電商賣家之庫存備貨管理 天下熙熙,皆為利來;天下攘攘,皆為利往。
  • 資產運營面積超百萬平米,納什空間如何修煉內功?
    抵抗住大環境周期性的關鍵,就是扎紮實實練好企業「內功」。納什空間短期內不會將規模擴張作為首要目標,而是計劃在精細化運營服務和科技兩方面繼續穩紮穩打。張劍在地產行業有著十幾年的資深經歷,在他看來,過往十幾年整個商辦地產行業的發展都相對粗獷。過去商辦地產價格一路上行,速度是首要的,圈地、高周轉、貨如輪轉,動作慢就可能錯失賺錢的機會。
  • 喵星人竟然跟隨馬保國老師修煉內功?
    有個關於貓咪的小知識:新生貓咪身體裡的水分佔全身的84%,成年後的貓咪身體的水分也佔到了60%,這些數據表明貓咪啊和人體內的水分含量差不多,但是為什麼貓可以柔軟到任意凹造型,而人卻不可以呢?這很有可能是貓咪跟隨馬老師學習了混元形意門的馬家內功。請看下面兩張圖,是不是很神奇,貓咪怎麼就能在這麼窄的空間裡擺出這樣的造型呢?
  • 太極實戰拳法與內功修煉
    【太學堂倪元海精品課程】之:《混元太極實戰拳法十三式與內功修煉》
  • 專家敦促企業抓緊修煉「內功」
    如何更好地利用雲計算、大數據、人工智慧等理念與技術,是中國乃至世界企業當前面臨的一大課題。在17日舉行的第三屆世界智能大會·國際雲製造峰會上,全球工業網際網路、雲製造領域的國內外專家圍繞「加速智能升級 共建互聯生態」主題進行了交流分享。創新是工業網際網路靈魂工業網際網路被稱為第四次工業革命的敲門磚。
  • 太吾繪卷怎麼修煉內功?各極限純屬性內功高效達成方法
    《太吾繪卷》作為現在國產最為熱門的武俠遊戲,不少玩家都對遊戲中龐雜的內功系統感到困惑。遊戲中的純屬性內功想要達成的話很費時間精力,所以為了讓玩家能快速的達成,小編為大家帶來了《太吾繪卷》各極限純屬性內功高效率達成方法,希望對大家有用。
  • 大幹新基建|探訪騰訊國內最大數據中心,百萬臺伺服器啥概念
    據騰訊數據中心相關工程師介紹,「100萬臺伺服器」的概念就相當於有能力可以把目前包括微信、QQ、騰訊視頻等騰訊公司所有的業務數據都放到清遠數據中心來存儲、處理。清遠數據中心的園區面積超過400畝,約等於40個標準足球場大小,未來這座數據中心將連接騰訊雲在粵港澳大灣區中所有核心節點和邊緣節點,形成全面覆蓋大灣區、輻射東南亞的數據中心互聯平臺。
  • 數據中心產業鏈運營模式剖析
    早期的計算機房擁有伺服器和網絡便稱之為數據中心,數據中心已經成為了數據集中處理場所的代名詞。就我國而言,近100萬的數據中心質量和數量也是參差不齊,這些數據中心承載的業務五花八門,但運營形式歸結起來也就五六種,本文將對當前以及未來可能出現的數據中心運營形式做個全面的介紹,讓大家對數據中心有更加深入的了解。
  • 雲端磁碟:網絡巨頭如何存儲數據(上)
    而且對於運行超大規模的數據中心的其他網絡和雲計算巨頭來說也是如此,比如亞馬遜和Facebook。雖然大多數數據中心已經通過在一個存儲區網絡添加更多硬碟容量來解決擴充存儲的問題,更多的存儲伺服器,通常是更多的資料庫伺服器,因為雲環境的性能限制,這些方法卻失效了。在雲環境下,任何時候都可能有成千上萬的活躍用戶的數據,而且數據的讀寫在任何時刻都能達到數千TB。
  • 內功修煉,彙編語言入門教程
    CPU 本身只負責運算,不負責儲存數據。數據一般都儲存在內存之中,CPU 要用的時候就去內存讀寫數據。但是,CPU 的運算速度遠高於內存的讀寫速度,為了避免被拖慢,CPU 都自帶一級緩存和二級緩存。基本上,CPU 緩存可以看作是讀寫速度較快的內存。但是,CPU 緩存還是不夠快,另外數據在緩存裡面的地址是不固定的,CPU 每次讀寫都要尋址也會拖慢速度。
  • 《政務雲數據中心發展白皮書》發布
    原標題:《政務雲數據中心發展白皮書》發布隨著國家提出加快「新基建」的號召,承載數據分析、存儲、計算的數據中心再次被推向新的發展熱潮,成為提升數字經濟能級、助力現代化治理、實現智慧生活的「算力底座」,在推動「新基建」高質量、高效能發展的過程中發揮著重要作用
  • 8000億雲服務市場:巨頭爭霸,創企「搶食」
    雲服務商紛紛搶灘,投資人值得期待雲計算是典型的全球競爭產業。以巨頭為例,阿里雲已在歐洲、亞洲、中東等地落地應用。3月15日,阿里雲宣布在印度尼西亞的首個數據中心開始運營。對於亞馬遜AWS、微軟Azure都在搶先布局的中東地區,阿里雲也在去年宣布將在杜拜建設第二個數據中心。同一個月份,騰訊雲也宣布在香港、美國以及印度增設的四大國際數據中心面向全球開放服務。據悉,騰訊雲將在不久後在泰國、俄羅斯、日本等地開放數據中心;3月20日,金山雲宣布俄羅斯數據中心開啟內測,地點位於首都莫斯科城內。
  • 國美內功修煉ing:創造服務體驗 提升購物價值
    數據顯示,一季度國美管家GMV同比大幅上升368%,其月均訂單量同比顯著提升253%。國美表示,後服務將是國美未來努力的方向,後服務的發展將補充國美在線上交易、線下體驗的雙平臺「共享零售」模式中的服務能力,增強競爭中的軟實力。國美創造服務體驗家電清洗維修亂收費,工人不專業弄壞家裝等等給消費者造成困擾。最近,張先生(化名)就被空調清洗亂收費鬧得頭疼。
  • 數據中心運營必須適應雲計算時代的四種方式
    隨著越來越多的企業採用雲計算服務,傳統數據中心的角色和作用如今已經發生了巨大的變化,而數據中心運營需要不斷發展和進步以保持相關性。數據中心將會消亡嗎?隨著雲計算技術的不斷發展,這個問題一直困擾著許多數據中心運營人員。
  • 曲阜師範大學改名引唏噓一片 網友疾呼多修煉內功
    這是小編熱愛的母校~無論現在如何嫌棄,這段時光都會是日後最美的回憶。"網友調侃:改中國師範大學還是中華孔子大學?6月17日,曲阜師範大學官網掛出了徵集新校名的通知,稱從上世紀90年代起曲阜師範大學就已經開始協調改名事宜。齊魯網就此事報導後,引發網友熱議,有網友@喜兒嘻嘻調侃:曲阜師範大學"想叫中國師範大學麼?還是中華孔子大學?"
  • 浙江華通雲數據中心在杭州啟用
    杭州網訊 1月23日,浙江華通雲數據中心暨雲平臺在杭州正式啟用,浙江華通雲數據中心採用阿里雲的雲計算系統部署方案,對外提供「專有雲」、「企業雲」和「桌面雲」等雲計算服務,這是業內首個為大型數據中心提供的成熟的雲計算解決方案。浙江華通致力於面向公眾、政府、企業的雲服務提供及基礎資源建設,為今後「智慧城市」、「數字家庭」的建設發展提供堅實的基礎。
  • 東南亞各國的數據中心市場下一步將如何發展?
    隨著2020年的到來,東南亞的雲計算和數據中心市場發展狀況如何?從公共雲巨頭業務的快速增長到重新專注於建設新的數據中心,人們關注2019年發生的各種動態發展,以期對未來一年可能出現的趨勢和方向有所了解。
  • 從運維到技術運營的 14 年修煉之路
    阿里妹導讀:不同於其他技術人的進階經歷,熊昌偉畢業後從未跳槽,在用友網絡潛心修煉 14 年至今。從測試、開發管理到運維,再到技術運營總監,他的轉型與成就來自無數次刻意練習和困境中的逆行身影。每一段打怪升級的鮮明烙印,皆因他事事有回應,件件有著落。
  • 仍在燒錢培育市場,需修煉內功
    據了解,每日優鮮將在青島市城陽區建設全國生態鏈總部產業園及智能供應鏈中心,打造上下遊生態鏈企業聚集的產業集群。每日優鮮創始人兼CEO徐正表示,未來五年將全面進入線上生鮮超市時代,每日優鮮會重倉供應鏈。年初疫情也加速了生鮮電商的發展,隨著每日優鮮的融資,生鮮電商頭部效應會愈加明顯,市場將被巨頭瓜分。