別人的宕機時間是AWS的七倍,AWS做了什麼?

2021-02-12 雲體驗師

北京時間2020年12月14日晚間,由於內部技術故障導致大面積宕機,谷歌多項服務均無法提供服務,類似的宕機新聞時有發生,每次的主角都可能都不一樣,到底誰的宕機次數和宕機時間更少呢?

市面上有一些公開的監測數據,比如來自downdetector.com和cloudharmony.com的數據,也有廠商比較自豪說自己宕機時間比同行老夥計時間短的,比如在2018年,亞馬遜雲服務(AWS)表示第二大雲計算公司的宕機時間是AWS的7倍。

AWS坐擁全球近一半的雲市場份額,理論上規模越大越容易出錯才對,AWS為了減少宕機時間都做了什麼呢?

在亞馬遜re:Invent大會,AWS全球基礎架構和客戶支持高級副總裁Peter DeSantis介紹了基礎設施層面上方方面面的創新,包括如何減少宕機,如何降本增效等等。

在減少宕機時間,在提升服務連續性方面,AWS有挺多的有意義的做法,AWS大中華區產品部計算與存儲總監周舸向中國媒體介紹了其中幾點。

AWS數據中心電力冗餘設計簡介

發電機組

從電力供應開始說起,周舸介紹了柴油發電機,介紹了配電室(E-house),UPS備用電源等方面。

E-house

令人印象深刻的是,為了減少可能發生的故障,AWS在採用現有商用方案(一般是嵌入式系統)的基礎上,捨棄了許多原有的東西,自己設計了控制電路的代碼。

AWS對基礎架構的控制能力可見一斑。

原裝設備控制電路存在的問題

在AWS看來,這些控制軟體有可能有Bug,如果Bug發生,廠商無法在短時間內完成修復,而如果這些軟體本身就是自己寫的,那麼就可以很快進行修復。這種對於現有服務方案的「不信任」貫穿著AWS架構設計的方方面面。

AWS CTO Werner Vogels曾說過,」Everything fails, all the time」,也就是說,所有東西都可能會壞掉,既然無法避免會壞掉,那就坦然接受,但一定要儘量減少壞掉造成的影響,要能預測什麼時候會壞、怎麼壞的,提前做出防範和應對。

比如,為了保障電力供應,AWS會在有外部電網供電和內部發電機組的基礎上,再加一組發電機,採用冗餘的供電方式,冗餘設計是貫穿整體架構設計的方方面面,但這會大大提升複雜度,越複雜就越危險。

在2020 re:Invent大會上,Peter DeSantis張貼了這樣一張圖,橫軸表示系統複雜度,縱軸表示故障造成的傷害(爆炸半徑),原本的Switch Gear(配電控制系統)和UPS系統處在較為危險的位置。

在Switch Gear(配電控制系統)系統的優化改造中,AWS通過自己寫軟體控制系統,刪除一些沒用的、添加部分對AWS有用的功能後,降低了系統複雜度,提升了系統的可靠性和安全性。

使用Rack Level小電池塊的UPS

在UPS系統改造中,除了軟體層的改進,還使用小容量(Rack Level電池)的電池,而不是以前超大容量的電池,從而降低電池爆炸造成的傷害,從而遠離了爆炸半徑。


AWS數據中心級別的高可用設計簡介

2000年左右,那是一個還沒有AWS的時代,Amazon在美國西雅圖有一個數據中心,隨著業務規模的擴大,亞馬遜開始意識到海嘯和地震的潛在風險,不能把所有東西都放這裡,於是就想在沒有地震海嘯威脅的美國東海岸建一個數據中心。

東西海岸70ms的超高延遲是絕對不能接受的

各種自然災害的影響範圍與距離造成的延遲

兩個數據中心放的太近,可能遭受同一個自然災害的侵襲,如果離得太遠,延遲會帶來數據同步的問題也同樣不可接受,美國東西海岸的距離就會造成這一問題。所以,數據中心之間需要保持一定的安全距離,而且要保證一毫秒以內的延遲。

類似的,AWS強調多AZ(Avaibable Zone)與多機房的概念不一樣,AWS每個Region有至少三個AZ,AWS認為多個AZ相互間要有一定的安全距離,以此來降低外部環境同時對多個AZ造成影響,來提升服務的可用性。

從Region的角度看,AWS為了減少Region間可能造成的幹擾,設計原則上是將各個Region獨立運作,一個Region出的問題不會傳遞到別的Region,在Region的級別提供冗餘。

AWS供應鏈保障

2020年是黑天鵝滿天飛的一年,突如其來的疫情,急劇增長的在線業務量,逼著所有雲廠商在加班加點忙著擴容資源,AWS也不例外,就AWS的規模來猜測,擴容規模要遠大於大部分雲廠商。

2015年,AWS供應鏈概況

為了保障擴容的順利進行,AWS在供應鏈採購管理上採取了多元化策略,供應商的數量,供應商覆蓋的國家和地區在數量上有了很大提升。如今,AWS的供應鏈系統覆蓋7個國家,86家供應商,以此來暴漲供應鏈的穩定。

2020年,AWS供應鏈概況

在疫情在全球爆發的2020年,多元化管理策略確實挺有價值,疫情的不確定性給供應鏈帶來很大挑戰,許多國家的生產環節和清關效率都出了很大問題,對此,周舸表示深有體會。

寫在最後

在可用性方面,公有雲作為公開可見的服務,更容易受到公眾關注,造成公有雲更容易出故障的印象。

拋開客觀感受不說,由於公有雲作為一種服務,而不是一個個on-premise產品盒子,要考慮的內容更多一些,比如供電,比如網絡,比如運營能力等,確實非常考驗雲廠商的綜合實力,需要有數不清的技術創新來打造更高的可用性和業務連續性。

隨著一步步迭代和發展,技術只會更成熟,運營經驗會更豐富。

相關焦點

  • AWS EC2的價格模型
    空餘的計算能力     競價實例建議在以下場景中使用:     * 具有靈活的開始和結束時間的應用程式,比如一些網絡爬蟲     * 僅在非常低的計算價格下才可行的應用程式,比如挖礦,當然用aws競價實例挖礦,按目前比特幣的價格,肯定是虧的。
  • AWS 的邊界在哪裡?
    但最近幾年來,每次現場或者是通過 Youtube 參加 Re:Invent 時,當大量各個領域的新服務、新功能湧現出來時,都會有種暈眩的感覺,出現越來越多看不懂的服務,近期決定花點時間,系統梳理和學習一下 AWS 近些年推出的一些服務,試圖從 AWS 服務背後找到 AWS 發展路線圖,試圖重新理解和定位 AWS,具體的,能夠回答以下幾個問題:AWS 是什麼?
  • 亞馬遜aws是什麼,亞馬遜aws提供的雲計算服務類型
    我做跨境電商也有六年的時間了,在電商這個行業也有自己的一些經驗。經驗也許沒有其他大賣家豐富,但會將我知道的都進行分享。
  • 亞馬遜AWS認證攻略
    為什麼要考亞馬遜AWS認證 我們先來看兩個數據, 第一個是據Gartner 2015 IaaS魔力象限報告(如下圖),AWS仍然保持在領導者象限的頂部,並且其營收比第二位到第五位跟隨者營收總和的5倍還多; 第二個是今年4月亞馬遜財報首度公開其業績,營收15.6億美元,同比增長49%。
  • AWS執行長Andy Jassy介紹AWS容器生態系統
    從而使得從故障中進行恢復的時間可能只需要100ms,資料庫的任何故障,在用戶面前都是透明的。「它允許你的應用程式可以透明的容忍任何主機的故障,即使是對於整個可用域而言」,Jassy提到,今天Aurora已經提供了對單區域-多實例的支持;多區域-多實例的支持將會在2018年初對外提供。
  • Kubernetes與IaaS資源融合實踐--以AWS為例
    目前Kubernetes已經能和OpenStack、AWS、Google雲等IaaS雲平臺很好的集成,比如Volume能和OpenStack的Cinder以及AWS的EBS集成,Pod網絡則能和雲平臺的VPC網絡集成,而Kubernetes Service和Ingress則分別適合與IaaS雲平臺的四層防火牆、七層防火牆集成。
  • AWS reinvent 2016:Primitives not framework
    這個 keynote 非常值得反覆觀摩 —— 整個 keynote 的表面上的核心是:我們如何通過 development,data,compute 上的革新來幫助客戶成為 internet scale 時代的 transformer,但細思下去,這是一個 aws 架構藍圖和產品路線圖的一個回顧和總結。
  • Terraform之申請AWS的EC2
    >  default = {    "0" = "/dev/sdh"    "1" = "/dev/sdi"    "2" = "/dev/sdj"    "3" = "/dev/sdk"    "4" = "/dev/sdl"  }}main.tf主配置文件,聲明使用的認證信息provider "aws
  • AWS成本優化之EBS
    先給您算個帳:AWS寧夏區GP2磁碟每月每G是6毛6分4,如果您配的2T的磁碟實際只用到200G,那您一年浪費...14342.4元,比4C/16G虛機還貴3倍多。如果您有50臺這樣的機器,就是白白浪費70多萬。aws磁碟支持動態調整嗎?黎叔負責任地告訴你,aws磁碟能不停機擴容,不能不停機縮容!停機也不能縮容!!就是不支持縮容!!!
  • Serverless|Framework——圖文玩轉 AWS Lambda
    你應該聽說過或使用過 JDK 1.8 裡面的 Lambda,但是 AWS 中的 Lambda 和 JDK 中的 Lambda 沒有任何關係這裡的 AWS Lambda 就是一種計算服務,無需預置或管理伺服器即可運行代碼,藉助 Lambda,我們幾乎可以為任何類型的應用程式或後端服務運行代碼,而且完全無需管理,我們要做的只是上傳相應的代碼
  • 一個經典的100%無伺服器架構在AWS上是什麼樣?
    回復 1024 有特別禮包來源:架構頭條上一篇:面試問我:在瀏覽器輸入 URL 回車之後發生了什麼https://aws.amazon.com/cn/api-gateway/Lambda 是一個函數,它有自己的工作任務,並且能做得很好。我們的前端需要獲得一個項目列表嗎?為這個功能新建一個 Lambda 函數吧。當用戶註冊後,我們需要發送確認電子郵件嗎?為這個功能新建另一個 Lambda 函數吧。
  • 面向小白的AWS入門介紹
    首先你可以訪問https://aws.amazon.com/cn/getting-started/  觀看AWS 基礎知識的視頻,或者去B站上搜一下看一下。那上面講的非常好,生動又形象,不是我們文字可以比的。所以小編我就不贅述了。(絕對不是懶!)然後申請一個免費的帳號。
  • 如何在 Amazon AWS 上設置一臺 Linux 伺服器
    你可以在 aws 官網[1]上查看所有相關的規則。因為我的這篇文章是關於在 AWS 上創建 Linux 伺服器,因此擁有 「Free Tier」 帳戶是先決條件。要註冊帳戶,你可以使用此連結[2]。請注意,你需要在創建帳戶時輸入信用卡詳細信息。讓我們假設你已經創建了 「Free Tier」 帳戶。
  • AWS 和 GCP 的 Spark 技術哪家強?
    本文依據構建時間和運營成本對 AWS 和 GCP 的 Spark 工作負載作一個簡短比較。實驗由我們的學生在數據孵化器The Data Incubator進行,數據孵化器The Data Incubator[4]是一個大數據培訓組織,專門為公司招聘頂尖數據科學家並為公司職員培訓最新的大數據科學技能。
  • AWS Marketplace China 產品系列介紹——雲鎖
    要訪問這個控制臺,您可以在登陸後,在網站(https://awsmarketplace.amazonaws.cn/)的右上角您的用戶名的下拉菜單中選擇您的 AWS Marketplace China 軟體選項(https://console.amazonaws.cn/marketplace/home?
  • 軟硬兼施,實戰構建基於 AWS IoT 的物聯網解決方案
    ➤ 溫度監測組件每5秒鐘採集一次數據,包括設備號、時間和溫度值,數據通過 WIFI 傳輸到 AWS IoT Core➤ AWS IoT Core 接收到溫度監測組件傳輸的數據,做如下三種處理:◆數據存儲到對象存儲 Amazon S3,一方面利用低成本的存儲空間,另一方面為將來的數據湖大數據分析做準備◆ 數據通過 AWS Lambda 函數進行解析,存入 MySQL 資料庫表,以便於用戶的應用直接去訪問關係型資料庫,對物聯網數據進行處理◆ 對數據進行實時監測,對於溫度超過閾值(比如40℃),發送郵件提醒相關人員➤
  • 10個技巧讓你更輕鬆地使用AWS
    靈感來自Simone Brunozzi最近在舊金山AWS聚會上的演講,並從我的最近一些 Fluxcapacitor.com諮詢業務收集,編輯了10個有用的時間及性能節省方案:
  • 走進aws re:invent的世界
    市場的一把利刃,成不成另說,至少嚇那些固步自封的vendor們一身冷汗了schema conversion tool:把本地(或者雲端)的資料庫A遷移到雲端的資料庫B(醉翁之意不在酒,在乎Oracle也)RDS for MariaDB:那些還在為RDS for MySQL license心驚肉跳的用戶,有了遷移的理由(Oracle繼續躺槍)WAF(Web Application
  • 【活動】亞馬遜 AWS CLOUD Training Section
    Cloud Certification-在國內,擁有AWS 雲計算平臺經驗的求職者在行業內一向很受青睞-證書擁有者平均年薪80萬RMB參照:https://www.globalknowledge.com/us-en/resources/resource-library/articles/how-to-earn-a-top-paying-aws-certification-salary
  • SoC之一:AWS Nitro Family
    但是從2009年就開始從事雲計算基礎設施的人,如果沒有到這個網站 https://perspectives.mvdirona.com/上膜拜過,可能有點說不過去了。        對,這種長發男就是大名鼎鼎的James, Hamilton, 職業的生涯的早期在IBM 做DB2資料庫,然後到了MS SQL Server,之後就到了AWS,專注於雲計算相關的基礎設施。