阿里突遭斷網斷電!雙11最驚險一幕剛剛曝光

2020-12-27 和訊

  雷剛 發自 凹非寺

  2020年11月11日晚,又一年天貓雙11狂歡接近尾聲。

  新交易紀錄、新流量峰值,一切都是十全十美的樣子。

  此時,阿里巴巴CTO程立(魯肅)才將一段實錄視頻公之於眾——

  11月5日凌晨,阿里技術上下完成雙11大考期間最後一次全鏈路壓測後休息和交接間隙……伺服器連續遭遇了兩次攻擊。

  第一次,凌晨兩點左右,監控大屏顯示四個地區數據中心數值迅速下跌,技術保障團隊啟動緊急響應處理,確定遭遇了斷網攻擊。

  緊接著第二次,2:10,更兇猛直接的攻擊來了。華東區域某個數據中心,直接被拉閘斷了電……

  但最令人震驚的是,這一切居然是阿里巴巴合伙人、雙11新零售技術負責人吳澤明(花名範禹)幹的。

  突然襲擊,實彈攻擊

  這不是事先明確的一次突襲。

  甚至只有範禹和霜波——阿里雙11技術大隊長、技術安全生產負責人陳琴「小範圍」知道。

  但是即便如此,陳琴看到這次斷網攻擊時還是嚇了一跳,因為與之前商定的攻擊量級並不符合。

  當時,明面上壓測已經結束,參與的阿里技術工程師們,有的在進行夜宵補給,有的在工位上小憩休息,對於這次意料之外的實彈攻擊,沒有一點點防備。

  慶幸的是,技術保障上下訓練有序。迅速鎖定故障源頭,啟動應急方案,緊急展開修復……

  僅1分28秒,一切如故。

  甚至如果恰好有在那時下單的用戶,都難以察覺有過「抖動」。

  對於阿里技術上下,雖然事出突然毫無防備,但對於這樣的突襲應對,已然肌肉記憶一樣……因為在阿里,這種突襲早已普遍而日常,還有專門因此形成的紅藍軍對抗。

  藍軍負責設計突襲彈藥,常在不經意間發起突襲。紅軍則需要在極短時間內修復故障。

  對外,這種技術突襲和紅藍對抗一直不為人知。

  對內,無數次突襲和演練之後,連故障恢復機制都形成了「1-5-10」的方法論,即在1分鐘內發出警報、5分鐘內定位故障、10分鐘內修復故障。

  這也是阿里敢將可用性目標提升到達99.9999%的底氣所在。

  之所以能如此精確,就是因為一次次突襲演練之後得出的結果。

  阿里內部,還將這種紅藍軍的偷襲與防守,類比為對系統打疫苗。

  故意在可控半徑內將故障注入系統以測試系統的響應,類似於將少量有害物質注入體內激發免疫反應以防止未來疾病。

  這似乎很瘋狂,但能讓公司提前為包括宕機在內的各種故障做好準備,將其影響降至最低。

  甚至還有更瘋狂的舉動。阿里為這種突襲專門設計了App,簡化成一個「按鈕」,串聯了阿里巴巴經濟體的各種技術架構和業務手段。

  方便隨時隨地,按下按鈕完成突襲。

  它可能發生在任何時候,比如,某一次會議結束後所有人都處於放鬆狀態時。

  這次雙11前的突襲攻擊,就出現在範禹閒庭信步走出「光明頂」時——雙11核心作戰室內沒人察覺異常。

  有內部工程師把這種偷襲演練與馬斯克SpaceX那次知名的「事故逃逸」演習類比。

  核心都是以真實可能發生的事故,來實際檢驗自身的技術和應急保障機制。

  你聽過混沌工程嗎?

  Chaos Engineering,混沌工程。

  被稱為「故意破壞的藝術」,主要通過主動製造故障,測試系統在各種壓力下的行為,從而識別並修復故障問題,以此提高生產環境中系統的容錯性和可恢復性,最終實現系統彈性的提升。

  在矽谷科技公司中,混沌工程已經有過實踐。

  2010年,Netflix團隊開發出了Chaos Monkey——混沌猴子這個工具用於測試系統。

  模擬一隻討厭的猴子,在系統中隨機位置上蹦下竄,不停搗亂,直到搞掛你的系統。

  隨後的幾年裡,Netflix還將混沌猴子在GitHub上開源分享,並指出這種隨機故障測試,對測試分布式系統的穩定性有傳統方式難以超越的優勢。

  在這樣一整套原理基礎上,混沌工程師這樣的崗位開始在矽谷出現,角色和功能如這次阿里對外公開的藍軍,把這種隨機破壞性攻擊,變成一種日常測試手段來提升自身的抗災能力。

  混沌工程是一種專門的理論,本質上是一種反脆弱的思想。

  如果再往上追溯,哲學源頭可以找到尼採——殺不死我的必使我更強大。

  而對於阿里來說,混沌工程思想理念,與技術穩定體系需求不謀而合,與阿里異地多活、容災容錯的發展需求契合在一起。

  實際上從2010年左右,阿里電商域開始嘗試故障注入測試的工作,開始的目標是想解決微服務架構帶來的強弱依賴問題。

  後來經過多個階段的改進,最終演進到MonkeyKing線上故障演練平臺。

  作為阿里集團使用廣泛的混沌工程平臺,MonkeyKing不但幫助很多業務團隊進行故障演練,提升了業務穩定性,同時也支撐阿里集團內部定期的聯合演練活動。

  2019年開始,還開始在小範圍生產環境內推進突襲演練,並對外開源了阿里巴巴混沌工程工具ChaosBlade。

  而這次雙11前夜的突然襲擊、斷網斷電,本質也是混沌工程的一次實踐。

  即便雙11這樣的節點裡,顯得異常驚險,但對於阿里來說,擁抱「混沌工程」,搞出「紅藍演練」,也是業務倒逼的結果。

  被逼出來的阿里

  阿里歷史上很多業務改革,都與雙11密切相關。

  比如「異地多活」,起初就是因為雙11很火,流量帶來擴容需求。

  阿里集團CTO程立就回憶說,2009年第一次雙11,因為是淘寶商城臨時決定搞的活動,技術側還不太有感覺。

  但2010年,雙11流量一下子漲了好幾倍,伺服器根本不夠用……當時在支付寶的程立,親身經歷了把支付寶系統一再瘦身,只留下核心的支付鏈路,才總算扛過了那次交易洪峰。

  而其後對於每年迎來新紀錄流量洪峰挑戰的雙11,阿里開始在平時倒逼改革。

  另外,也有一些意想不到的天災人禍,帶來容災警醒。

  2013年夏天,因為杭州40°高溫酷暑,全城電力供應極度緊張,而阿里的伺服器機房又是耗電大戶,拉閘限電的威脅迫在眉睫,一旦機房停電,業務就關門大吉了……

  上述等等經歷,讓阿里技術意識到,不能再等到下一個高溫酷暑的夏天,不能再等到下一次天災教訓,再來思考如何保障業務穩定性。

  也不能忽視地域中的物理災害,影響到線上數以億計的用戶。更不能因為基礎設施的限制,阻礙快速增長的業務。

  所以先是解決同城多活的挑戰,其後又進一步解決異地多活的世界難題。

  都是面對問題和挑戰,倒逼出來的創新。

  實際上,這種倒逼出創新的案例,在阿里發展歷史上比比皆是,例如支付寶研發OceanBase,阿里雲研發飛天雲作業系統……

  當年為了支撐雙11的流量,支付寶一個不到100人的團隊,研發出可代替甲骨文資料庫的OceanBase資料庫。

  今年,在去年雙11核心系統100%上雲後,程立透露——阿里把全副身家性命放到雲上,飛天雲作業系統、神龍伺服器集群、中臺等數字新基建還在不斷升級,技術的溝溝坎坎幾近解決,應對峰值不再是最大技術挑戰。

  消費者的熱情越來越高,倒逼阿里技術持續進化。

  而混沌工程和突襲計劃,也是這種倒逼著進化的一部分。

  網際網路本身就充滿了未知和不確定性,例如高溫、洪水、颱風、暴雨、地震、雷電等自然災害以及人為操作失誤等種種黑天鵝事件,都可能對業務造成嚴重打擊。阿里敢在雙11期間對業務系統發起各種高危故障,這種自信源自成熟的突襲機制,而底氣則來自阿里雲十年來搭建的災備體系。。

  Gartner就曾預測過,2020年,90%的容災操作會發生在雲端。尤其是大型雲服務商,數據中心都遍布全球,是企業天然的異地災備中心。

  而阿里雲的雲災備能力無疑處於雲廠商第一陣營。

  阿里雲曾率先在業內提出數據中心的「四個不」原則,即不在同一火山地震帶,不在同一水系,不在同一電網,不在同一運營商網絡出口。這是傳統企業所不具備的硬實力。

  另一方面,阿里雲的災備能力全面涵蓋了網絡、資料庫、存儲等領域,這是能應對各種故障的軟實力。

  舉個慄子,在存儲領域,阿里雲憑藉存儲高可用等能力,持續三年入選Gartner全球雲存儲魔力象限,並且被列為全球領導者地位。

  所以只有兼具軟硬實力,才能最大程度地保障業務和數據穩定安全。這也是阿里敢把全副身家性命都放在雲上的原因之一。

  甚至這種「最大程度保障」,還需要考慮到被斷網斷電的極端場景……

  所以,拉閘斷電的攻擊成功了嗎?

  11月5日凌晨02:10,阿里華東區域某一數據中心被內部拉閘斷電。

  瞬間,蓄電系統啟動……伺服器供能無縫切換,未受一絲影響。

  4秒鐘後,柴油發電機群啟動。電力完全恢復供應,數據中心運轉如常。

  阿里雲災備體系,至此交了滿分答卷。

  傳送門:

  混沌工程ChaosBlade 項目地址

  https://github.com/chaosblade-io/chaosblade

本文首發於微信公眾號:量子位。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:王治強 HF013)

相關焦點

  • 請學校高抬貴手,一位購物車已滿學生吶喊:雙11不斷網行不行?
    並很快做出了回應,沒有接到通知和其他安排說雙十一當天不斷網,按照正常的情況,學校規定12點正式斷網雙11主要是為了「剁手」,甚至說是一個肆意的狂歡,放縱自己的消費,而對於大學生來說目前他們所有的收入都是父母提供的,這不利於養成一種良好的消費觀、人生觀、價值觀。此外,(雙11)還會影響學生們的作息,打亂他們的學習生活的正常規律,這個不合適,所以我們原則上是不會放開的。
  • 雙11大作戰,阿里媽媽發布最強營銷攻略
    9月8日,阿里媽媽召開官方商家大會,針對即將到來的雙11,阿里媽媽聯動天貓雙11推出超強營銷產品矩陣,從全新的推廣規則到產品能力升級加持,為商家帶來了雙11專屬實操攻略。這屆雙11的營銷節奏與以往不同,在今年的阿里媽媽M峰會上,雙11首次喊出了「兩次爆發,雙倍快樂!」的口號。
  • 小米米家智能寵物餵食器開箱體驗:定時定量餵食,斷電斷網也不怕
    除此之外,即便是斷電斷網了,也不必擔心家裡的寵物斷糧,因為這款米家智能寵物餵食器內置了緊急供電系統,通過四節5號乾電池來保證在突發的斷網斷電情況下,也能保證已設定好的定時定量餵食計劃,真心的做到讓我們安心的外出。
  • 李佳琦、薇婭成淘寶主播典型,雙11史上流量最大,阿里製造流量黑洞
    用天貓及淘寶總裁蔣凡的話來說,今年是獲得最廣泛消費者參與的一屆雙11。相比去年,今年參與雙11的用戶新增了1億多。蔣凡預估,今年雙11當天淘寶App日活將突破5億。新消費人口、新消費供給以及新消費場景和行為是今年天貓雙11最顯著的特徵。 這得益於過去數年阿里在流量獲取上的一系列布局。
  • 阿里寶卡曝光:19元起,淘寶、天貓、優酷等阿里系APP免流
    什麼時候螞蟻寶卡能把阿里系的給免流呢?」現在,距離這一「目標」阿里很快就要實現了,但不是「螞蟻寶卡」,而是阿里新推出的「阿里寶卡」。阿里寶卡曝光:19元起,淘寶、天貓、優酷等阿里系APP免流  近日,有網友透露,阿里將聯合發布一款「阿里寶卡」套餐。
  • 阿里大文娛生態整合周年,優酷為雙11晚會強勢「帶貨」
    李連杰、範冰冰、莎拉波娃、菲戈等聯袂出席,「超級碗」的製作團隊保駕護航,雙11晚會已經成為了媲美奧運會開幕式的超級IP。在頂級內容的強勢導流下,優酷將獲得前所未有的「生態賦能」;而作為阿里大文娛的核心引擎,優酷用紅包雨、免單抽獎券、會員五折購買優惠、搶1億紅包贏iPhone X等,為雙11晚會送上「神助攻」。
  • 驚險一幕:人熊對峙
    前不久,在內蒙古大興安嶺北部原始林區烏瑪林業局零公裡管護站附近,一對棕熊突然從樹叢中闖到公路上,擋在汽車面前,上演了一場人熊對峙的驚險一幕。從畫面上看,兩隻棕熊膘肥體壯,毛色發亮,在夜色映襯下,眼睛閃閃發亮,望著汽車車燈。
  • 手機信號滿格卻總是斷網怎麼回事?為什麼會這樣?
    手機信號滿格卻總是斷網,究竟是怎麼回事?機信號滿格卻總是斷網我們來看看。沒網的情況,當然要區別對待。雙4g開啟現在的手機大部分都是雙卡,用的時候可以選擇是否開啟雙卡雙待功能,同時用兩張卡的情況下網絡就會產生互交,相互影響,網絡不穩定就會經常發生,可以看看你是否開啟了雙4G的情況。
  • 盤點大學宿舍「4大神器」,斷網、斷電都搞定!你用過哪幾種?
    文/木木寶貝育兒記 上過大學的學生都知道,每一所大學的宿舍都有一套規章制度,即使會有有地方不一樣,但主要的部分都是不變的,例如:晚上11點斷電,晚上10點斷網,用電的功率有限制,超過後就會跳閘、斷電等等。
  • 為什麼大學寢室晚上會斷網斷電?畢業後才明白學校用心良苦
    就拿寢室的規章制度來說,每天晚上到了規定的時間後都會斷網斷電,很多同學對於這一點都非常困惑,甚至很不滿意。那麼為什麼大學寢室晚上會準點斷網斷電呢?今天我們就來看看宿管阿姨的答案吧!宿管阿姨告訴大家,學校其實是為了保證大家的睡眠質量,照顧到每一個同學的習慣,才會到了預定的時間斷電斷網。而且學校也考慮到了大家的學習和查資料的需求,一般都會在晚上十一點以後才斷網斷電。這樣既可以保證大家擁有充足的學習和休閒時間,也可以保證同學們的睡眠狀況。
  • 康泰醫學尾盤閃現驚險一幕,股價2分鐘內從308元跌到118元|鈦快訊
    然而發生在尾盤驚險一幕,康泰醫學突遭資金砸盤,2分鐘內股價從最高308元跌到118元,追高者可謂損失慘重。據界面新聞報導,有熟悉資本市場人士認為市場的遊資在「做收盤價」。「假設57元/股左右買的,拉到200-300元/股。即便明天開盤跌了,也能有盈利,而且最後換手率也不高。」
  • 《拳王阿里》劇照首度曝光
    《拳王阿里》劇照首度曝光2001年08月16日11:10:26 南方都市報 竇婉茹   以影片《黑衣人》名聞四海的黑人偶像巨星威爾·史密斯再度以拳王阿里的銀幕形象引起全球影迷的關注,影片《拳王》的劇照日前首度曝光。
  • 史上最慘「雙11」:阿里兩日蒸發7691億,京東跌超千億
    公開資料顯示,雙十一購物活動首次出現是在2009年11月11日,當時淘寶網舉辦了一個半價清倉優惠促銷活動,引發網民大量搶購。剛開始的促銷活動還叫"光棍節",並非今日的"雙11購物節"。之後,京東公司申請註冊了"雙11·11及圖"、"京東雙十一"、" 雙11·11上京東及圖"等五枚商標,經核准使用在第35類"廣告、計算機網絡上的在線廣告";第38類"電視播放";第41類"教育"等服務上。
  • 最擔心的事情發生!蓬佩奧突遭國會調查,川普或將進退維谷
    01蓬佩奧突遭國會調查據報導,美國眾議院宣布對美國國務卿蓬佩奧進行調查。02最擔心的事情發生!在蓬佩奧事件未發生之前,川普政府剛剛獲取一場大捷。最可氣的是,怕什麼來什麼。似乎這場大捷就這麼被蓬佩奧的失誤給衝散,畢竟作為川普堅定的心腹、助手,被捲入這樣的事件中,著實是異常讓人惱火的事情。這樣的事有可能會將川普連帶進去,對於接下來最後的事務極其不利,自己也可能被帶入牢獄之災。
  • 「雙11」爆賣背後 艱難時刻飛豬「掘金」
    本報記者 李立 上海報導「最艱難時刻的勝利才是勝利!」11月18日,阿里巴巴集團副總裁、飛豬旅行總裁莊卓然在2020飛豬商家大會上表示。600多個商家湧進大會,復盤「雙11」只是其一,更多的人想在疫情仍不明朗的當下,尋找下一步的機會。「從旅遊人次和交易規模看,飛豬核心業務快速復甦,國慶開啟了同比正增長。」
  • 驚險一幕!男子加油槍未拔就開車,網友:替他捏把汗
    7月11日據@時間視頻報導,近日,安徽。在含山縣西門中石化加油站,一位男子加油途中,疑似有急事,還未等油槍拔下,就駕駛車輛要駛離,監控記錄下這驚險一幕。延伸閱讀:大意司機加油槍未拔就開車離去,結果…2018年11月21日上午,奉賢區某加油站內發生驚險一幕。一輛紫色汽車加完油後,還沒有拔油槍關油箱蓋,就發動車向加油站外駛離,油槍一下被扯斷,致使加油槍脫落,加油基站傾倒。
  • 飛豬復盤「雙11」 「後疫情時代」掘金提速
    來源:中國經營報飛豬復盤「雙11」 「後疫情時代」掘金提速本報記者/李立/上海報導「最艱難時刻的勝利才是勝利!」11月18日,阿里巴巴集團副總裁、飛豬旅行總裁莊卓然在2020飛豬商家大會上表示。600多商家湧進大會,復盤「雙11」只是其一,更多的人想在疫情仍不明朗的當下,尋找下一步的機會。「從旅遊人次和交易規模看,飛豬核心業務快速復甦,國慶開啟了同比正增長,」莊卓然也同時公布了「雙11」的飛豬成績單,商品成交額同比增82%,交易用戶數同比增61%。
  • 內蒙古大興安嶺北部原始林區現人熊對峙驚險一幕
    梅玉生 攝中新網呼倫貝爾11月27日電 (李愛平 白士城 姜旭東)內蒙古大興安嶺北部原始林區森林管護局工程師梅玉生27日在此間表示,近期,他在大興安嶺北部原始林區烏瑪林業局零公裡管護站附近,用相機錄製了人熊對峙驚險一幕。當時,梅玉生是在從內蒙古呼倫貝爾市奇乾鄉返回零公裡管護站途中,遭遇的這一幕。
  • 剛剛曝光的國產新型輪式突擊炮有何亮點?
    同樣基於《世界軍事力量平衡2020年版》的數據,從08式輪式裝甲車基型底盤發展而來的11式輪式裝甲突擊車(以下簡稱11式輪突)在我軍已經超過了800輛的裝備規模,從而成為中型合成化部隊裝備體系中的核心主戰裝備之一。
  • 澳大利亞維多利亞州遭暴風雨襲擊 3人死亡10多萬家庭斷電
    天氣網訊,據外媒消息,當地時間8月27日,澳大利亞維多利亞州遭暴風雨襲,不少樹木被吹倒後壓在電線上。據當地政府統計,截至目前,暴風雨已造成3人死亡。另有12.1萬戶用戶斷電。預計維州本周末仍有強降雨光顧。