谷歌突然遭遇全球大面積故障 到底是哪裡出了問題

2020-12-24 電子發燒友

谷歌突然遭遇全球大面積故障 到底是哪裡出了問題

丁常彥 發表於 2020-12-22 15:27:52

自動配額管理系統出現故障,屬於典型的運維問題。

據彭博社報導,美國太平洋時間12月14日凌晨3點47分左右,谷歌突然遭遇全球大面積故障,導致旗下的YouTube、Gmail、Google Drive、Google Search等服務出現異常,用戶無法正常使用,全球多個國家及地區用戶均受到影響。直到當地時間早上8點左右,谷歌的大多數服務才恢復正常。

這已經是谷歌5個月內第三次「掉鏈子」了。今年8月20日,谷歌旗下多項服務出現異常,涉及美國、印度、日本等多個地區,官方搶修5小時後才恢復正常;今年9月25日,谷歌系統癱瘓多半集中在美國東岸Gmail、YouTube、Google雲端在系統死機時,不斷有用戶持續嘗試進入,但都無法順利使用。

到底是哪裡出了問題?

對於12月14日這次全球大面積癱瘓,谷歌的工程師們連夜奮戰,反應不可謂不迅速。但相比較危機之後的迅速反應,用戶更希望谷歌能夠提前做出預判,避免問題發生。

12月15日,谷歌官方出具的一份調查報告顯示,導致宕機的原因是「internal storage quota issue」,即內部存儲配額問題。具體來說就是:「我們的自動配額管理系統出現了問題,降低了谷歌中央身份管理系統的容量,導致其在全球範圍內返回錯誤。因此,我們無法驗證用戶請求是否經過認證,並向用戶提供錯誤。」

自動配額管理?這概念根本不理解啊,小編趕緊去諮詢了華為存儲的專家,經過專家解釋,小編終於明白了。原來數據要寫入到存儲中,需要將數據存放在一個池中,每個要存進來的數據都要在對應的空間內存放,業務能寫多少數據到池中,則需要「配額」來管理。

這就類似於倉庫管理一樣,貨物來了要想入庫,必須先讓倉庫管理員給指定位置。而自動配額管理出了問題,就相當於來了一卡車貨,倉庫管理員只給了幾平米的空間,倉庫管理員又沒有及時調整地方,貨物根本無法入庫,不報錯才怪。

華為存儲的專家認為,自動配額管理系統出現故障,屬於典型的運維問題;配額的出發點是希望限制應用對存儲資源的無節制使用,但凡事總有例外,如果有突發情況,自動配額管理系統不能及時調整配額或者給出了錯誤的配額,就會導致谷歌這樣的問題出現。

搞清楚了問題根源,以後如何徹底避免類似問題出現呢?專家建議,運維工作不僅僅在存儲池即將寫滿的時候報警,如果能做到提前預測,在存儲池即將寫滿的幾個月之前就能發出預警,提前擴容來避免自動配額管理系統「罷工」。

存儲的智能運維該怎麼做?

調查顯示,隨著全球數據規模的爆炸式增長,企業數據中心的故障中,與存儲設備有關的故障佔到70%以上。尤其在新技術和新應用層出不窮的今天,運維工作日趨複雜。傳統運維高度依賴人的經驗,如何藉助AI等技術的應用,實現智能運維已經成為行業發展的大勢所趨。

谷歌自動配額管理系統出現問題無疑給智能運維提出了更高要求,企業必須選擇更先進的存儲容量預測和管理解決方案,以應對在智能運維上可能遇到的風險。為此,華為存儲也在逐步構建起面向智能運維的AI能力,圍繞客戶關心的設備異常、容量預警等關鍵場景,逐步發布多個重量級AI特性,為客戶業務的正常運行保駕護航。

DME(Data Management Engine,數據管理引擎DME)是華為數據基礎設施智能運維平臺,該平臺通過與存儲設備內置的設備AI以及雲端AI(eService)實現三層AI協同,並通過融合統一的管理界面、自動化的閉環機制以及開放的API、旨在使能數據存儲的「規劃、建設、運維、優化」全生命周期場景的管理與運維自動化,幫助客戶簡化存儲管理,提升數據中心的運營效率。

在容量預測方面,如果客戶能夠提前預知存儲設備或存儲池,甚至是更細粒度對象的容量變化趨勢,那麼容量配額不足導致服務宕機的發生可能性則會大大降低。華為提供的雲上+本地聯動運維能力,基於時序預測等關鍵技術,能夠向客戶提供未來最長365天的容量趨勢預測,並能夠提前預警80%配額,提醒用戶提前擴容。

在風險盤預測方面,華為硬碟異常檢測模型服務依託華為自身在硬體領域的技術及經驗積累,基於S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬碟關鍵數據信息構建機器學習模型,每日採集數據中心硬碟數據(硬碟ID、SN、硬碟非安全斷電次數、通電時長),從歷史數據中識別硬碟不同屬性的突變模式對當前狀態進行預測。

結合用戶反饋數據,定期執行模型自優化,持續提升預測精度,可以為數據中心硬碟提供主動運維。截至目前,華為硬碟異常檢測模型服務已經覆蓋200多家企業數據中心,可幫助客戶提前14天識別硬碟故障或風險,其中查全率達80%,誤報率低於0.1%。

在存儲性能異常預測管理方面,華為可以圍繞存儲性能相關問題提供全面分析處理方案。其中,基於時間序列預測等關鍵技術的性能預測特性以及基於閾值觸發的性能潮汐預警,能夠讓客戶預知設備關鍵性能指標變化趨勢,如時延、IOPS、塊帶寬等,從而提早發現設備性能瓶頸點,輔助客戶儘早規避可能發生的異常。

基於機器學習的關鍵性能KPI異常檢測及根因定界特性,無監督自學習的異常檢測模型能夠實時檢測設備時延是否異常,現網數據驗證,異常檢測準確率近90%;存儲設備內置基於多集成樹算法融合模型,外加皮爾遜相關性關聯分析算法,實現異常根因的定界分析,基於現網數據的驗證結果,根因定界Top3命中準確率近83%,提升客戶發現性能問題、定位問題邊界的效率。

未來,華為存儲將基於領先的三層AI架構,通過與客戶的聯合創新,逐步推動產業邁向數據基礎設施的「自動駕駛」時代,實現異常場景的快速自愈等L3級特性,不斷降低客戶運維門檻和運維成本,實時保障客戶業務不受幹擾。

數據基礎設施進入AIOps時代

AIOps的概念最早出現在Gartner的報告上,即將人工智慧應用於運維領域,基於已有的運維數據(日誌、監控信息、應用信息等),通過機器學習的方式來進一步解決自動化運維沒辦法解決的問題。簡單地說,過去需要花費數個小時、數天甚至數周才能完成的故障診斷和修復工作,AIOps可能只需要花幾秒鐘,而且判斷更加精準。

Gartner相關報告預測,AIOps的全球部署率將從2017年的10%增加到2020年的50%。到了2022年,部署AIOps平臺的大型企業數量將2017年的不足5%,迅速提升到40%左右。如今,AIOps主要應用於電信、網際網路、金融等多個涉及的IT運維領域,涉及網絡、存儲等多個層面。

尤其在數據基礎設施層面,AIOps的應用不僅可以提升其自動化運維、故障處理和數據管理等能力,還可以進一步推動數據基礎設施的智能管理,從而幫助存儲管理員從繁瑣、複雜的工作中解放出來。

華為DME作為融合AIOps理念的產品,正在開啟數據基礎設施運維自動化時代。以某全國性商業銀行為例,該銀行基於華為DME數據管理引擎,在融合管理、業務變更以及統一運維等場景引入安全可控的自動化以及智能能力,顯著提升了運維效率及業務敏捷水平。

其中,在業務變更方面,傳統方式下,銀行為了確保零失誤,往往採用堆人堆時間的方式,每一個具體任務都由運維工程師出具一個設計腳本,單任務腳本往往需要45分鐘,而通過華為DME的應用,單任務腳本準備時間從45分鐘降低到10分鐘。在變更執行階段,通過自動化能力的引入,變更前預審時間從20分鐘直接減少到半分鐘;不僅如此,DME還能夠實現所有任務的並發執行,大大減少人力投入,變更任務越重,效率提升越明顯。

而在性能分析方面,通過華為DME的引入,相較之前的逐段分析,通過端到端的拓撲呈現以及快速關聯分析,性能問題的定位時間從小時級銳減到分鐘級。

從谷歌的此次全球宕機事件,我們可以看出,在數據基礎設施的運維層面,擁有強大的AIOps能力,才能在短時間內完成故障診斷和自動修復,對於保障業務連續性意義重大。正因為如此,華為也在通過DME與自身存儲產品的融合,致力於為企業實現AIOps提供軟硬搭配的全方位解決方案,為企業的數位化轉型提供有力支撐。

責任編輯:xj

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • Gmail、Docs、YouTube等服務遭遇大面積故障
    周一早上,全球很大一部分谷歌服務用戶在登錄時無法使用服務,問題橫跨YouTube、Gmail、Google Docs、Google Classroom等。 谷歌的Gmail在美國東部時間早上6:30左右的時候突然宕機,只向用戶呈現錯誤信息。
  • 谷歌服務全球大面積癱瘓 旗下郵箱、日曆、YouTube均受影響
    12月14日,谷歌遭遇全球大面積癱瘓,旗下Gmail郵箱,谷歌日曆(Google Calendar)、視頻網站YouTube等服務都受到影響,但大部分搜尋引擎業務仍然完好。據英國《衛報》當天報導,谷歌服務的大面積癱瘓大約從格林尼治標準時間(GMT)12月14日上午11時50分開始,影響了公司旗下絕大多數的服務。
  • 昨晚,谷歌全球宕機,終於還是栽了!
    據悉,谷歌公司的自動系統直到服務中斷了30分鐘仍在匯報任何服務都沒有出現問題,包括消費者服務和面向開發者的雲服務。12月14日,美國科技巨頭谷歌(Google)的許多服務在全球範圍突然一度宕機,旗下用戶大受影響。綜合多家媒體報導,監察故障的網站「Downdetector」顯示了超過9000個報告YouTube出現問題的用戶報告。
  • 谷歌服務全球範圍癱瘓 Gmail、YouTube均受影響
    來源:澎湃新聞澎湃新聞記者 承天蒙 綜合報導12月14日,谷歌遭遇全球大面積癱瘓,旗下Gmail郵箱,谷歌日曆(Google Calendar)、視頻網站YouTube等服務都受到影響,但大部分搜尋引擎業務仍然完好
  • 谷歌服務全球範圍癱瘓,Gmail、YouTube均受影響
    12月14日,谷歌遭遇全球大面積癱瘓,旗下Gmail郵箱,谷歌日曆(Google Calendar)、視頻網站YouTube等服務都受到影響,但大部分搜尋引擎業務仍然完好。據英國《衛報》當天報導,谷歌服務的大面積癱瘓大約從格林尼治標準時間(GMT)12月14日上午11時50分開始,影響了公司旗下絕大多數的服務。儘管服務大面積中斷,但谷歌的公司自動系統直到服務中斷了30分鐘仍在匯報任何服務都沒有出現問題,包括消費者服務和面向開發者的雲服務。
  • 微軟Azure出現雲存儲故障 全球26個數據中心被波及
    微軟Azure出現雲存儲故障 全球26個數據中心被波及昨天上午,微軟Azure雲服務在全球的數據中心遭遇大面積故障,由於存儲出了問題,其他服務也遭到了波及。用戶利用Azure進行新建、上傳和刪除任務時都會出現錯誤,其他與存儲功能有關的服務也受到了影響。
  • 剛剛、谷歌崩了:用戶無法訪問Gmail、YouTube、Google Drive、谷歌...
    2020-12-16 02:12:03 來源: 雲頭條 舉報   眼下全球各地的谷歌用戶遇到了問題
  • 摩拜單車大面積故障,但多數是Lite版用不了,依然是運營商問題?
    12 月 29 日晚,摩拜單車在北京、廣州、深圳等地都出現了大面積故障的問題。之後,摩拜單車各個城市的官方微博都紛紛回應是運營商問題,稱會儘快修復。據新浪科技,摩拜單車表示說,已經敦促並協助運營商對網絡緊急修復,晚 10 點前已基本恢復正常。
  • 全球多個谷歌服務疑似癱瘓
    打開APP 全球多個谷歌服務疑似癱瘓 憲瑞 發表於 2020-12-15 09:36:59 今晚8點多,包括搜索服務在內的全球多個谷歌服務疑似癱瘓,這已經是今年內谷歌至少第三次全球死機了。
  • 亞航客機遭遇故障返航
    原標題:亞航客機遭遇故障返航  再次引發對馬來西亞航空業安全的擔憂   亞航旗下長途航線運營商亞航X一架從馬來西亞吉隆坡飛往沙烏地阿拉伯的客機8日因遭遇故障返航。雖然亞航方面表示客機並沒有遭遇嚴重問題,返航屬於預防措施,但事件再次在社交媒體上引發對馬來西亞航空業安全的一些擔憂。
  • 從支付寶系統大面積故障看區塊鏈技術的重要性
    12月5日下午,支付寶系統出現大面積故障。據用戶反映,支付寶應用出現無法付款、無法登陸、付款延遲等問題,螞蟻森林等應用也受到影響。支付寶隨即回應稱,支付寶的機房網絡出現了短暫抖動,影響了部分用戶的使用體驗。目前,一切已經恢復正常,大家的資金和信息安全不會受到影響。
  • 微信支付大面積出現故障 微信支付系統繁忙怎麼解決 微信支付崩潰...
    微信支付大面積出現故障 微信支付系統繁忙怎麼解決 微信支付崩潰原因是什麼 2019年10月30日 HuangJiang來源:網際網路 繁體
  • 谷歌和 Facebook 相繼出現全球性大規模宕機
    昨天全球各地的許多用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂及谷歌的其他服務時遇到了問題。
  • 滬杭高鐵因設備故障大面積晚點 (5/5)
    滬杭高鐵因設備故障大面積晚點>/5) "← →"翻頁 3月7日,滬杭高鐵因故障問題出現大面積晚點
  • 奧凱航空故障航班安全降落 瀋陽機場大面積延誤
    奧凱航空故障航班安全降落 瀋陽機場大面積延誤  中新網瀋陽2月25日電 (禹瑞齋)25日16時左右,由天津飛往瀋陽的奧凱航空公司BK2870航班因儀表顯示起落架故障,抵達瀋陽桃仙機場上空後一直無法降落。
  • 智能車機大面積黑屏事故頻發 到底錯在哪裡?
    但最近這大半年以來,我們已經看到過很多起因為智能車機突然死機黑屏導致整輛車無法駕駛的故障,更有甚者,在國外的一輛特斯拉Model S在高速上正常行駛時,車機突然死機黑屏,整輛車突然失去動力,最終這臺失去動力的車,差一點就被後面高速駛來的重型卡車追尾。
  • 廣深和諧號動車因設備故障大面積晚點
    廣深和諧號動車因設備故障大面積晚點廣深和諧號動車因設備故障大面積晚點@新快報【小長假首日廣深和諧號動車大面積晚點】據網友反映,今日上午廣深和諧號大面積晚點,有網友稱晚點長達一個小時,廣州東站大面積堵塞@粒米Amy:廣深和諧號發脾氣五月的第一天樣樣野不玩,玩系統大面積癱瘓;@善良小猴兒:全線晚點…塞了一堆人;@昕昕c要明白先苦後甜吖_:一片紅色「晚點未定」…【因設備故障 廣深線多趟列車出現不同程度晚點】5月1日7時16分,因仙村至石龍區間設備故障,致廣深線多趟列車出現不同程度晚點。
  • 谷歌地圖試圖為全球超過10億用戶繪製全球地圖
    打開APP 谷歌地圖試圖為全球超過10億用戶繪製全球地圖 發表於 2020-03-15 17:05:00 谷歌地圖試圖為全球超過10億用戶繪製全球地圖。
  • 西雅圖遭遇大面積停電一小時 市區交通陷入癱瘓
    【環球網綜合報導】據美國《僑報》5月25日報導,25日上午西雅圖市區遭遇了罕見的大面積停電,多幢高層建築出現電力供應中斷,市區內的交通信號燈無法正常工作。據報導,負責西雅圖電力供應工作的西雅圖城市之光(Seattle City Light)表示,造成西雅圖市區大面積停電的原因是位於麻薩諸塞街和聯合街之間的一座變電站出現了設備故障。他們起初預計停電會持續數小時,但是停電發生僅一個小時後,即中午12:30分,大部分停電區域的供電已經恢復了正常。西雅圖城市之光表示,停電導致1.2萬臺電錶的正常運轉受影響,但不清楚停電影響到了多少名客戶。
  • 谷歌伺服器再次全球宕機 涉及YouTube、Gmail等服務
    12月14日晚,谷歌伺服器又一次全球宕機!這已是近5個月來第3次全球宕機。一開始部分用戶嘗試登錄YouTube時,會出現「出了點問題」提示字樣,嘗試登錄Gmail會出現「發生錯誤,請稍後再試」的警報。後來影響範圍開始大面積擴散,到了紐約時間早上6:30,谷歌工具已經無法為美國、英國和整個歐洲的用戶提供負載。