揭秘雙11絲滑般剁手之路背後的網絡監控技術

2021-01-09 迪比空間

概要:剛剛結束的2020天貓雙11中,MaxCompute交互式分析(下稱Hologres)+實時計算Flink搭建的雲原生實時數倉首次在核心數據場景落地,為大數據平臺創下一項新紀錄。藉此之際,我們將陸續推出雲原生實時數倉雙11實戰系列內容,本篇將重點介紹Hologres在阿里巴巴網絡監控部門成功替換Druid的最佳實踐,並助力雙11實時網絡監控大盤毫秒級響應。

3...2...1...00:00:00 。購物車,結算,提交訂單,付款00:01:00...。滴,您的支付寶消費xxx萬元。

億萬人同時參與的千億級項目,破記錄的峰值58萬筆/秒,剁手黨們在整個交易過程中如絲般順滑,好像參加了一個假的雙11,而這一切的背後都離不開阿里巴巴網絡能力的強大支持。隨著技術的發展,尤其是近年來雲和電商業務的愈發興盛,基礎網絡也變得越來越龐大和複雜,如何保障這張膨脹網絡的穩定性,提供雲上用戶暢通無阻的購物體驗,對網絡系統建設者和運維者說更是極大的考驗。

理論上來說,故障不可避免,但是如果能夠做到快速發現,定位,修復甚至預防故障,縮短故障時長,即可讓用戶輕微或無感是穩定性追求的終極目標。2015年的微軟提出了pingmesh,成為業界事實的解決方案,但是由於天生的某些缺陷性,導致故障發現時間過長。阿里巴巴網絡研發事業部從2017年就開始研發站在世界前沿的探測系統AliPing,AliPing實時系統的出現將阿里故障發現帶入了秒級響應,數據採集到處理到大盤呈現最快時間延遲在數秒之間,告警+故障定位分鐘級,7*24全天候監控著整個阿里的網絡狀況。

AliPling的核心架構圖如下:

在整個系統中,監控大盤作為故障發現的核心元素,承擔著實時呈現網絡狀況的重任,每一條曲線的起起伏伏,就有可能代表用戶的業務在受損, 如何快速實時展示網絡狀態,並預警/發現網絡故障,幫助用戶迅速止血,這對於監控團隊的監控大盤也是重大的考驗。對於監控人員使用的監控大盤來說,困難有多個:

1)數據時效性要求高:需要實時的將處理完的結構化數據(告警,監控)7*24小時的呈現在使用者(GOC, 各個或者監控人員面前,以便及時地發現處理全阿里+螞蟻的網絡故障。

2)數據源複雜:網絡數據源眾多,業務場景眾多,有一分鐘數百G的流量監控數據,也有一分鐘幾十K的IDC網絡數據,如何將這些不同種類,不同數據量的業務數據,納入監控體系發現異常,對整體端到端監控大盤來說也是一種考驗。

3)數據指標維度多:對於監控人員來說,需要監控的數據指標維度特別多,可以看作是一個複雜的OLAP查詢系統,如何根據自身業務場景從大盤中實時查詢所需的業務數據,這對於處理後端數據的OLAP框架也是一個重大挑戰。

技術選型

對於監控大盤來說,用戶的組合查詢條件具有不可預知性,其結構化數據沒有辦法提前算好,只通過OLAP(聯機分析處理)技術,實時對基礎數據分析組合,並將結果呈現給用戶。Aliping大盤實際就是OLAP技術體現,將不同維度的故障數據(機房、區域、DSW、ASW、PSW、部門、應用等等)通過大盤形式展現在用戶面前。

2017年在AliPing系統實施的時候,我們對比了多項OLAP資料庫, 其中選擇比較有代表性的進行了對比:

1)HIVE

底層基於HDFS存儲,將SQL語句分解為MapReduce任務進行查詢。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。但是由於底層是HDFS分布式文件系統的限制性,不能進行常見的CUD(對表記錄操作)操作,同時Hive需要從已有的資料庫或日誌進行同步最終入到HDFS文件系統中,當前要做到增量實時同步都相當困難。最重要的是:查詢速度慢,無法滿足監控大盤秒級相應需求。

2)Kylin

傳統OLAP根據數據存儲方式的不同分為ROLAP(relational olap)以及MOLAP(multi-dimension olap)。ROLAP 以關係模型的方式存儲用作多為分析用的數據,優點在於存儲體積小,查詢方式靈活,然而缺點也顯而易見,每次查詢都需要對數據進行聚合計算,為了改善短板,ROLAP使用了列存、並行查詢、查詢優化、位圖索引等技術。Kylin中數據立方的思想就是以空間換時間,通過定義一系列的緯度,對每個緯度的組合進行預先計算並存儲。有N個緯度,就會有2的N次種組合。所以最好控制好緯度的數量,因為存儲量會隨著緯度的增加爆炸式的增長,產生災難性後果。這個對於龐大的網絡數據和不可確定性維度組合,是不可以接受的。

3)ClickHouse

這個是由俄羅斯yandex公司開發的,專門為在線數據分析而設計。根據官方提供的文檔來看,ClickHouse 日處理記錄數"十億級"(沒測過)。其機制採用列式存儲,數據壓縮,支持分片,支持索引,並且會將一個計算任務拆分分布在不同分片上並行執行,計算完成後會將結果匯總,支持SQL和聯表查詢但是支持不夠好,支持實時更新,自動多副本同步。總體來說,ClickHouse還算不錯,但是由於不夠成熟,官方支持度不夠,bug也多多,最重要的是集團內也沒看到人用,只能放棄。

4)Druid

是一種能對歷史和實時數據提供亞秒級別的查詢的數據存儲系統。Druid 支持低延時的數據攝取,靈活的數據探索分析,高性能的數據聚合,簡便的水平擴展。適用於數據量大,可擴展能力要求高的分析型查詢系統。其機制將熱點和實時數據存儲在實時節點(Realtime Node)內存中,將歷史數據存儲在歷史節點(history node)的硬碟中,實時+偽實時的結構,保證查詢基本都在毫秒級。高速攝入,快速查詢正是滿足了我們的需求,同時還有通用計算引擎團隊的有力支持,在早期我們選擇了druid作為了我們監控大盤的OLAP支持系統。

新OLAP網絡監控系統

隨著業務的複雜化,業務進一步增多,Druid使用過程中也暴露出一系列問題:

1)數據量攝入的瓶頸, 集團上雲,流量的引入,使我們數據量激增,數據寫入出現了數次大故障2)由於業務複雜多變,我們需要增加維度數據,Druid增加相對來說過程比較複雜3)Druid的查詢方式不友好,有一套自己的查詢語言,對於SQL支持太差,浪費大量時間學習4)不支持高並發,對於大促來說簡直是災難。有兩年雙十一,我們只能上線踢用戶保證監控大盤可用。

隨著暴露出的問題越來越多,我們也在尋找一款既能替代Druid解決當前問題,又能滿足實時OLAP多維分析場景需求的產品。

也是在集團內其他部門沉澱的最佳實踐中知道Hologres,並且了解到Hologres支持行存模式下的高並發點查和列存模式下的實時OLAP多維分析,覺得這一點很貼合我們網絡監控系統的要求,於是就抱著試試的心態先去測試體驗Hologres。通過全鏈路的測試和大量的場景數據驗證,能滿足我們場景需求,於是就決定上線Hologres至正式生產中。

改造後的新OLAP監控系統如下圖所示,整體的數據流程大致如下:

Kafka實時採集網絡相關的監控指標數據,並寫入Flink中輕度匯總加工Flink將初步加工完成的基礎粒度的實時數據實時寫入Hologres中,由Hologres提供統一的存儲Hologres直接實時對接監控大屏,大屏實時展示多種監控指標的變化情況,不符合預期的數據實時報警,相應的業務人員立即排查問題並解決。

業務價值

今年也是Hologres第一年參與AIS網絡故障監控的雙11作戰,作為新秀交出了令我們比較滿意的答卷。整體來說對於業務的價值主要表現如下:

1)TB級數據毫秒級響應

對於實時監控來說,時間就是生命線,越快發現故障就能越快止血,如何根據用戶輸入的複雜組合條件,在TB級數據中,僅僅以秒級甚至是毫秒級的響應篩選出符合要求的數據(OLAP),這對很多系統來說都是很大的挑戰,而實戰證明,合理的利用Hologres索引功能,並通過資源的合理分配等,在OLAP實時性上完美的滿足了監控業務的需要。

2)支持高並發

雙11的監控大屏往往需要查詢查詢歷史數據,並根據歷史數據做報警預測,以往的系統最多只能支撐不到數十用戶的查詢(數10天數據),而Hologres能支撐數百用戶的大規模並行查詢並且依舊沒有達到上限,在今年雙11的0點時,面對數百倍的平時數據量衝擊,監控曲線依舊平滑如舊,毫無滯澀之感。

3)寫入性能高

對於之前數十萬/秒,數百萬/秒的寫入能力,Druid的表現不是很好容易出現湧塞現象,而Hologres可以輕鬆做到,這也就輕鬆解決了我們的實時寫入瓶頸問題。

4)學習成本低

Hologres兼容Postgres,全SQL支持,非常方便新用戶上手,無需再花費時間和精力去研究語法。同時Hologres對於BI工具的兼容性很好,無需做改造就能對接監控大屏,節約大量時間。

對每一個天貓雙11剁手人來說,每一次的絲滑般購物體驗都離不開阿里網絡能力的支撐,而監控大盤就是阿里網絡狀況的眼睛。Hologres作為大盤的核心環節,給大盤持續賦能。但是,作為一個新生兒,HOLO仍然有一些不太成熟的地方,在透明升級、穩定性等環節上依存在提升空間。我們也願意同Hologres一起成長,期待明年雙11 Hologres更優秀的表現。

作者簡介:唐儻,隸屬網絡研發事業部網絡,現從事網絡穩定性開發研究工作,前北郵研究生導師,擁有數個網絡和算法相關專利。

相關焦點

  • 天貓雙11成交額破紀錄,支付寶程式設計師為何悠閒喝起了茶?
    11月11日24時,隨著最終數字的定格,2019天貓雙11全球狂歡節毫無懸念地創下新紀錄。 每一筆訂單都有一筆支付成交,作為背後的支撐,支付寶這次表現如何?螞蟻金服董事長兼CEO井賢棟表示,「從科技層面今年做足了工夫!」
  • 2萬套「福袋」被哄搶,揭秘MIKIHOUSE如何成功拿下雙11
    2萬套「福袋」被哄搶,揭秘MIKIHOUSE如何成功拿下雙11) 齊魯晚報11月9日訊:雙11,又被中國網友戲稱為「剁手節」,也是商家的一場營銷大戰。每逢此時,商家們紛紛使出渾身解數,拼創意,博眼球,賣家拿出殺手鐧,買家也甘於剁手無法自拔。
  • 4982億背後的前端技術—2020天貓雙11前端體系大揭秘
    在天貓榜單以及V榜的落地,使得雙11 Node FaaS 相關業務整體研發效率提升38.89%。行業導購雙11需求也在雲+端的新模式下支撐外包快速入場,使得整體提效約20%。監控:淘系前端持續進行監控能力的建設和升級。需要保障大促高峰的可用性以及報警的實時性,覆蓋所有的業務場景。針對越來越複雜的場景,需要端到端的監控和數據分析平臺。灰度過程缺少度量和定點監控。
  • 多益網絡技術大佬 揭秘「國內遊戲十強」龐大業務背後的平臺框架
    兼具科技與文化創新屬性的網路遊戲行業,正在成為年輕一代的擇業熱門。近日,「中國遊戲十強」多益網絡技術總監XUXU受邀參加「羊城e家·網際網路同道精英匯」系列第九期主題活動——遊戲奮鬥者的選擇與堅持,現場揭秘支撐起多益龐大遊戲業務背後的技術平臺。
  • 夏日最熱脫毛神器 「淨」享超模般絲滑美肌
    飛利浦聯合多位世界頂尖皮膚科專家和醫生,創新地將源自專業美容沙龍的脈衝光技術應用至家用脫毛儀,奉獻全新飛利浦脈衝光脫毛儀,帶來最完美的脫毛方式。憑藉安全高效便捷舒適的脫毛體驗,成為女孩子們備戰夏日美肌的脫毛神器,只需使用4-5次,便可去除75%毛髮,輕鬆「淨」享長達8周的完美絲滑肌膚!
  • 淘寶物流快體驗佳 雙11網購催生臺灣「剁手族」
    從上周開始,2014淘寶天貓購物節正式打響戰鼓,各種令人眼紅心熱的五折預售,讓買家們提前當起了瘋狂網購、收到帳單又忍不住哀嚎「再買就剁手」的「剁手族」。雙11的驚人成交金額,去年曾震驚了臺灣媒體,成為頭條新聞。但其實臺灣買家們早已「潛伏」淘寶多時,像大陸的小夥伴一樣下單下到手軟。今年的雙11,臺灣買家們也早早做好了攻略,盤算著怎樣才能當一個精明又智慧的「剁手族」。
  • QQ瀏覽器啟動「雙11夢想秀」 眾多「剁手」優惠福利提前引爆雙十一
    -11/10:40 距離一年一度的雙十一購物狂歡節只有一步之遙,在人們即將開啟「買買買」模式之際,QQ瀏覽器推出了「雙11夢想秀」活動
  • 芒果TV視頻播放為何如此流暢絲滑 華為雲CDN給出了答案
    其實,視頻卡頓訪問並發大不是唯一問題,公網網絡波動、網絡不穩定,跨網訪問等等問題都會嚴重影響視頻播放效果。那麼,面對導致視頻卡頓這一系列問題,芒果TV又是如何應對的呢?華為雲&芒果TV,不負追劇好時光當流暢成追劇必備,CDN也成了支持視頻服務的標配。
  • CCTV《大國品牌》揭秘:TCL大屏背後的故事
    在這些令人嘆為觀止的前沿科技屏幕背後,是TCL對顯示技術的創新探索。TCL早早洞察到「顯示無處不在」的未來趨勢,率先布局。事實證明,顯示技術的領先不僅為TCL科技自主創新奠定了紮實基礎,也讓TCL能夠牢牢掌握決定未來的科技主動權。  在7月24日播出的TCL大國品牌紀錄片《見,大有不同》中,TCL向我們揭秘了我們所見不到的屏幕背後的故事,所見背後的技術領域趕超之路。
  • 雅寶路商家:雙11如何搞定俄羅斯剁手黨
    一個雅寶路的普通商家,今年第一次參加雙11,希望在俄羅斯剁手黨中迎來爆發。  在北京生活的外國人,幾乎沒有不知道雅寶路的。這裡曾經是中國最大的服裝專營涉外窗口,近年來受到整體外貿形勢及電子商務的強烈衝擊。一些雅寶路商家,則利用阿里巴巴旗下出口電商平臺速賣通,走上了轉型之路。
  • 雙11,我在國外瘋狂剁手
    秒針划過北京時間11月11日零點,全球「剁手黨」同時點下了「結算」按鈕。和朋友一起拼單「雙11」,便成了Vivi的不二選擇,「群裡的朋友們都說,在『雙11』剁手是『為祖國的GDP做出微小貢獻』。」雖然有亞馬遜、eBay等外國平臺,但對於居住在海外的華人來說,中國的「雙11」依然有不可替代的吸引力。
  • 來看雙11背後,數字...
    美國購物狂歡節——黑五,去年總銷售額為434億元人民幣,不到2019年天貓雙11總成交額的五分之一。再以去年A股上市公司淨利潤來看,工行以2977億元位居榜首。這背後,天貓平臺54.5萬筆/秒的全球最大流量洪峰獲得平穩過渡,自主研發技術攻關讓超過5億人被聚集起來的數字經濟需求爆發成為可能。
  • 剁手就要快準狠!「雙11」換新機聯想帶你「抄作業」
    隨著「雙11」拼手速大戰正式開始,「尾款人」的熱情也在不斷高漲。在廝殺最為激烈的PC戰場,一向深受消費者認可的聯想,從第一天起就一騎絕塵,佔據遊戲臺式機、遊戲本、一體機、臺式機、輕薄本、高端輕薄本、筆記本、整機八大榜單榜首。
  • 雙11「剁手」不盲目 瑞泰口腔多重福利助力全家口腔健康
    來源:時刻頭條一年一度的雙11購物節,不僅是各大商家打折促銷的狂歡盛宴,更是「剁手黨」血拼的戰場,與往年不同,今年的雙11又多了三天,可謂是「兩波節奏,雙倍快樂」,這讓「剁手黨」有了更多選購產品的機會。
  • 阿里信息平臺智能監控大盤助力雙11 看智能醫生如何快速對症下藥
    今年雙11,阿里巴巴信息平臺上線「智能監控大盤」,實現了1人就可全盤監控所有應用與系統的運行狀態。一屏全監控 雙11內部保障再升級阿里巴巴信息平臺是阿里巴巴集團協同辦公和運營平臺的建設者。為滿足阿里巴巴員工的各種需求,信息平臺上線了眾多應用,從工作、溝通、出行、網絡等各個方面全面服務阿里員工。
  • 雙11背後數字金融成內需...
    美國購物狂歡節——黑五,去年總銷售額為434億元人民幣,不到2019年天貓雙11總成交額的五分之一。再以去年A股上市公司淨利潤來看,工行以2977億元位居榜首。這背後,天貓平臺54.5萬筆/秒的全球最大流量洪峰獲得平穩過渡,自主研發技術攻關讓超過5億人被聚集起來的數字經濟需求爆發成為可能。
  • Flink流批一體在阿里雙11首次落地的背後
    隨著 11 月 11 日 12 點鐘聲的敲響,2020 年雙 11 的 GMV 數字定格在了 4982 億,在 Flink 實時計算技術的驅動下全程保持了絲般順滑滾動,基於 Flink 的阿里巴巴實時計算平臺也圓滿完成了今年雙 11 整體經濟體的實時數據任務保障,再次平穩度過全年大考。
  • 雙11剁手了嗎?雙11必須要知道的英文表達,趕快收藏一下吧
    雙11的由來:"雙十一"即指每年的11月11日,是指由電子商務為代表的,在全中國範圍內興起的大型購物促銷狂歡日。自從2009年10月1日和中秋節一起雙節同過開始,每年的11月11號,以天貓,京東,蘇寧易購為代表的,大型電子商務網站一般會利用這一天來進行一些大規模的打折促銷活動,以提高自身的銷售額度,逐漸成為中國網際網路最大規模的商業促銷狂歡活動。
  • iPhone 6S官方矽膠套上手:如絲般順滑
    據網友@丹尼拉風 表示,再三猶豫後自己購入了iPhone 6S的官方矽膠殼(炭灰色),手感雖不像其它網友說的超好,但也算是比較不錯,比較順滑。沾灰確實多少有點,但不是特別嚴重,主要是口袋裡的一些小毛屑之類,用手一擦輕易就能去除。戴上之後明顯心裡就有底了,單手操作也比較放心。
  • 「揭秘購物車」專門研究雙11怎麼省錢的淘寶小二,自己都買了點啥
    我們計劃做一個調查——揭秘購物車。接下去的每天,直至雙11,我們會一天推一個購物車。透過這一個個購物車,我們不僅能看到「安利」,還有消費下沉、品質生活的到來。我們也可以窺見天貓雙11在11年來對中國百姓生活的改變。