Hologres+Flink流批一體首次落地4982億背後的營銷分析大屏

2020-12-05 阿里云云棲號

簡介:本篇將重點介紹Hologres在阿里巴巴淘寶營銷活動分析場景的最佳實踐,揭秘Flink+Hologres流批一體首次落地阿里雙11營銷分析大屏背後的技術考驗。

概要:剛剛結束的2020天貓雙11中,MaxCompute交互式分析(下稱Hologres)+實時計算Flink搭建的雲原生實時數倉首次在核心數據場景落地,為大數據平臺創下一項新紀錄。藉此之際,我們將陸續推出雲原生實時數倉雙11實戰系列內容,本篇將重點介紹Hologres在阿里巴巴淘寶營銷活動分析場景的最佳實踐,揭秘Flink+Hologres流批一體首次落地阿里雙11營銷分析大屏背後的技術考驗。

一、背景介紹

在淘系業務運營中,大促是業務運營和用戶增長中非常重要的場景,而營銷活動分析產品作為大促期間用來服務決策、指導運營的核心數據產品,覆蓋活動前、中、後全鏈路的分析,其中需要滿足不同角色小二在不同階段下,對數據時效性和數據靈活性的不同要求,整體產品大圖如下:

老版營銷活動分析是基於常規的實時離線數據體系&FW的產品架構,在之前的各類大大小小的活動中,也暴露了比較多的問題,其中核心的問題可以歸納為三類:

實時和離線數據不一致:相同口徑的數據實時和離線不一致,包括數據邏輯口徑不統一、數據接口不統一,由於實時和離線數據開發割裂(開發人員和接口),不僅僅增加了整體數據的運維成本,同時產品搭建層面的負擔也大幅度提升。維護成本高:隨著業務量的增加,原有資料庫不能快速、靈活的支持複雜且多變的應用場景。常規的Hbase、Mysql、ADB資料庫,都只能單點滿足海量數據、高並發存儲點查、OLAP查詢,因此面對極其複雜的業務,需要依賴多個資料庫,整體維護成本和依賴成本會非常高。擴展性差:在FW框架下的產品搭建邏輯複雜度高、可擴展性都比較差,在活動期間維護的成本非常大因此,如何能夠快速應對頻繁變動的業務訴求,以及更高效的處理活動期間的數據問題變得越來越重要,升級的新一代營銷活動分析架構因而需要滿足以下幾個優點:1. 實時數倉與離線數倉能夠模型統一(實時離線邏輯統一)、接口統一(數據存儲、取數統一),真正做到流批一體2.需要有更強大的數倉,既能夠滿足海量數據的並發寫入查詢,還能夠滿足業務的及時查詢功能3. 簡化現有的產品搭建邏輯、降低產品實現複雜度

基於上訴背景,我們需要重構當前架構並尋找另外的替代產品來解決業務痛點。經過長時間的調用和嘗試,最終我們選擇了基於實時計算Flink+Hologres+FBI(阿里內部的一款可視化分析工具)的技術方案來實現天貓營銷活動分析的架構重構。

二、 流批一體技術方案

通過深度剖析業務對數據的要求,以及多方位數據模型探索和數倉的調研,最終確定了營銷活動分析產品重構的整體技術框架,如下圖所示,其中的核心要點有:

通過流批一體架構升級,實現了流批SQL邏輯&計算引擎層面統一通過Hologres實現了數據存儲和查詢的統一利用FBI產品能力,在降低搭建成本的同時滿足業務的高靈活性,同時滿足不同角色對於報表的需求

**

下面,我們將詳細介紹整個技術方案中核心的幾大技術方案:流批一體、Hologres、FBI

1. 流批一體技術框架

傳統數倉架構圖如下圖所示,傳統數倉架構核心問題:

流批間的存儲層割裂,集群、表、欄位都是分開的,導致應用層對接時需要寫不同的取數邏輯。流批間的處理邏輯不能復用,SQL標準不一樣,計算引擎不一樣,導致實時和離線需要分別開發,其實很多情況下,邏輯大同小異,但系統之前不能靈活轉換,導致工作量重複計算層集群分開,實時和離線對資源的使用時間段高峰不一樣,導致資源利用率不夠高,波峰波谷非常明顯

流批一體數倉架構圖如下圖所示,升級後的架構主要有以下核心點需要關注:

首先,數倉DWD層雖然在存儲介質上不同,但需要保證數據模型的等價,然後進行邏輯表封裝(一個邏輯表映射兩個物理表,即實時DWD和離線DWD),數據計算代碼的撰寫都是基於該邏輯表開發其次,基於邏輯表的代碼開發、流、批計算模式的個性化配置、以及不同的調度策略等,需要有開發平臺(Dataphin流批統一開發平臺)作為支撐,形成便捷的開發、運維一體化最後,基於OneData規範的存儲層統一,不僅是模型規範統一,還是存儲介質的統一,做到了無縫的銜接

今年雙11,實時計算Flink處理的流量洪峰創紀錄地達到了每秒40億條的記錄,數據體量也達到了驚人的每秒7TB,基於Flink的流批一體數據應用在營銷活動分析場景中嶄露頭角,並在穩定性、性能和效率方面都經受住了嚴苛的生產考驗整體Flink流和Flink batch任務在活動期間都表現了極強的穩定性,全程0鏈路容量、機器單點、網絡帶寬等問題的發生

2. Hologres流批一體落地

流批一體數據架構實現了整體的數據層面的統一,還需要選用一款產品讓整體的存儲統一,這款產品需要即支持高並發寫入,又能夠滿足及時查詢,同時還能夠支持OLAP分析。

在老版本的架構中每個頁面模塊會涉及到一個或多個資料庫的數據查詢,如Mysql、Hbase、ADB3.0「老版本HybridDB」等。由於Hbase的高並發寫入、高性能點查等特性,所以大多數實時數據就會放在Hbase中;而由於Mysql表管理便捷、查詢簡易等好處,維表數據、離線數據通常會選擇存放在其中;另外,產品的一些模塊涉及到的數據,具有數據量小、維度多等特徵「如營銷玩法數據」,則會選擇ADB作為OLAP多維分析的資料庫。如此,就會存在兩個痛點:實時數據與離線數據的割裂、多資料庫多實例的雜亂管理。新版營銷活動分析產品的建設,一個目標是要做到存儲統一,降低運維成本和提高研發效能;另外一個目標是高性能、高穩定、低成本。

我們通過與多方位的產品對標之後,選用了Hologres作為整個營銷活動分析的統一產品。Hologres作為一款兼容PostgreSQL 11協議的一站式實時數倉,與大數據生態無縫打通,支持PB級數據高並發、低延時的分析處理,可以輕鬆而經濟地使用現有BI工具對數據進行多維分析透視和業務探索,在這樣複雜的業務場景中Hologres的優勢就表現得極為突出了。

通過對整體營銷活動分析個模塊的深度分析,以及結合業務側對數據時效性的要求,整體將營銷活動分析的幾大模塊的數據制定了具體的實時鏈路方案:

活動直播、預售、加購、流量監控等核心模塊,我們選用了Hologres的實時點查能力,面對複雜多變的營銷玩法場景,我們選用了Hologres的OLAP即時查詢能力針對營銷活動分析需要的點查能力和OLAP分析能力,天貓營銷活動分析分別建了dt-camp和dt-camp-olap庫,其中dt_camp點查庫由於需要將活動期間的一些歷史數據長期存放用來做活動的對比,整體數據量級在近40TB;營銷玩法的OLAP庫中,存放的是玩法的一些明細數據,整體數據量級在近百TB,由於營銷玩法對整體數據的準確度要求非常高,因此沒有採用有損精度的查詢方式,對整體數倉的查詢性能提出了更高的要求。

為了提升Hologres的整體性能,針對營銷活動分析數倉主要做了一下幾類優化策略:

設置distribution key:對於count(distinct user_id)的情況將user_id設置為distribution key在hologres中每一個shard做count distinct,避免大量的數據shuffle,大大提升查詢性能。儘量減少count distinct 次數:通過多層group by 操作轉換SQL減少count distinct成本shard prunning:在一些場景中,查詢會指定某個表的pk中的一些key進行查詢,如果將這些場景的key組合設置為distribution key,可以在處理查詢的時候就確定本次查詢會命中那幾個shard,減少RPC請求數,對於高QPS場景至關重要生成最優的plan:營銷活動分析有基於匯總數據的點查或者範圍查詢,有基於原始數據的OLAP查詢,還有單表的聚合之後取topn的查詢,對於不同的查詢類型,Hologres能夠根據收集的統計信息,生成最優的執行計劃,保證查詢的QPS和Latency寫入優化:營銷活動分析的寫入都是基於列存表UPDATE操作,該操作在hologres中會首先根據指定的pk找到對應的uniqueid,然後根據uniqueid找到對應的記錄標記刪除,然後再查詢一條新紀錄,這種情況如果能夠設置一個遞增的segment key,查詢的時候就可以根據segment key快速定位到文件,提升根據pk定位到記錄的速度,提升寫入性能,營銷活動分析系統壓測時寫入峰值可以達到800W/s的更新小文件合併:某些寫入不是很頻繁的表因為一段時間更新的key比較固定,這導致memory table flush的時候是一個比較小的文件,而Hologres默認的compaction策略並沒有對這些文件做compaction,導致存在比較多的小文件,通過深入優化compaction參數,增加compaction的頻率,減少小文件,對於查詢性能有較明顯的提升Hologres在雙十一期間表現,點查場景的寫入峰值達幾十w/s,服務能力幾百w/s,OLAP寫入峰值400w/s,服務能力500w/s。同時單點查詢&OLAP查詢幾乎都能夠滿足單條查詢小於ms的查詢比例高達99.7%以上,因此在整個活動期間,Hologres整體表現非常平穩,能夠很好的同時支持快速點查和快速OLAP分析。

3. FBI分析大屏

FBI作為阿里生態內的首選數據可視化平臺,即能快速支持搭建各類報表進行數據分析,也能支持多種數據集的快速接入與擴展,還有支持各種分析型數據產品建設的高級功能【產品搭建】。

在FBI產品搭建的核心流程中,可以通過4個核心功能大幅降低搭建成本:

1)實時離線一體的「實時小時分鐘模型」,自動實現實時數據的精確趨勢和對比

針對營銷活動定義的批流一體的底層數據,為了滿足用戶分析實時數據,實時對比,小時對比的靈活性,FBI抽象出一套實時離線一體的標準數據模型,創建該模型後就可以實現實時數據的精確對比,趨勢分析自動路由分鐘表,小時趨勢直接路由到小時表的能力。

2)FBI原創的FAX函數,極簡定義輸出各種複雜指標

針對複雜的指標:如通道佔比,類目佔比,同比貢獻度,活動累計成交額,上個版本中均是用sql套sql進行定義,不僅導致SQL長度保障,同時產品的穩定性和可維護性都大大降低。為了解決這類問題,FBI構建了一套易於學習和理解的分析DSL,名為FAX函數(同比差額、貢獻率、活動累計等20+分析函數),簡單的一行語句可以定義出營銷活動分析中用到的各種複雜指標。

3)通過分析能力配置化和專有邏輯插件化,大幅節約頁面構建時間

產品頁面構建是一個非常核心的環節,如何節約用戶的配置,FBI的方法就是:

a、通用分析能力配置化:對於最常用到的交叉表、活動對比,日期變量傳參等分析場景,抽象升級為簡單的配置項,即可完成相應的同期對比和同比差額等分析。

b、專有邏輯插件化:對於活動參數,顯示隱藏,結果排序等作用於區塊的定製能力,可以通過數據插件的方式覆蓋。

4、

打造沉澱FBI的高保障體系,升級了發布管控,監控預警,變更提示等,支持1-5-10

三、測試端的保駕護航

為了進一步保障營銷活動分析產品質量,測試端從明細->匯總->產品端都做了嚴格的數據比對和校驗,同時針對大促的核心數據,進行了全方位的監控

在活動期間測試巡檢功能大大提升了主動發現數據問題的能力,以及及時發現核心問題的能力,大大的提升了活動期間整個數據產品的質量和穩定性

四、業務反饋&價值

整個雙十一期間,基於實時計算Flink+Hologres流批一體的營銷活動分析產品不僅支持了天貓事業群上千+小二的人均上百PV高頻訪問,更實現了0 P1/P2故障的目標,同時整個產品在活動期間表現了相比往年更有優勢的幾大方面:

豐富:實時數據在營銷活動分析產品中大規模鋪開,核心維度可以down到活動商品、商家標籤分層等多個維度,同時加購和預售都新增了商家、商品維度的實時數據,更加友好的支持了業務側進行商家的BD穩定:基於Hologres持續高穩定的輸出,整體雙十一期間不論是實時數據寫入、還是數據的讀取都表現出了極強的穩定性;同時工程端實時監控用戶訪問和數據響應效率,實時分析解決業務問題;產品巡檢涵蓋了產品的核心數據,進一步的保障了整個產品的穩定性高效:流批技術的應用,以及Hologres的統一對接,不僅大幅度的提升了活動期間的需求接入效率(今年雙十一期間整體需求承接能力是去年的3倍),同時整體的提升了問題反饋和解決的時效(相比以往活動提升了3-4倍)五、未來展望

雖然已經經歷了一次大促大考驗,但是技術的探索永無止境,我們需要不斷的完善來應對更加複雜的業務場景:1)Dataphin流批一體的產品進一步完善,減少人工幹預成本,同時進一步保證數據質量2)Hologres資源隔離,讀寫資源隔離,更好地保證查詢的SLA;打通Hologres與MaxCompute,支持元數據的互通,為產品元數據提供更高的保障;動態擴容,能夠靈活應對峰值及日常的業務需要。3)FBI產品工具,能夠提升產品版本管理功能,同一頁面支持多人編輯不覆蓋,更加高效的支持產品搭建

相關焦點

  • Flink Forward Asia 2020 總結
    從 Flink 引擎生態來看,2020 年,Flink 在流計算引擎內核,流批一體,擁抱 AI,雲原生這四個主打方向上都取得了不錯的成績。特別對於流批一體,今年發布的三個大版本(Flink-1.10 & 1.11 & 1.12)對流批一體進一步作了升級和完善,並首次在阿里巴巴雙十一最核心的天貓營銷活動分析大屏場景中落地。
  • flink批處理電商_基於flink流處理的動態實時電商實時分析系統...
    3.003__Flink理論_Flink簡介(三)應用場景 4.004__Flink理論_Flink簡介(四)流處理的演變
  • 使用Flink進行實時日誌聚合:第一部分
    更具體地說,我們將:a) 討論流式應用程式的日誌記錄要求b) 檢查通用日誌聚合系統的組件c) 從頭開始構建可擴展的日誌聚合框架d) 將我們的定製解決方案與現成的工具進行比較記錄流應用程式在進入分布式流應用程式的日誌記錄需求之前,讓我們退後一步,看看更傳統的批處理。
  • Alink:基於Flink的機器學習平臺
    分享嘉賓:楊旭 阿里巴巴 資深算法專家編輯整理:朱榮導讀:Alink是基於Flink流批一體的機器學習平臺,提供一系列算法,可以幫助處理各種機器學習任務,比如統計分析、機器學習、實時預測、個性化推薦和異常檢測。
  • 數位化轉型如何落地?MAXHUB會議平板典型應用案例被多家媒體「點名」
    在各大行業權威垂直媒體的經驗總結中,應用MAXHUB交互智能平板加速數位化的典型案例已然成為各行業的轉型樣本。以高清顯示、觸控交互、遠程協同三大核心功用為基礎,MAXHUB通過滿足差異化場景轉型所需,加速各行各業數智化應用落地,成為推動智慧醫療、智慧政務、智慧金融及智慧零售的有力支點,讓傳統行業煥發新活力。
  • 雙十一4982億元成交額背後,守護億萬人錢包的安全工程師
    在這一天,無論是4982億元的雙11新成交額,還是陰影裡黃牛黨和其他黑灰產團夥等所有來自外界的入侵行為和異常流量,都變成了大屏幕上的一串串數字。數位化正在改變著社會的肌理,我們在關注經濟活力的同時,也必須考慮如何讓繁榮更穩定和長久。我們走訪了十餘位阿里安全工程師,為你展示更多雙11的秘辛,和「沉默的真相」。
  • 移動大屏+機器人導購,智慧零售新標配
    新一代集廣告展示和商品導購於一體的大屏營銷服務機器人的出現,或許能解開這個矛盾局。在某知名品牌線下商場裡,集「看聽說走」、27寸交互大屏於一身的營銷服務機器人——SHOWBOT秀寶正逐漸成為品牌方和消費者雙向喜愛的工具型機器人。秀寶是一個包含成熟的感知、認知和定位導航能力的服務機器人產品。
  • 圖解百度營銷全景
    百度營銷面向企業營銷的服務生態從單純的品牌和效果廣告服務,向投放前廣告主的策略支持、創意生產到投放後完整的後鏈路閉環能力,及內容營銷聯絡拓展。今天的百度營銷在為企業提供全鏈的營銷服務,共同為用戶提供更好的服務,在服務中創造價值!
  • Apache Flink 1.9.0 發布,開源流處理框架
    Apache Flink 1.9.0 已經發布,Apache Flink 項目的目標是開發一個流處理系統,以統一和支持多種形式的實時和離線數據處理應用程式以及事件驅動的應用程式。
  • 開課啦 | 新課預告:大數據分析的營銷前沿應用
    梁屹天大數據的出現使得營銷的科學化、精準化變得可能,而其中的核心就是數據分析。本課程將從一個微觀實踐的角度,以案例作為載體,講述數據分析在各種營銷場景下的前沿應用。雖然媒體大量的報導已經使得很多人默認了「數據分析」這個概念。但是,數據分析在營銷實踐中究竟是怎麼一回事?人們常說的「模型」和「算法」究竟是什麼?它們在營銷中如何落地,又面臨哪些挑戰?數據分析跟業務邏輯應該如何融合?
  • 360oCPC:讓你體驗「拎包入住」的信息流營銷
    360oCPC信息流推廣的出現,成為破解營銷困局的金鑰匙。那麼,如何利用oCPC,捅破廣告主與消費者之間的窗戶紙?(數據來源:艾媒諮詢)巨大的流量成為信息流內容分發的「核武器」,360創新的將年輕化的內容型產品「快資訊」的大量優質內容以信息流的方式分發到瀏覽器、導航、手機助手等各個拳頭級流量產品中,打造了市場上唯一三端流化的媒體平臺。除此之外,全網媒體資源帶來的日均流量超過200億,讓廣告有機會在各瀏覽場景被用戶觸達。
  • 愛奇藝副總裁徐勇明:大屏時代釋放區域品牌營銷勢能
    「現在看傳統電視的觀眾越來越少,但智能電視的用戶開始增多,甚至是超乎想像得多」,愛奇藝副總裁徐勇明在11月25日於貴陽舉辦的「大屏時代,矚目煥新」愛奇藝區域品牌客戶會上這樣表示。
  • 萬有引力、小群星帶、專屬星座打造抖屏星營銷
    2020年12月21日,奧維互娛「數屏智觀」奧維互娛2020智慧大屏數字營銷盛典在北京召開,深圳市易平方網絡科技有限公司(下稱「易平方」)受邀出席會議。會上,易平方榮獲年度最佳智慧大屏效果營銷獎。易平方獲獎的關鍵原因是在OTT行業首家推出大屏短視頻——抖屏。
  • 樓市資本論:德信地產數字營銷的藝術,1.2億房源秒光
    德信地產「喊房節」的直播首秀,以消費者真金白銀的認可,刷新了業內外的認知:淘寶、抖音直播間上架1.2億房源現場秒光,8大平臺全網直播觀看量223萬+人次,直播間點讚量425萬+人次。德信再一次證明了其不凡的「破圈」能力。
  • 新營銷形式下的分析報告:風起時,點亮營銷的底色
    有96%的用戶會為品牌宣傳造勢,73%的用戶會付費支持大V帳號。購買不是最終的結果,而是關注-購買-反饋的循環。美團超級平臺的優勢:用戶聚集(滿足海量消費需求):4.4億交易用戶數,26.5億用戶評價年交易筆數;商務雲集(廣度和深度皆覆蓋):590萬活躍商戶,200+業務品類,2800+覆蓋縣市區;即時配送(配備高效履約能力):70萬日活外賣騎手,30分鐘評價送達時長。那麼到底美團作為超級平臺,可以做什麼?
  • 太古裡裸眼3D大屏現象級爆火的背後,是一群年輕人的賽博朋克
    10月2日「裸眼3D飛船」上線當天,# 成都太古裡裸眼3D屏 # 就登上微博全國實時熱搜榜TOP5,閱讀3.2億,討論5.6萬。海內外媒體競相報導。「太古裡UFO」在抖音上同樣熱度爆表,單條視頻點讚量達到了20萬+,播放量上千萬,關鍵是這種熱門視頻呈現的是規模化效應,傳播速度相當驚人。
  • 抖音藍V運營,火星文化教你用好這4大營銷工具
    而線上快閃店則是一個新物種,是抖音基於自身豎屏營銷優勢不斷深化的一項創新之舉,快閃店類同於一個產品推廣的專題頁面,用戶可以在上面查看產品詳情,連結視頻體驗,並可以直接預約、購買產品,大大減少了用戶從注意到購買的流失率。抖音快閃店入口設置在品牌自己的藍V主頁(購物櫥窗位置,黃色標識),以流暢和極速的全屏落地頁帶給用戶沉浸式的體驗。
  • 百度移動生態服務化戰略背後的用商一體邏輯
    這一方面是由於目前量子計算、AI相關技術已成為華爾街新寵,另一方面,則得益於過去的2020年間百度移動生態核心業務的強勁增長以及AI業務的加速落地與政策利好。重新整合短視頻、直播、電商等新內容形態,百度移動生態的兩大戰略才能有更落地的載體,以垂類信息服務為例,教育、醫療等內容及服務形態就更加看重「人與人」的連接,才能挖掘出信息之後,對知識、健康等更深層次的需求。2020年4月,百度App上線了服務中心,把便民生活、吃喝玩樂等多個領域的智能小程序系統化梳理後對外開放。