IT168 發表於 2020-12-21 13:46:02
背景
近年來,隨著寬帶接入技術、移動通信技術的發展,網際網路業務應用迅速擴張,其中移網和固網的網絡與業務發展更為迅猛。工信部印發的《上網日誌留存規範》通知明確要求,全量數據的留存元素包括:NAT後用戶公網IP位址、NAT後源埠、用戶私網IP位址、WLAN上網帳號、用戶訪問URL、目的IP、目的埠、訪問時間等。根據相關的政策法規,中國移動河南分公司率先開始了日誌溯源技術措施的建設,不僅實現了全網範圍內上網用戶的日誌查詢、內容審計功能,同時滿足大量相關需求。
| 舊挑戰,新思路
在最初的日誌建設中,方向是重存儲,輕分析。採用以Hadoop技術體系為主,整合MR+Hive SQL+HDFS+Flum的傳統架構方案進行支撐:
這一策略帶來了三個顯著問題:首先由於存儲的數據激增帶來數據有效利用率降低的問題,數據存儲的成本持續升高 ; 其次,因為計算能力和存儲緊密的耦合,系統無法靈活擴容存儲空間,集群架構的數據分析能力較弱,從而導致應用端無法實現多種數據融合分析,且多並發能力不足、查詢效率不高;最後,存儲訪問也存在較大瓶頸,無法支持海量數據按需擴展,產生的運維和建設成本難以滿足海量日誌分析需求。
面臨多重挑戰,中國移動河南分公司明確了新建設思路:按照集中化的方式建設日誌留存系統,在滿足相關政策和業務的前提下應考慮後期的系統擴展,將採集數據統一上報至省日誌留存平臺,完成省日誌數據的統一存儲、數據關聯分析、以及匯聚分發等功能,按需向各種應用提供各類數據服務。
新的思路對架構重構提出了更高的目標,希望實現以下四個能力:
1. 滿足數據量大,可採集匯總現網用戶網絡行為數據;
2. 實時性強,數據處理以批處理和準實時處理為主,數據可持續不斷的接入匯總 ;
3. 數據查詢處理以SQL查詢為主,多欄位關聯查詢需求多,單表大;
同時面向多個應用系統或者數據需求方,具備高處理性能和資源隔離性。
| 高可用、高彈性、高擴展性的新一代HashData架構方案
為實現這一目標,HashData以對象存儲為基礎,計算集群和存儲集群分離,集群擴容業務不停,產品架構如下:
在確保計算單元與數據存儲有著明確的邏輯對應關係和集群I/O吞吐不下降的前提下,通過巧妙的緩存策略設計可以享受計算存儲分離帶來的好處,包括高可用性、多維度彈性、高擴展性等。
其中獨立元數據服務是完全創新性的雲原生架構,元數據狀態從計算節點中消除,使得計算節點變得完全沒有狀態(新型的shared-everything MPP架構與傳統的shared-nothing架構對應) 。儘管每個計算節點都沒有狀態,但面臨需要增加節點數量時,仍可以訪問到系統中的任何數據與任何元數據。
新架構的主要策略是在滿足數據快速增長的情況下實現「存儲資源虛擬化,計算資源最大化」,對日誌留存平臺的數據轉發和數據分析提供最大限度的支撐。
| 節省 40% 的集群規模,降本提效
HashData產品使用了自帶ETL工具代替Flume,對象存儲代替HDFS;計算包含Hadoop方案中的清洗+計算, 通過自定義函數UDF代替Hadoop方案中的清洗和計算,自帶有向無環圖的數據結構和算法以方便替換;同時標準SQL和自定義函數UDF代替MR,產品實現日誌留存功能技術路徑如下:
綜上所述,在計算和存儲分離的產品架構中,獨立擴展的計算和存儲表現更加靈活,可顯著降低存儲成本。HashData整體實現了日誌留存系統,在保證和原Hadoop體系存儲數據相同的情況下僅使用原集群規模的40%左右,應用開發周期縮短了50%,查詢性能提升了一個數量級,充分實現了降本提效的目的。
| 小結
HashData融合了MPP資料庫的高性能與豐富的分析功能、大數據平臺的擴展性和靈活性,以及雲計算的彈性和敏捷性等優勢。在此項目的建設中為中國移動河南分公司構築了新一代企業級雲端數據倉庫,真正實現了降本提效,未來雙方將在共築通信技術的數位化之路上繼續攜手前行!
責任編輯:lq
打開APP閱讀更多精彩內容
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴