河南移動的MPP大數據平臺對象存儲實踐

2020-12-15 中華網科技

電信與媒體市場調研公司Informa Telecoms & Media的調查結果顯示,早在2013年,全球120家運營商中約有48%的運營商正在實施大數據業務。大數據業務成本平均佔到運營商總IT預算的10%,並且在未來五年內將升至23%左右。

電信運營商在運營服務中積累了大量數據,既包括日誌、帳單、信令等結構化和半結構化數據,也會涉及到圖片、文本、音頻、視頻等非結構化數據。據不完全統計,一個省一天的運營商數據量可達到PB級。

而通過對海量數據資源的挖掘,可支撐運營商快速響應需求,實現敏捷運營,以及推動數位化轉型。例如,利用大數據對DPI(Deep Packet Inspection,基於數據包的深度檢測)等數據進行分析,可獲取客戶的行為偏好,實現客戶精準營銷。

01河南移動的實踐

據媒體報導,早在2018年7月,河南移動4G用戶數量已突破4000萬,在河南運營商市場處於領先地位。與此同時,其家庭寬帶客戶接近900萬,建設4G基站10萬個;物聯網連接數接近2000萬(新聞連結:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移動全面啟動了5G建設。

為了更加精細化大數據運營,管理和監控網絡流量數據,河南移動部署了統一DPI系統實現海量日誌數據處理,包括支撐集團和省層面的網絡運行、企業信息、市場營銷、網信安全、特殊通信等五大類應用,如移動感知分析、移動上網日誌留存、信息推送、流量軌跡查詢、IDC/ISP信安系統等。

統一DPI系統

在該業務的數據處理上,客戶過去採用MR+HiveSQL+HDFS+Flum傳統架構進行支撐。這一解決方案導致:在應用端,無法實現多種數據融合分析,多並發能力不足查詢效率不高;在存儲端,計算存儲緊耦合不夠彈性,出現存儲訪問瓶頸,無法支持海量數據的按需擴展;以及更複雜的運維,更高的建設成本,逐漸難以滿足海量日誌分析的需求。

為了解決上述問題,客戶在數據共享層採用了HashData+XEOS+gdfdists新架構,為客戶提供雲原生數據倉庫解決方案,相對於原Hadoop方案,可減少60%的集群硬體和70%的運維投入。

數據共享層解決方案

1、AAA解析模塊:接受Radius原始流量解析後發送至HashData平臺;

2、Web伺服器:負責策略生成、策略下發、數據結果展現;

3、HashData:數據導入、數據清洗、數據查詢和數據分發(數據生成與Td上報程序);

4、XEOS:對接HashData平臺,海量日誌數據存儲。

在新的解決方案中,XEOS替代原先HDFS實現PB級數據在線管理,同時提供冷熱數據分層、索引數據多副本、日誌數據採用糾刪碼(EC糾刪碼12+3,得盤率80%)等策略,保障整體方案的更優性價比。目前,客戶已採購1.5PB存儲容量…

02現有的數據應用問題

今天,企業數據呈指數級增長,基於海量數據的分析、挖掘數據價值成為運營商和企業用戶的常態化選擇。然而數據環境的諸多變化,驅動了數據應用的新需求產生:

1、全量數據處理:統一系統內處理內外部的海量數據,數據類型複雜如結構化數據、半結構化數據;

2、高並發響應:更多部門、角色甚至機器參與到數據訪問中,動態的支持高並發響應;

3、多維實時分析:將各維度的數據關聯進行數據分析挖掘,沒有大量時間做預處理,裸數據實時響應;

4、跨平臺訪問:數據訪問環境差異,公有雲、私有雲以及混合雲等多種場景下,跨平臺數據靈活訪問;

5、雲技術融合:大數據和雲計算技術飛速發展,如何充分利用雲的優勢讓數據發揮更大價值亟待解決。

面對數據應用的上述新需求,現有的解決方案面臨著以下問題:

1、共享存儲數據倉庫

▪ 擴展性差

▪ 存儲訪問瓶頸

▪ 無法支持海量數據

▪ 一體機價格昂貴

2、MPP數據倉庫

▪ 無法支持多種數據類型

▪ 大數據量性能級穩定性下降

▪ 擴容數據重分布難度大過程冗長

▪ 無法合理規劃以及靈活利用存儲和計算資源

▪ 無法支持高並發

3、Hadoop及NoSQL方案

▪ 不完全支持SQL

▪ 計算存儲緊耦合不夠彈性

▪ 配置、調優、管理、維護複雜

▪ 學習成本高、學習曲線陡峭

▪ 效率低下,高並發能力有限

▪ 查詢性能不穩定,影響因素多

03存算分離的雲原生數倉

鑑於此,HashData(酷克數據)研發設計了新一代雲原生數據倉庫架構。HashData企業級雲數據倉庫是一個高性能、完全託管的PB級數據倉庫服務,融合MPP高效引擎、雲計算的彈性以及大數據平臺綜合數據處理能力三方特性。全面兼容PostgreSQL協議以及SQL 2008語法標準,對外提供標準的JDBC和ODBC接口,無縫集成主流ETL和BI工具。

新一代雲原生數據倉庫架構具有以下特點:

▪ 元數據、計算和存儲三者分離;

▪ SQL on 對象存儲;

▪ 按需動態水平擴容;

▪ 支持跨數據中心和雲平臺數據訪問;

▪ 毫秒級響應海量數據交互式查詢及多維分析;

▪ 高可用架構以及靈活數據副本策略;

▪ 無縫對接Oracle、MySQL、DB2、MongoDB等以及主流BI產品。

在基於雲原生的計算和存儲分離數據倉庫方案構建中,獨立擴展的計算和存儲更加靈活,同時可顯著降低成本。HashData與XSKY建立了合作夥伴關係,利用XSKY XEOS對象存儲與HashData企業級雲數據倉庫形成統一解決方案,並具有以下優勢:

▪ 計算存儲分離部署,按需擴容,大幅降低TCO;

▪ 更加優化的性能,以及企業級存儲特性;

▪ 適用於大數據平臺的容災備份;

▪ 整體方案性能更加穩定,易交付易維護,簡化工作流程大幅縮短交付周期。

責任編輯:kj005

文章投訴熱線:156 0057 2229 投訴郵箱:29132 36@qq.com

相關焦點

  • 大數據存儲平臺之異構存儲實踐深度解讀
    經常做數據處理的夥伴們肯定會有這樣一種體會:最近一周內的數據會被經常使用到,而比如最近幾周的數據使用率會有下降,每周僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑,存儲的數據可能一個月才被訪問幾次。
  • 杉巖數據:對象存儲智能化的探路者
    、人工智慧為代表的新興技術深入行業應用,智能在「端、邊、雲」延伸,數據的種類和數量越來越多,企業對數據價值的訴求也更趨強烈,對象存儲因網際網路而生,面對海量數據場景具備天然優勢,逐漸成為大數據時代存儲界的後起之秀。
  • 網易來東敏:NOS(對象雲存儲)技術解析
    據了解,大會邀請了來自百度、騰訊、阿里巴巴、京東等知名網際網路企業與傳統行業的資深架構師,分享雲架構實踐與解析、大數據架構及應用、自動化運維、高性能高可用網絡架構設計、網際網路存儲架構優化、構建全新數據中心、網際網路金融及風險防範、移動平臺架構設計、高效電商系統構建、全棧工程師實踐等主題的最新技術實踐。
  • eBay的Connected Commerce大數據平臺實踐
    據統計,在美國每五秒售出一個手袋,在澳大利亞每分鐘通過移動端售出一雙鞋,在德國每10分鐘通過移動端售出一輛汽車或卡車。如此大量的用戶及交易下,數據成為eBay的重中之中,從點擊流到搜索,商品查看,交易以及願望清單等不斷進行收集。
  • NAS數據遷移到對象存儲太麻煩?90分鐘納管1000萬文件了解一下
    一、對象存儲成為海量數字底座首選  移動網際網路和物聯網等技術把我們帶入海量數據時代,數據終端呈現指數級增長,數據的類型和數量越來越多。在企業內部,新增數據中超過80%都是非結構化數據。  IT初期規劃中,由於數據規模較小,企業往往採用NAS存儲非結構化數據。
  • 雅虎PB級雲對象存儲COS實踐:選擇Ceph,放棄Swift
    【編者按】面對龐大的數據量和飛快的增長速度,雅虎對象存儲需要在保證耐用性和延遲的基礎上發揮存儲成本效益,雅虎選擇了軟體定義的存儲。本文介紹了雅虎PB級雲對象存儲COS解決方案的實踐,解釋了選擇Ceph放棄Swift的原因,部署的架構及其實現,耐用性和延遲方面的優化以及未來的研發方向等。
  • 「GBASE案例」GBase 8a Mpp支撐某省分移動雲經分系統數據層
    圖 | 某省分移動雲經分系統總體架構某省分移動雲化經分系統的數據層主要由雲化歷史庫、大數據基礎平臺和大數據分析平臺組成,其中大數據基礎平臺採用基於X86技術的分布式MPP資料庫(GBase用於滿足經分主倉庫和大數據分析平臺的數據存儲,負責承載海量歷史數據挖掘和趨勢分析預測等業務應用。大數據基礎平臺由主數據倉庫和數據集市構成,其中主數據倉庫負責責基礎數據模型的處理,承載少量及時性較高應用,數據集市的基礎數據來源於數據倉庫,並在此基礎上支撐端到端應用。
  • 讓數據飛起來:無線移動存儲應用技法!
    原標題:讓數據飛起來:無線移動存儲應用技法!對於商務人士而言,U盤、存儲卡、移動硬碟,這些移動存儲設備可謂一點不陌生。無論在日常工作中,還是在商務會議上,很多時候都會使用到移動存儲設備。比如備份工作報告、為客戶演示產品方案等。普通移動存儲設備採用USB接口,需藉助USB線才能實現數據訪問,比較麻煩。
  • 多平臺無縫共享 聯想個人云存儲A1讓數據存儲更簡單
    如何保存手機、電腦中的數據成為一個非常棘手的問題,個人云存儲因此成為熱門產品。對於消費者來說,如何在琳琅滿目的雲存儲中尋找一款性價比高的產品,這同樣是一個挑戰。聯想個人云存儲A1上手一周多了,體驗還是不錯的,支持多個平臺數據備份,並且有公用空間和私有空間。具體來說,聯想個人云存儲A1內置一塊3TB硬碟,支持硬碟休眠。閒話不說,分享一下使用體驗。
  • Apache Doris 在 WeLab實時大數據平臺的應用實踐
    WeLab擁有獨創的風險管理技術,可以高效地整合和分析移動端大數據,並對用戶的風險進行定級,高效地輸出決策。為了實現秒級決策,我們對數據處理的實時性,準確性和安全性都有很高的要求。Apache Doris資料庫就是在這樣的背景下被引入到我們大數據平臺中來的,並最終成為了我們大數據平臺的重要基石之一。
  • 基於數據智能的區域教育大平臺建設與應用實踐
    基於數據智能的區域教育大平臺建設與應用實踐賀相春, 郭紹青西北師範大學教育技術學院,甘肅 蘭州 730070摘要:數據智能引領是新時期區域教育大平臺建設與應用的重要方向。關鍵詞:數據智能 ; 區域教育大平臺 ; 數據標準論文引用格式:賀相春,郭紹青. 基於數據智能的區域教育大平臺建設與應用實踐[J]. 大數據, 2020, 6(6): 40-51.HE X C, GUO S Q.
  • 分布式存儲與離線混部彈性計算平臺實踐
    而隨著大數據應用、人工智慧、移動網際網路等技術的飛速發展,「智慧+」的概念正在深入到各行各業,提升企業效率,釋放商業潛能,創造全新機遇。作為國內頂級技術盛會之一,2017中國系統架構師大會(SACC2017)將於10月19-21日在北京新雲南皇冠假日酒店震撼來襲。
  • 東芝大容量V9移動硬碟 數據存儲保護更貼心
    隨著時代發展無紙化辦公已經普及,身邊電腦產品數碼產品越來越多,所有文件和數據都需要進行備份存儲,U盤有限的空間無法滿足容量和安全性的需要,選擇一款移動硬碟就尤為重要,東芝移動硬碟V9讓需求用戶多了一種選擇。
  • 基於Ceph對象存儲的分級混合雲存儲方案
    基於Ceph的分級混合雲存儲方案UMStor有了上面這諸多局限性,我們開始考慮能否實現一種管理粒度更細、時間可控性更好的機制,來提供一種更為靈活的數據管理和遷移方案。通過對象數據存儲分級、對象生命周期管理、自動生成遷移等系列實踐,我們開發了一款基於Ceph的分級混合雲存儲解決方案UMStor。
  • 杉巖CTO邱尚高:AI+數據湖時代,對象存儲不止步於存儲
    從2006年亞馬遜推出公有雲存儲服務(Amazon S3),到2012年阿里雲存儲服務(OSS)的面世,再到2016年杉巖數據率先推出企業私有雲對象存儲產品(MOS),對象存儲因網際網路而生,面對海量數據場景具備天然優勢,逐漸成為大數據時代存儲界的後起之秀。
  • 大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用
    2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。
  • 機器學習實踐心得:數據平臺設計與搭建
    下文將基於本人所負責的個推大數據平臺搭建工作,與大家分享個推數據平臺架構方面的經驗以及踩過的一些坑。  一、背景:機器學習在個推業務中的應用場景  作為獨立的智能大數據服務商,個推主要業務包括開發者服務、精準營銷服務和各垂直領域的大數據服務。
  • 雲計算大數據數字娛樂行業應用論壇:移動與數據的無限可能
    本次會議以技術、應用、創新、標準、國際交流為方向,共設置了近20個分論壇,特邀了十大院士與百餘位企業一線實踐者,共同技術把脈雲計算及大數據發展趨勢,深入探討雲計算大數據在生產環境中的核心技術、實踐經驗、革新方向與國際標準等。5月23日下午,雲計算大數據數字娛樂行業應用論壇順利召開。
  • 19年mpp電力管施工經驗羅師傅告訴你mpp管怎麼施工
    隨著現代國內城鎮建設持續不斷,mpp電力管也隨著現代電力行業的快速發展使用遍及各個領域,小編很幸運的遇到在mpp管施工19年的工作經驗羅師傅來自洛陽塑雅新材料科技有限公司,小編通過羅師傅在焊接施工過程中應當注意細節和工作經驗分享給大家。
  • 大數據學院|數據科學與大數據技術專業介紹
    一、 專業介紹數據科學與大數據技術專業是教育部為落實構建《促進大數據發展行動綱要》而批准設立的新工科專業,該專業是以大數據為研究對象,以從數據中獲取知識與智慧為主要目的,以統計學、計算機科學、可視化以及專業領域知識等為理論基礎,以數據採集、預處理、數據管理及數據計算等為研究內容的一門學科。