大數據分析平臺搭建架構圖

2021-01-20 騰訊網

首先,最底層的是各種各樣的數據源。當今的IT生態系統,需要對各種不同種類來源的數據進行分析。這些來源有可能是系統內部的日誌數據,也有可能是來源於其他接口的數據等等。

然後從這些數據源採集各種符合企業需求的數據,經過驗證、清洗、並轉化為所需格式後,儲存到一個合適的持久化儲存層中。

下一階段是數據的處理和分析,包括從數據分析人員從原始數據中分析出來的一些拓展信息,在這一階段中的一部分乾淨數據是去規範化的,包括對一些相關數據集的數據進行一些排序,在規定的時間間隔內進行數據結果歸集,執行機器學習算法,分析預測等。

最後一層,是可視化和展示各個不同分析算法處理過的結果。這個步驟包括從預先計算匯總的結果中讀取和用一種友好界面或者表格的形式展示出來,這樣便於企業內部非專業人員對數據分析結果的理解。

最基礎的大數據分析平臺有上述的幾層架構,如果是數據量龐大的企業,會需要架構更加複雜的分析平臺。以一個規模龐大的金融集團為例,首先要對集團的業務數據進行歸類,

首先該集團的數據來源可分為兩大塊,一是源數據內容:有內部業務系統產生的結構化數據,如供應商信息、客戶信息等,還有企業內外部的非結構化數據,包括用戶訪問日誌、用戶點評、投訴等;二是源數據增量,主要為商城和金融集團業務系統數據(見下圖):

這些數據需要通過數據交換平臺傳輸到上層供處理計算,傳輸組件需根據數據源存儲結構和存儲資料庫的特點的不同來設計,以追求性能的卓越。在數據存儲層之上,是數據計算層。

通過數據平臺和BI應用建設,他們可以搭建統一的大數據共享和分析平臺,對各類業務進行前瞻性預測分析,並為集團各層次用戶提供統一的決策分析支持,提升數據共享與流轉能力。搭建一套成熟的大數據分析平臺是一項複雜的工作,因此選擇一個合適的BI工具顯得尤為重要。

億信ABI是一款融合了數據源適配、ETL數據處理、數據建模、數據分析、數據填報、工作流、門戶、移動應用等核心功能而打造的全能型數據分析平臺,提供了多種分析手段,在可視化分析方面支持複雜報表、Dashboard、3D可視化、大屏分析、GIS地圖、預測挖掘等,在自助式分析方面支持敏捷看板、即席報告、幻燈片、移動分析等分析方式,以滿足用戶各種分析場景。希望對你有所幫助。

大數據分析平臺實現技術

1 硬體平臺

大數據分析平臺需要進行 PB 級數據的讀取、寫入,需要進行數據挖掘模型的大規模運算,需要進行預測結果的發布,對底層基礎硬體的磁碟 IO 和運算速度要求很高,同時需要滿足分布式、動態擴展的要求,因此採用配置為 2 路 8 核CPU、128GB 內存、千兆網卡的x86架構 PC Server 伺服器。

2 平臺軟體

作業系統軟體採用 Red Hat,數據採集採用 Flume-NG, 海量數據存儲及分布式計算採用Hadoop,數據清洗採用 Hive,數據挖掘引擎採用 Spark R,預測結果保存在 HBase 中。

採 用 HAProxy+Keepalived+Flume-NG 構建高性能高可用分布式數據採集系統。

採用 Hadoop 構建 PB 級大數據平臺,提供海量數據存儲和分布式計算。

採用 Hive 做為數據清洗引擎,提供 PB級數據預處理、加工、整合服務。

採用 Spark R 組件,Spark R 提供了 Spark中彈性分布式數據集的 API,用戶可以在集群上通過 R shell 交互性的運行 job。數據挖掘模型以 Spark On Yarn 的 yarn-cluster 方式構建大數據分析引擎。

採用 HBase 技術可以提供海量數據的高效發布。

3 大數據挖掘模型開發

數據採集存儲模塊:DPI、業務側、網元側數據通過文件接口方式發送到 Flume-NG 集群,Flume-NG 通過 memory 數據傳輸方式,將接收到的數據實時的通過 hdfs 方式匯聚到大數據分析平臺。

數據清洗模塊:通過編寫 HQL 腳本對數據進行清洗、轉換,形成特徵寬表。

數據挖掘模塊:基於特徵寬表的數據建模採用 Spark R, 調用聚類、分類等算法,進行模型開發、模型評估、模型應用。

分析結果發布:模型應用的結果集存儲在HBase 中,首先需要在 HBase 中新建存儲結果集的 HBase 表,通過 Map Reduce 生成 HFile文件,然後通過 Bulk Load 方式入庫。數據的調用通過 HBase API 實現,數據的展現通過ECharts 技術實現。

相關焦點

  • 創新的接地故障大數據分析平臺,有效提高數據處理效率
    為了在實際故障數據的基礎上解決小電流接地系統接地故障檢測問題,本文根據具體需求提出了接地故障大數據分析平臺的設計方案,並針對分析平臺中故障資料庫的搭建進行了詳細地說明。故障資料庫搭建構想以湖南某地區變電站實際錄波數據進行驗證,通過制定的故障數據篩選清洗策略,提高了資料庫存儲效率,為後續故障數據分析及在線故障診斷奠定了基礎。
  • 如何搭建統一的數據分析平臺——杭州聯合銀行建設經驗
    文 | 帆軟數據應用研究院 船長更多大數據資訊和企業案例可關注 :知乎專欄《帆軟數據應用研究院》移動網際網路普及的當下,銀行業內外部數據不斷積累,如何解決信息孤島問題?如何進行數據整合?如何將數據可視化?如何充分發揮數據價值?圍繞這些問題,杭州聯合銀行近幾年進行了多角度的數據分析探索,在帆軟銀行大會上演講分享。這裡整理成文,歡迎留言探討。
  • 智慧公安大數據分析平臺開發警務通APP系統開發
    智慧公安大數據分析平臺開發警務通APP系統開發眾所周知,大數據在公安機構一直以來都素有「智慧大腦」之稱,而數據又是智慧公安建設極其重要的基礎,通過系統的採集分析計算,能進一步的打通數據聯通壁壘近年來,順應大數據、雲計算、人工智慧等時代發展趨勢,加上智慧城市建設步伐加快,傳統治安警務也開始邁入智慧化軌道。如何針對新時代治安面臨的問題,加快打造智能化信息平臺,全面構建智慧公安體系,同步提高智能感知設備覆蓋率,將是完善智慧警務新生態,推動社會治安持續向好的重要舉措。
  • 如何畫出優秀的架構圖?
    本文作者阿里巴巴技術專家三畫,分享了自己和團隊在畫好架構圖方面的理念和經驗,首發於阿里內部技術分享平臺,梓敬、鵬升和餘樂對此文亦有貢獻。 當我們想用一張或幾張圖來描述我們的系統時,是不是經常遇到以下情況: 對著畫布無從下手、刪了又來? 用一張圖描述我的系統,並且讓產品、運營、開發都能看明白?
  • 專訪百奧智匯王泱洲:我們的獨有優勢是大數據及分析平臺
    第二, 百奧智匯在數據方面的積累。除了張澤民博士在計算方法學領域的學術實力外,百奧智匯在數據方面也有很深的積累。目前,百奧智匯已經建立在規模和質量方面國際領先的單細胞大數據和分析平臺,這是非常有價值的。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 個人電腦搭建微生物組分析平臺(Win/Mac)
    121個人電腦搭建微生物組分析平臺(Win/Mac)本節作者:劉永鑫 中國科學院遺傳與發育生物學研究所版本1.0.3
  • 山東首個縣級時空大數據與雲平臺建成
    日前,山東省首個縣級時空大數據與雲平臺建設試點項目——智慧新泰時空大數據與雲平臺建設試點項目通過驗收。該試點項目由自然資源部、山東省自然資源廳和新泰市政府共同建設,2018年5月開始實施。該項目整合了全市域多類時空數據、公共專題數據,研製了時空大數據的快速計算和分析方法,搭建了時空信息在線服務超市,面向自然資源管理和各部門需求,開發了9項業務系統;具備專題信息加載、查詢統計、空間分析、可視輸出等服務功能,以及二次開發接口和大數據分析工具。專家認為,這個試點項目可為縣級時空大數據平臺建設提供可借鑑經驗。
  • 大數據學習環境搭建系列(二)虛擬機軟體Vmware的安裝
    作者 | CDA數據分析師概述在進行分布式架構的學習前,首先需進行基礎環境準備。眾所周知,在單機運算能力無法滿足處理海量數據的運算能力時,人們普遍開始考慮使用分布式運算來代替單機運算,這也成為了大數據分析和小數據分析最顯著的區別之一,即使用的工具不同。
  • GB-GIAS基因組數據分析一體化服務平臺
    第三屆「精準醫療與基因測序大會」期間,23GENEBANK正式發布GB-GIAS基因組數據分析一體化服務平臺,受到廣泛關注。本屆大會於2017年7月15日,在北京·協和學術會堂盛大召開,並圓滿結束。羅氏、賽莫飛、諾河致源、瑞寧、23GENEBANK等企業代表參展,與會的數百位醫療行業從業者共同進行了最直觀的交流。
  • 大數據分析學習之路
    一、大數據分析的五個基本方面 1,可視化分析大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點
  • 學習大數據分析要什麼基礎,零基礎入門ok嗎?
    CDA數據分析師原創作品身處21世紀的今天,數據分析行業急劇發展,越來越多的企業已經意識到大數據分析的重要性和發展潛力,同時越來越多的傳統行業公司開始轉型升級,開始引入並發展專屬自己的大數據分析部門及崗位。
  • 121個人電腦搭建微生物組分析平臺(Win/Mac)
    121個人電腦搭建微生物組分析平臺(Win/Mac)本節作者:劉永鑫 中國科學院遺傳與發育生物學研究所版本1.0.3
  • AdTime推出國內首個大數據營銷分析平臺—雲圖
    近日,全球領先的大數據營銷平臺AdTime宣布推出國內首個大數據營銷分析平臺——雲圖。雲圖的「雲」代表雲計算,「圖」代表可視化。雲圖旨在挖掘網際網路數據深層次關係,構建可視化的大數據平臺。
  • 醫學領域大數據科研平臺應用依靠它實現
    通過建立大數據科研平臺,提高臨床科研的效率及質量,並促進研究成果有效轉化。根據廣州醫科大學附屬第二醫院實際情況,建立以智能醫學數據中臺為核心的大數據科研平臺,通過專病庫建立、描述性統計分析、統計挖掘、單病種分析及疾病預測等,優化科研流程,提升科研質量,實現科研成果的臨床應用。
  • 【金猿產品展】Yonghong Z-Suite——一站式大數據分析平臺
    本產品由永洪科技投遞並參與「數據猿年度金猿策劃活動——2020大數據產業創新服務產品榜單及獎項」評選。 永洪一站式大數據分析平臺Yonghong Z-Suite是完整的數據分析系統套件,由敏捷BI、MPP數據集市、AI深度分析、報表等組成。
  • 觀遠數據3.0平臺發布:Universe數據開發、Galaxy數據分析、Atlas雲...
    Galaxy數據分析產品線作為新一代智能分析與決策平臺,Galaxy數據分析系列產品擁有領先的技術和完整的運維體系做支撐,可應用於企業數據採集、數據準備、數據分析、數據門戶等數據分析和決策場景,助力企業快速構建敏捷數據分析平臺。
  • 嵌入式BI應用案例:金麒麟數據可視化分析平臺(集成ERP、MES)
    嵌入式BI應用案例:金麒麟數據可視化分析平臺(集成ERP、MES) 嵌入式BI應用案例:金麒麟數據可視化分析平臺(集成ERP、MES) 2020-12-02 15:16:45  來源:網際網路
  • 辰安天澤成功中標「即墨區智慧消防大數據處理平臺」項目(一期)
    8 月底,辰安天澤中標即墨市公安消防大隊即墨區智慧消防大數據處理平臺項目,中標金額為 649.47 萬元。本項目主要是搭建即墨市智慧消防系統平臺,對一期試點社會單位進行消防安全管理,後期會對轄區的其他社會單位進行逐步接入,為接入單位提供消防安全社會化服務。
  • 大數據分析平臺解析:什麼是Apache Spark?
    【IT168資訊】Apache Spark是一款快速、靈活且對開發者友好的工具,也是大型SQL、批處理、流處理和機器學習的領先平臺。2009年,Apache Spark從美國U.C. Berkeley的 AMPLab為起步,現在已經成為世界上主要的大數據分布式處理框架之一。