首先,最底層的是各種各樣的數據源。當今的IT生態系統,需要對各種不同種類來源的數據進行分析。這些來源有可能是系統內部的日誌數據,也有可能是來源於其他接口的數據等等。
然後從這些數據源採集各種符合企業需求的數據,經過驗證、清洗、並轉化為所需格式後,儲存到一個合適的持久化儲存層中。
下一階段是數據的處理和分析,包括從數據分析人員從原始數據中分析出來的一些拓展信息,在這一階段中的一部分乾淨數據是去規範化的,包括對一些相關數據集的數據進行一些排序,在規定的時間間隔內進行數據結果歸集,執行機器學習算法,分析預測等。
最後一層,是可視化和展示各個不同分析算法處理過的結果。這個步驟包括從預先計算匯總的結果中讀取和用一種友好界面或者表格的形式展示出來,這樣便於企業內部非專業人員對數據分析結果的理解。
最基礎的大數據分析平臺有上述的幾層架構,如果是數據量龐大的企業,會需要架構更加複雜的分析平臺。以一個規模龐大的金融集團為例,首先要對集團的業務數據進行歸類,
首先該集團的數據來源可分為兩大塊,一是源數據內容:有內部業務系統產生的結構化數據,如供應商信息、客戶信息等,還有企業內外部的非結構化數據,包括用戶訪問日誌、用戶點評、投訴等;二是源數據增量,主要為商城和金融集團業務系統數據(見下圖):
這些數據需要通過數據交換平臺傳輸到上層供處理計算,傳輸組件需根據數據源存儲結構和存儲資料庫的特點的不同來設計,以追求性能的卓越。在數據存儲層之上,是數據計算層。
通過數據平臺和BI應用建設,他們可以搭建統一的大數據共享和分析平臺,對各類業務進行前瞻性預測分析,並為集團各層次用戶提供統一的決策分析支持,提升數據共享與流轉能力。搭建一套成熟的大數據分析平臺是一項複雜的工作,因此選擇一個合適的BI工具顯得尤為重要。
億信ABI是一款融合了數據源適配、ETL數據處理、數據建模、數據分析、數據填報、工作流、門戶、移動應用等核心功能而打造的全能型數據分析平臺,提供了多種分析手段,在可視化分析方面支持複雜報表、Dashboard、3D可視化、大屏分析、GIS地圖、預測挖掘等,在自助式分析方面支持敏捷看板、即席報告、幻燈片、移動分析等分析方式,以滿足用戶各種分析場景。希望對你有所幫助。
大數據分析平臺實現技術
1 硬體平臺
大數據分析平臺需要進行 PB 級數據的讀取、寫入,需要進行數據挖掘模型的大規模運算,需要進行預測結果的發布,對底層基礎硬體的磁碟 IO 和運算速度要求很高,同時需要滿足分布式、動態擴展的要求,因此採用配置為 2 路 8 核CPU、128GB 內存、千兆網卡的x86架構 PC Server 伺服器。
2 平臺軟體
作業系統軟體採用 Red Hat,數據採集採用 Flume-NG, 海量數據存儲及分布式計算採用Hadoop,數據清洗採用 Hive,數據挖掘引擎採用 Spark R,預測結果保存在 HBase 中。
採 用 HAProxy+Keepalived+Flume-NG 構建高性能高可用分布式數據採集系統。
採用 Hadoop 構建 PB 級大數據平臺,提供海量數據存儲和分布式計算。
採用 Hive 做為數據清洗引擎,提供 PB級數據預處理、加工、整合服務。
採用 Spark R 組件,Spark R 提供了 Spark中彈性分布式數據集的 API,用戶可以在集群上通過 R shell 交互性的運行 job。數據挖掘模型以 Spark On Yarn 的 yarn-cluster 方式構建大數據分析引擎。
採用 HBase 技術可以提供海量數據的高效發布。
3 大數據挖掘模型開發
數據採集存儲模塊:DPI、業務側、網元側數據通過文件接口方式發送到 Flume-NG 集群,Flume-NG 通過 memory 數據傳輸方式,將接收到的數據實時的通過 hdfs 方式匯聚到大數據分析平臺。
數據清洗模塊:通過編寫 HQL 腳本對數據進行清洗、轉換,形成特徵寬表。
數據挖掘模塊:基於特徵寬表的數據建模採用 Spark R, 調用聚類、分類等算法,進行模型開發、模型評估、模型應用。
分析結果發布:模型應用的結果集存儲在HBase 中,首先需要在 HBase 中新建存儲結果集的 HBase 表,通過 Map Reduce 生成 HFile文件,然後通過 Bulk Load 方式入庫。數據的調用通過 HBase API 實現,數據的展現通過ECharts 技術實現。