近日,由農信銀資金清算中心主辦、金科創新社承辦的「2020農村金融科技創新與共享發展線上會議」上宣布了「第四屆農村中小金融機構科技創新優秀案例評選」榜單,江蘇省農村信用社聯合社大數據DAAS應用平臺獲「技術創新優秀案例」榜首。
江蘇農信立足自身實際,加大對雲計算、大數據、人工智慧、5G等技術的研究和應用,建立大數據DAAS應用平臺,實現普惠金融創新與實踐。星環科技基於容器的智能大數據云平臺Transwarp Data Cloud (TDC)為其提供強大的存儲計算能力,加速農村金融機構數位化轉型進程。
通過大數據DAAS應用平臺的建設,實現了各租戶之間的資源、數據、應用、組件的完全隔離,為各農商行提供了一整套大數據基礎平臺和大數據應用解決方案,切實有效的提高了農商行大數據應用和分析能力。
江蘇省聯社根據《江蘇省農村信用社聯合社大數據服務平臺發展三年規劃(2018年-2020年)》規劃,藉助大數據服務平臺的技術沉澱與積累,搭建大數據DAAS應用平臺,支撐農商行特色大數據應用,為農商行數據倉庫、AI建模、圖計算、數據管控等個性化的大數據應用提供基礎資源服務。
該平臺對基礎資源環境進行集約化管理,為各農商行提供統一的基礎環境、硬體設施的管理維護、監控管理、數據備份等服務,農商行可以專注大數據應用場景的開發工作,無需關注底層平臺的搭建維護。
提供基於大數據的DAAS服務,提升數據輸出服務能力,通過「數據+服務+應用」,產生閉環,促進生態,提升四個數據能力。以下對其中相關概念做進一步的說明;
1、數據資產服務
將內部數據歸一化、資產化,為價值創造提供先決條件。根據可訪問的權限,劃分為共享、租戶和敏感(全局非共享)數據,平臺級對數據進行有機的組織和管理,形成數據資產目錄,實現數據的價值計量。
2、AI模型工廠
通過機器學習平臺交互式探索、開發的PMML模型,能通過AI模型工廠進行共享模型,讓機器學習和人工智慧自動化和普惠化。從傳統單一的報表分析,轉變為主動式數據探索,並能進行模型共享和迭代完善,避免了煙囪開發,提升數據服務能力。
3、業務應用共享
平臺中提供了自定義應用上架功能,用戶經過自主探索開發的業務應用,能快速便捷地分享給平臺的其他用戶,避免重複開發的工作量和科技成本。例如,某應用系統,經過線上驗證效果良好,可以將該系統打包成標準的Docker鏡像,上傳發布。在產品發布後,其他用戶就可以一鍵部署,直接使用、修改完善和再發布成新產品。
平臺基於容器的大數據平臺架構,可以達到以下特性:
1、多租戶的平臺架構
1)多租戶和資源管理,並達到租戶隔離和資源池化。
2)廣泛接入。支持多種設備、協議、接口和安全技術。
3)按需使用。租戶有自助使用基礎設施資源的自由;對資源或服務可以自助配置並自動化使用;用戶通過Kerberos安全認證方式連接平臺。
4)具有彈性。根據需求自動透明的擴展IT資源,降低資金和時間成本。
5)用量可度量,平臺能夠精確記錄資源的使用情況。
6)具有可恢復性。通過冗餘給用戶提供故障恢復能力,服務本身高可用。
2、靈活的實例配置
提供數據倉庫、實時數據區、數據集市等多種應用實例,集成各個基礎組件,方便農商行根據實例模板靈活配置,無需手動選擇各類組件。
平臺集成多種組件,可以提供各類應用能力。
1、提供流處理組件
平臺接入準實時數據,以分布式消息隊列Kafka為核心,提供數據格式註冊、Rest API風格的數據訪問服務和具備管理監控功能的Web控制臺。基於KSQL這一流式SQL引擎,結合KStream這一用來處理流式數據的Java類庫,提供了一個簡單的、完全交互式的SQL接口,支持廣泛的流處理操作,包括聚合、連接、窗口、會話。同時開發了一套流處理可視化開發工具,降低流處理編程門檻,支持複雜的聚合操作,從一個流讀入數據,再將其輸入另一個流,或者直接落入到資料庫等,可擴展性強。
2、提供SQL開發工具
提供跨平臺的資料庫管理工具waterdrop,支持表、存儲過程等開發,既可作為Inceptor SQL客戶端,還支持併兼容其他多種資料庫 。
3、提供分布式ETL工具
提供開源的sqoop組件,同時針對hdfs和db2、oracle之間的數據同步,設計完成了通用數據同步組件,供平臺用戶自行選擇使用。
4、提供數據同步工具
提供TDT+WORKFLOW的任務設計開發和調度。TDT是設計和創建ETL任務的可視化工具。支持提供完整的數據整合功能,支持豐富的數據源以及多種數據轉換操作。Workflow是圖形化的工作流設計、調試、調度和分析的服務平臺,支持Shell、SQL、JDBC、HTTP等任務類型,支持自定義Java任務,提供豐富的分析展現形式協助診斷工作流的執行狀況,可以通過兩者結合完成數據同步和加工處理。
5、提供數據歸檔平臺
提供一套自助式的數據歸檔平臺。用戶可以通過可視化界面,完成表數據的選擇接入,能夠實現拉鏈、增全量等不同形式的數據標準化、歸檔存儲功能。
6、提供調度工具
提供MOIA調度工具,支持從歸檔平臺到數據加工處理全鏈路的完整調度依賴配置,支持通過excel表格、前臺界面等多種方式實現工作流設置。提供豐富的日誌展示,支持對接簡訊接口監控批處理執行情況。
7、提供分布式SQL引擎
分布式SQL引擎Inceptor,是基於Hive和Spark技術實現的一款大數據平臺軟體產品,支持分布式事務處理,支持批量增刪改查的分布式事務處理,有優異的大數據處理和分析性能,與hive相比,數據分析處理速度有顯著提升。
8、提供Newsql資料庫
提供Newsql資料庫hyperbase,主要是基於開源hbase+hive的體系結構,融合了全局索引、全文索引,加入了序列化反序列化編碼格式,對sql的支持度更加友好。
9、提供數據建模組件
提供數據建模組件sophon,提供數據清洗、數據分析挖掘、機器學習、深度學習、模型部署等功能。結合Sophon的分布式算法、自動建模、可視化設計等優勢,可以更高效地幫助建立完整的數據建模任務,自動獲取較佳模型和參數,優化建模速度,同時也降低了使用模型的門檻,提高了技術人員開發模型和業務人員探索數據的工作效率。
10、提供BI套件
平臺集成行內主流的帆軟報表組件,支持用戶進行數據分析展現。
省聯社負責整體平臺搭建,提供調度、歸檔、分析展現等通用組件開發和解決方案制定,負責各種省級統一的源數據的採集、傳輸、歸檔、加工等工作,將採集加工好的數據拆分之後歸檔到DAAS應用平臺各農商行租戶下,並為農商行的集群或者應用提供聯機和批量的接口,用於農商行各業務場景或應用中的數據支撐;農商行可利用平臺高效的加工效率和豐富的加工組件,在自身的租戶下建立數據倉庫、數據集市、數據應用等各類項目。
江蘇省聯社自2019年開始建設省聯社DAAS平臺,截止到2020年10月,已經實現三家農商行的試點使用,深化農商行應用水平,協助完成大屏、實時數據展示等應用。同時計劃11-12月份擴大法人使用範圍,新增完成8家農商行的投產使用。2021年計劃繼續優化平臺和推廣使用,支持30家左右農商行平臺應用。
1、完善數據接入
由於不同農商行之間場景應用需求有差異,數據需求各有不同,平臺開發了統一數據交換歸檔平臺,可以根據農商行需求按需下發數據。同時應用kafka將準實時數據消費到DAAS平臺內部,支撐農商行準實時數據分析和展現。通過從批量數據和實時數據兩個方面,完善農商行數據接入。
2、提升數據處理
三家農商行分別應用平臺實現了數據倉庫、分析報表平臺、網格營銷應用系統,解決了原有平臺硬體老化、擴充困難、加工處理效率低、數據備份時間長等問題。
項目已實現三家農商行使用,規避了農商行自建大數據平臺時易出現的費用投入巨大、維護大數據平臺困難、科技風險比較高等風險,解決了農商行數據存儲成本高、數據整合困難、數據處理性能不足,分析拓展能力差等問題,同時基於總結三家農商行試點情況,項目組已形成一整套的農商行大數據平臺應用解決方案,提高了農商行的大數據應用能力。
以其中一家農商行為例,使用大數據DAAS應用平臺後,在技術和業務上均取得相應的突破。
1、大幅提高數據存儲和計算能力
相比原數據倉庫,使用大數據DAAS應用平臺後在多個方面有所成效。一是硬體性能方面,多節點存儲,數據存儲安全可靠,實現了資源動態拓展,多重備份,數據易於恢復;二是資料庫性能方面,跑批效率大幅提高,備份時間短,海量數據處理計算能力強;三是實時數據監測方面,接入準實時數據,實現部分數據T+1到T+0,在經營決策、風險控制、客戶維護能力等方面得以加強;四是數據處理方面,支持非結構化數據存儲計算,整合多源數據,打通多系統底層數據;五是維護成本方面,省聯社統一進行設備維護與系統運營,減輕農商行運維壓力。
2、優化現有應用,提升數據分析處理能力
使用平臺優化了員工行為管理、績效考核和整村授信等現有系統。
員工行為管理系統,新增8個流水分析類複雜模型,極大的豐富了系統模型數據,同時模型跑批速度提升60%以上。截止目前,累計清收表外不良貸款707.83萬,核查各類疑點數據122456條。業務違規問題經濟處罰30.96萬元,涉及員工566人次。
績效系統,實現了任意時間段的日均計算,優化了原日均績效模型,提高了績效數據精確度。通過LPR模型科學測算,將我行經營目標與員工績效有機結合,為價值分配提供合理依據,全面提高員工工作積極性。
整村授信系統,將走訪數據、社保數據進行整合,優化戶籍信息,截止目前,已走訪鄉鎮32個,農村667個,涉及村戶15.9萬戶,共55.7萬人,獲得大量一手數據。實現了從鄉鎮到村到戶到村民四級匯總信息和明細信息的收集整理。
3、拓展建設新功能
通過使用大數據平臺準實時數據區,對全行個人客戶存貸款實時監測,動態關注存貸款上升或下降的前20名重點客戶,做好即時維護服務。
統計全行存貸款數據實時變動,處理分析全行經營決策的關鍵指標,包括收單商戶、支行普惠涉農排名、不良貸款監測等,並通過數據大屏進行展示。
提升數據查詢速度,實現客戶基本信息以及存貸款、電子銀行等產品信息一鍵查詢,通過對客戶進行行為分析,實現客戶標籤化,同時對客戶推薦行內高匹配度金融產品。
大數據DAAS應用平臺從8個方面提供了數據服務能力,解決各農商行在數據應用中存在的問題。
一是解決數據處理能力不足問題,平臺使用集群部署X86 PC Server,多臺機器並發處理計算,提高數據處理性能;
二是解決數據存儲能力不足問題,平臺使用分布式存儲架構HDFS進行各類數據的存儲,極大的擴充了存儲容量;
三是解決擴展能力不足問題,平臺使用分布式架構設計,資源不足時可以實現不停機快速橫向擴容;
四是引領場景創新 ,省聯社積極研究新技術、探索新場景建設,比如準實時數據處理,成熟後推廣到農商行應用;
五是降低費用投入,全省集中建設,伺服器資源彈性分配,使用PC Server替換小型機、使用物理磁碟替換專用存儲設備,費用顯著降低;
六是解決人員技能問題,通過技能培訓、大數據場景方案設計與研討、聯合開發等建設省聯社和農商行大數據人才隊伍;
七是促進創新成果共享,先行先試,樹立典型,組織大數據應用場景共享;
八是統一平臺升級維護,省聯社負責基礎平臺升級維護,提供性能優化方案,保障平臺穩定運行。