本文共字,預計閱讀時間。
文/長江證券信息技術總部陳傳鵬、趙文龍、舒小奎、董理驊
(本文為「證券機構數位化轉型與證券科技創新」徵文活動精選文章。)
隨著信息技術飛速發展,人工智慧、大數據、區塊鏈等技術的廣泛應用,金融科技浪潮引發了數據量迅猛增長。數位化轉型、數位化新生態,對數據服務提出了靈活敏捷、智能高效的要求。面對需求緊急繁雜、數據來源異構、服務方式多樣等數據服務的固有難點,構建靈活、開放的技術架構,提升快速準確響應需求能力,提供高效安全的數據服務,成為數據敏捷服務的關鍵。
數位化轉型、數位化新生態,數據是流動的基本要素。機械化解放了人類的肢體,信息化改變了人類的生產生活方式,第四次工業革命,有說智能革命也有說生物科技,但數位化將在虛擬空間重塑現實時空、人工智慧下,人類的思維模式也許將會被顛覆。為什麼中美貿易戰無時無刻不在爭奪5G的高地,因為5G是基礎,與物聯網+雲計算+區塊鏈將構建數字時空的基礎設施,是百年未有之大變局,是新舊動能轉換的驅動力,數據智能與敏捷服務將是數位化時空的生產資源和生產力,無數據不智能、不敏捷無服務已成為共識。
1.1 國際大數據技術發展概述
在大數據發展的初期,技術方案主要聚焦於解決數據「大」的問題,Apache Hadoop 定義了最基礎的分布式批處理架構,打破了傳統資料庫一體 化的模式,將計算與存儲分離,聚焦於解決海量數據的低成本存儲與規模化處理。Hadoop憑藉其友好的技術生態和擴展性優勢,一度對傳統大規模並行處理(massively parallel processor, MPP)資料庫的市場造成影響[1]。
MapReduce暴露的處理效率問題以及Hadoop體系龐大複雜的運維操作,推動計算框架不斷進行著升級演進。隨後出現的Apache Spark已逐步成為計算框架的事實標準。在解決了數據「大」的問題後,數據分析時效性的需求愈發突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年來備受關注的產品為流處理的基礎框架打下了基礎[2]。在此基礎上,大數據技術產品不斷分層細化,在開源社區形成了豐富的技術棧,覆蓋存儲、計算、分析、集成、管理、運維等各個方面。
1.2 大數據在金融行業應用發展概述
大數據應用提升金融行業運轉效率,實現金融業在數據資產管理、運營管理、客戶服務等方面應用效果已經取得較大共識。一方面可以推動金融機構業務驅動模式的轉型,另一方面通過大數據技術產品的應用迭代和創新發展,新產品和新服務不斷發展,而機構可以通過投資或合作,與新興金融科技公司形成業務互補,進一步推動技術創新再金融行業的應用。
在大數據應用初始階段,結合線上系統和業務系統的落地數據,利用網際網路和行動裝置為客戶提供線上自助式服務。通過大數據分析,優化產品界面,簡化業務流程,適用於所有金融行業,並在實踐中取得良好應用效果。在此階段,大數據技術的主要應用是數據架構與信息整合,主要功能是簡單的分析與初步決策並且構建一個存儲信息的的大數據系統。
目前大數據已經發展到處理分析大量終端用戶數據的階段,為金融公司提供了良好的數據基礎。例如大數據分析在金融領域應用的一個典型主要在個人徵信、授信與風險管控,覆蓋貸前評估、貸中監控與貸後反饋等環節。雲計算與大數據的爆發式發展則為人工智慧提供了技術基礎,人工智慧主要體現在智能數據分析與決策。如果將人工智慧拆分為基礎層、技術層和應用層三個層面,那麼在基礎層面,細分技術如大數據的發展不可或缺;在技術層面,與大數據最相關的是知識圖譜、機器學習與自然語言處理等;在應用層面,主要包括神經網絡、遺傳算法與AlphaGo等[3]。
1.3 大數據證券行業應用痛點分析
面對源系統來源多樣、業務規則靈活多變、數據監管要求日漸趨嚴、數據人力資源相對短缺等現實問題。大數據證券行業應用的痛點,我們都曾經歷或正在經歷。數據之繁亂,即便同類業務在不同時期的數據格式也都相互不兼容。理想和現實的差距,我們都曾覺得ABCD可以無所不能,我們都想有商業化的大數據平臺,屏蔽底層複雜的技術棧,但同時黑盒封裝又導致架構失去了靈活性,無法適配更多的業務場景,更難以匹配大數據技術發展的速度。不同商業化產品,因其架構和開發框架差異,IT部門不得不配備多個團隊來支持不同平臺的開發和運維,數據團隊的包袱越來越重。數據工程師的要求也越來越高,既要懂業務、又要懂技術、還要懂算法,「會聽」即理解業務需求、「會說」、「會寫」和「會畫」即數據可視化效果要酷炫,可還是無法完全滿足業務部門的多樣化需求,理想中的大數據好像變成了IT部門沉重的包袱。
本研究運用現有大數據平臺技術基於模塊解耦、架構開放、可集成等特性,通過自由拆分、靈活組合來提供敏捷高效的數據服務。
2.1 敏捷大數據構建方法論
敏捷大數據服務方法論,是基於通用平臺工具組合構建底層數據服務基礎,在此基礎上實現數據安全及運維,結合通用技術平臺和數據服務方法,實現多種場景數據敏捷服務實踐能力。
基于敏捷服務的基本方法和模型,本研究的關鍵技術在於構建數據服務基礎和實現構建敏捷數據服務能力兩方面。在構建數據服務基礎層面,應用數據全生命周期方法,根據數據離線服務和在線實時服務的不同技術訴求,關鍵技術在於構建解耦、開放、靈活、復用的技術框架。在數據敏捷服務層面,為能夠融通專業團隊與平臺工具,數據智能和敏捷服務、貫通業務與技術系統,關鍵在於將數據團隊進行合理的技術劃分,數據團隊形成各自專精業務技術能力棧,同時構建小組間高效數據交換規範。敏捷數據服務的基本方法和模型如圖1所示。
圖 1 敏捷大數據服務方法論
通過能力棧與技術棧結合,構建安全穩定、靈活拆分、自由組合的數據服務樂高橋,同時平臺架構可集成、可配置和可管控,保障敏捷大數據服務的安全穩定,形成模塊化、模式化、模板化的數據敏捷服務。敏捷的服務目標,首先技術棧要實現數據智能,其次能力棧提供敏捷服務。
2.2 構建敏捷大數據技術棧
在技術棧方面,通過對採集、存儲、計算、服務四個方面架構解耦,形成4個核心技術棧近30個技術平臺和模塊,同時滿足接口開放,支持模塊化靈活組合要求,支持統一管控,保證場景模板的狀態要可持續監控、管理、控制。技術棧數據智能的技術框架如圖2所示。
圖 2 數據基礎技術棧技術框架圖
針對不同的數據源和應用場景分別使用DataStage或Kettle兩種ETL工具來實現離線數據的採集。在目前關係型資料庫為主的應用場景下準實時(秒級)資料庫同步通過DSG實現,對於某些特殊數據源應用不同的高級語言定製開發實現數據的自動化採集。通過對關係型資料庫數據的抽取,日誌收集伺服器對移動應用APP和頁面埋點數據的採集、對日誌文件的傳輸和接收以及實時數據流的採集,將源數據存儲到分布式文件系統、大數據數據倉庫、消息隊列、搜尋引擎和內存資料庫等存儲系統中,然後通過大數據離線計算框架和實時計算框架對數據同時進行處理,以API和OLAP等形式提供數據服務,最終於應用APP和BI報表等多種方式呈現和展示數據。
2.3 構建敏捷大數據能力棧
基於解耦的採集、存儲、計算、服務四個技術棧,對應的劃分相應的採集、計算與服務數據小組。一方面,各個小組深入研究各技術棧細節並提供敏捷的技術服務能力,另一方面,各個小組間形成高效數據交換規範,針對不同的數據需求,各自選擇採集、存儲、計算、服務技術棧裡最優的模塊,通過協同作戰模式快速響應需求。敏捷數據服務平臺要支持多種應用場景,如營銷活動的突發事件需求,適配Devops敏捷開發的持續迭代型,以及技術驅動的特徵工程。
(1)數據交換方面,大批量的離線資料庫同步DateStage,多源異構間的數據交換。結構化資料庫通過DSG推送到實時數據總線Kafka,通過Flinkx實現任意數據源類型的數據同步。日誌和文件採集工具Logstash,實時數據流Stream採集使用Flume,定向的Web數據通過Scrapy爬蟲抓取。
(2)計算方面:針對結構化資料庫,支持存儲過程,Spark的離線任務或流式的實時Flink計算。
(3)服務方面,對於日誌類搜索分析,採用ES或Splunk架構,多為數據關聯分析Kylin,量化工程師,提供SDK組件,營銷服務人員FineReport、監控告警Grafana、搜索查詢可視化Kibana、營銷活動統計Davinci。此外,對接系統方面,提供了Restful-API,以及量化SDK-jar/py服務。
2.4 構建典型實時和離線數據服務框架
基於技術棧和能力棧的組合,我們把敏捷數據服務抽象出兩個通用的數據應用場景:
(1)敏捷數據服務之典型實時數據應用
實時數據應用可以分為數據採集,數據交換,數據計算,數據服務4個模塊,數據採集方面,通過成熟的DataStage支持關係型資料庫的批量採集,通過Flinkx支持非關係型資料庫的數據採集。根據數據量和業務需求,將數據存儲在傳統關係型資料庫或者統一發送到Kafka消息隊列中,然後通過Flink進行實時計算,計算結果輸出到不通的關係型資料庫或者NoSQL資料庫中,然後通過Presto或者Kylin提供即時查詢服務,Presto分布式SQL查詢引擎,用於支持高速實時的數據分析,Kylin基於SQL查詢接口及多維分析能力支持超大規模數據。整個實時計算的技術實現框架及原理如圖3所示。
圖 3 實時計算方案技術實現框架
(2)敏捷數據服務之典型離線數據應用
離線數據應用同樣可以解耦為採集、存儲、計算、服務四個模塊。在採集方面,通過成熟的DataStage支持關係型資料庫的批量採集,通過Flinkx支持非關係型資料庫的數據採集。根據數據量和業務需求,將數據存儲在傳統關係型資料庫或分布式NoSQL資料庫中。根據數據倉庫分層思想,對數據進行預處理計算和再加工計算,形成不同主題域數據集,對數據進行特徵因子構建,通過標籤規劃、業務規則和模型算法,形成數據指標,持久化到數據服務層,對外提供豐富、準確的數據服務。完整離線數據應用框架見圖4。
圖 4 離線數據應用技術框架
本研究在研究過程中發現團隊賦能平臺、技術融合業務,讓技術棧和能力棧真正復用,才能變加法為乘法。團隊專業化分工,由數據需求工程師對接產品經理承接業務需求,通過團隊協作形成敏捷的數據服務模板:實時數據計算、分布式批處理、搜索查詢服務、數據多維關聯分析、內存實時數據交互。此外,每個工程師在具備專業技術能力基礎上,同時深度掌控某個業務領域知識,充分提升數據工程師的個人價值,實現雙贏。
本文的研究內容概括為基於技術棧、能力棧,團隊能力實現模塊化、模式化和模板化的靈活組合,形成可集成、可配置和可管控的大數據平臺,通過自由拆分與靈活組合,再融入靈活機動、專業化分工的採集、計算、服務數據工程師,實現數據智能和敏捷服務。
基於技術棧靈活支持,能力棧敏捷服務的目標,通過構建完成統一數據處理平臺,實現平臺管理包含元數據,調度,監控,權限統一管理集成,基於不同的數據源支持多種ETL工具和開發語言實現數據加工處理,提供數據API及SDK平臺。針對智能投研、多業務線條數據服務支持、監管機構風險評估等數據服務方面,實現數據快速響應、敏捷服務的數據應用能力。
3.1 運營管理複合數據服務應用
隨著公司發展,公司領導在管理公司過程中,十分重視風險管理這項證券公司核心的競爭力,但是發現資產類數據繁多,沒有全面的資產視圖,就無法從中發現可能存在的風險點。通過對各個業務部門、子公司、孫公司的各項表內表外資產的分析,理清出每一項資產的底層業務,基于敏捷大數據服務能力,通過全方位、可視化、多場景、準確、及時地展示經營、風控、財務、產品運營等數據。通過構建多維多屏駕駛艙實現明確經營方向、降低經營風險、開源節流以及優化產品設計構建多維多屏數據駕駛艙等內容,支撐公司成為以數據為驅動的企業。
多業務線條主要在公司風險管理、客戶服務、業務運營等多方面提供支持。面向公司領導層、風險管理部、財務總部、人力資源部等部門,通過公司駕駛艙、財務日報、經紀業務駕駛艙、子公司駕駛艙等數據產品,全面展示和監控公司的整體風險情況(淨資本、淨資產、風險敞口、流動資產儲備、業務規模、損益等指標)、各自營部門風險情況(淨值、持倉、風險評分、VaR值、HHI等指標)、市場情況(股、債、貨幣、外市);公司成本、支出、利潤情況;各業務條線成本、利潤、利潤因子;投資業務持倉、收益情況;流動性管理相關指標;子公司業務數據、財務數據以及風控相關數據。
通過累計多次的產品迭代,通過對駕駛艙的數據支持,已經涵蓋了財務、風控、人力等業務條線信息,完成對集團公司包括子公司的全面數據覆蓋。在數據時效性方面,數據更新頻率從最開始建立時的季度報告,更新為月度報告,財務日報更新頻率為日更新,及時準確反映公司運營情況。在數據適用性方面,駕駛艙產品已經全面兼容大屏、手機版、PC版,實現全場景數據可視化應用。
3.2 風險管理數據應用
異常交易的風險監控是行業監管科技的重點,是證券經營機構的一項持續性工作。但異常交易需求極具不確定性,因其一是偶發性受市場、人員、技術因素營銷等,極具不確定性。二是隱蔽性,場外配資、帳號出借、代客理財等等,場景多、無法一一枚舉,三是多變性,2015-homs傘形帳戶,可能更多是場外配資,或者是虛擬盤詐騙;四是時效性,震蕩市、單邊上漲、單邊下跌的異常交易行為差異等等,我們很難定義一個統一、標準和準確的異常交易模型。異常交易是一個需要業務和技術協同、在實踐中總結歸納、持續完善的過程。異常交易監檢測業務技術協同機制如圖5所示。
圖 5 異常交易監測業務技術協同機制
敏捷的業務需求中,首先快速響應,從交易行為出發,通過Flinkx快速同步結構化數據到HDFS大數據平臺,並按業務溝通結果,根據資金量、持股數量多、交易頻繁、資金異常等多個特徵指標,最關鍵的是根據特徵指標對公司所有客戶建模篩選出與眾不同的的少數疑似客戶,通過FineReport報表每月提交業務部門進行核查。異常交易特徵指標處理方案見圖6。
圖 6 異常交易特徵指標數據處理方案
根據業務部門實際回訪、以及數據工程師的特徵工程,對異常交易監測模型持續完善。我們加入了埋點行為、網絡流量實時數據,同增加實時計算的特徵指標進行篩查。
離線異常交易指標中,引入了雲主機+高齡,引入員工APP與客戶APP碰撞模型,以及普通、信用帳號、交易、申購分離,以及申購獲利了結,包括中證信息近期的客戶端安全升級,客戶使用等外掛數據。
實時異常交易指標中,我們將埋點行為數據通過Flume經Flinkx到Kafka實時消息總線,網際網路服務實時網絡流量通過Logstash採集,Flink實時窗口計算來發現短時多設備操作異常,多IP的異地登陸或委託異常,埋點高頻點擊異常和路徑異常。同時結合網絡流量實時計算異常模型,發現黑IP和黑終端情報,實時異常交易特徵指標數據處理方案見圖7。
圖7異常交易特徵指標數據處理方案
針對疑似客戶的報表更為及時和豐富,由月度更新到實時更新,包含的行為異常的時間、地點、異常操作原因。疑似客戶的結果數據存入關係型資料庫,可以用於結合行情進行趨勢分析、以及異常客戶的持續周期。在實際日常交易行為中,本方案有效並且及時的發出疑似異常交易客戶預警,發送給業務部門進行回訪核查,監測效果得到業務部門充分肯定。
3.3 客戶服務數據應用
L2產品雙11活動,是數據典型應用的業務營銷場景。客戶營銷類需求緊急,持續時間短,線上的臨時數據統計任務多。我們配合業務線全程參與,活動啟動,與H5開發設計埋點,包括點擊埋點、停留時長、訪問路徑等,針對性設計營銷指標和模型。推廣階段,H5測試上線,配套的數據採集、計算、報表支持,這些都是搭積木式的組合,埋點有現成的規範、採集和存儲,計算有現成通用平臺,報表可視化也是業務熟悉的通用化平臺,支持在線的指標測試、模型驗證,雙11正式上線,實時的營銷策略優化支持。
通過用戶地圖構建用戶熱力圖和漏鬥模型,發現用戶興趣點和流失節點,從而優化營銷活動設計。並根據用戶轉化情況,適時進行用戶提醒,調整營銷策略。通過營銷業績渠道歸因,評估營銷渠道引流效果和客戶質量,輔助營銷渠道選擇。建立基於交易數據和行為數據的客戶偏好模型,利用該模型,全面反映客戶最新興趣點,進行潛在客戶挖掘,開展精準營銷。整個營銷活動數據敏捷支持流程如圖8所示。
圖 8 雙11營銷活動數據敏捷支持流程
在進行相關數據支持後,充分降低了營銷成本,提升了營銷效果,單次活動實現百萬級銷售營收。
構建整套敏捷數據服務技術棧,涵蓋數據採集,數據存儲、數據計算、數據分析、數據交互和可視化等方面,靈活拆分的基礎構件,實現模塊化、模式化和模板化的靈活組合,實現開放解耦、高效敏捷、靈活復用的數據服務。
研究敏捷大數據技術棧,我們並沒有拋棄傳統數據倉庫,一方面,業務功能歷史遺留,遷移需要時間和代價,以及某些核心交易類業務數據需求,通過傳統的SP/SQL存儲過程實現更為便捷,效率也不低。另一方面,大數據平臺架構的輸出結果,在對接現有App應用層時,通過數據倉庫的數據集市進行緩存,避免在大數據集群服務故障時,保障前端應用的高可用。數據倉庫作為大數據平臺到應用服務間的緩衝墊,降低數據服務中斷風險。模塊化、模式化和模板化,有優點,也有缺點。優點是靈活拆分、自由組合,敏捷響應,但缺點也很明顯,組合的解決方案不一定是最優的。
本研究基於通用平臺工具組合構建大數據引擎,以數據團隊為能力支撐,應用數據全生命周期方法,提供便捷、高效、靈活、豐富、更快迭代的敏捷數據服務。
參考文獻
[1]孫會峰. 2019中國大數據產業發展白皮書[J]. 網際網路經濟, 2019(Z2).
[2]中國信息通信研究院. 大數據白皮書(2019)[EB/OL].[2019-12].http://www.caict.ac.cn/kxyj/qwfb/bps/201912/t20191210_271280.htm.
[3]吳之悅, 顧誠嘉. 大數據金融與Fintech發展的技術基礎[J]. 現代商業, 2018, 000(013):31-32.
非常感謝您的報名,請您掃描下方二維碼進入沙龍分享群。
[Source]
本文系未央網專欄作者發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!首圖來自圖蟲創意。
本文為作者授權未央網發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!首圖來自圖蟲創意。
本文版權歸原作者所有,如有侵權,請聯繫刪除。首圖來自圖蟲創意。