雷鋒網(公眾號:雷鋒網)消息,近日,雷鋒網「醫健AI掘金志」邀請眾安保險智能中心負責人孫谷飛,以「數據中臺賦能未來保險生態」為題,對險企內部數據管理、流通、價值挖掘技術邏輯進行了解析。
過去,由於技術手段和數據安全的限制,保險公司的各個系統間無法完成高效的數據交換和溝通,系統間就像一個個孤島。由於擔心部門內部信息共享不當,即便是大型保險公司,內部很多部門仍處於「信息獨立」的運營狀態中。
孫谷飛曾在世界人工智慧大會上呼籲,「保險公司不僅要豐富自身結構化場景數據,更需要加強保險公司間和其他行業的數據交流。數據開放和隱私安全並非悖論,運用聯邦學習技術的數據隔離特性和加密機制,能夠有效解決不同公司間數據共享和聯合建模問題,解決隱私洩露風險。」
目前,為了實現數據價值,眾安在內部實行了包含數據管理體系、數據流通體系以及數據價值體系的數據中臺戰略。
在數據管理層面,數據中臺可以對每張數據表進行自動掃描,並和過去積累的近3000多種規則進行比較,自動預警出哪一張表或哪一事業部的數據質量問題,自動發郵件提醒業務部門改正。
在數據流通層面,針對過去把數據安全重心都放在審批中,審批流程非常嚴,拿到審批特徵之後,數據流通風險急劇增高的情況,眾安通過數據分發超市,將數據獲取、挖掘、分析等流程完全集中在系統之內,提高數據流通的基礎上,降低流失風險。
以下為孫谷飛演講全文內容,醫健AI掘金志做了不改變原意的編輯:
大家晚上好,非常榮幸接受雷鋒網邀請,今晚給大家做一次分享。我來自於眾安保險,目前主要從事眾安保險AI、大數據的研究和落地。
數據價值體系的現實困境數據中臺這兩年非常火,我今天跟大家分享下我們對這個概念的理解,以及數據中臺在眾安的實際落地經驗,在眾安我們是如何保障數據管理、加速數據流通,促進數據價值挖掘。
首先跟大家分享一本書《思考,快與慢》,來自2002年諾貝爾經濟學獎獲得者丹尼爾·卡尼曼。
這本書把人的思維模式分為兩種類型:
第一種是意識快速的自主思維模式,普通人幾秒鐘就完成的一些判斷,比如看一張照片,立馬識別照片內容;看一張人臉,立馬識別出是誰。
另外一種方式是慢思考,需要數年知識積累,花一定時間去思考。例如工作流程中決策、用戶增長、用戶營銷等行為。
為什麼會舉這本書作為例子?
主要因為近兩年大家都在談大數據、AI,而其中比較成功的AI應用都屬於快思考範疇,比如人臉識別和語音識別等
為什么正常業務中需要花精力思考的智能場景,沒有快思考智能發展快?有人覺得背後技術不一樣,所以快思考技術發展比慢思考更加成熟,但兩者背後都是常見的機器學習算法,產生這種差異的本質問題還是數據。
例如AlphaGo下圍棋,機器通過慢思考已經可以超越人類,原因在於圍棋運動包括棋盤、棋譜等都已經進行很好地數據化。
但現實中,特別是保險業務,數據並沒有被很好地管理起來,背後因為幾大困難:
第一,數據資產不清晰。保險業務,本身數據來源非常多樣,比如財險數據,從健康到車險、從金融到電商,涉及的數據隨著保障的內容不斷變化。
另外保險的流程也很多,諮詢、承保、理賠、服務等,各個環節都會產生結構不同的數據。另外隨著網際網路化業務的發展,數據來源多樣性和複雜度也在加大,從最早的業務數據,到社交分享數據,用戶營銷數據,甚至可穿戴數據等,結構化程度非常不一樣,既包括傳統業務數據,也包含圖片、聲音等客服數據。
第二,數據孤島問題。每家公司壯大之後,都可能出現各部門之間數據成煙囪式發展。數據孤島產生之後,就會忽略數據流通建設。
第三,數據價值挖掘鏈路較長。例如數據採集,業務系統採集、生成都離不開數據工程師,而數據報表又需要依賴BI同事,價值挖掘由算法同事完成,參與角色非常多、價值鏈路非常長。
另外,處理數據門檻越來越高,以前數據量在小的時候,對於分析的技術沒有要求,下載下來,用Excel也可以完成。現在很多公司每天可能要面對幾T、甚至幾百T的新增數據,如果想對如此大體量的數據進行分析,就需要非常強大的數據處理能力,相應的技術門檻越來越高,造成數據價值困難重重。
眾安的數據中臺這是眾安數據中臺總體架構,主要分為兩大塊,應用層和平臺工具層:
應用層主要包含兩大方向,1.如何利用技術去幫助業務自動化、降低人力依賴,比如智能客服、自動核身等;2.如何利用數據去幫助業務去實時洞悉業務進展、並提供關鍵決策支持,BI、異常監控、用戶畫像等等。
接下來,我會重點講下平臺層的內容,通過數據管理體系、流通體系、價值體系三個方面,分享眾安內部數據中臺經驗。
數據管理體系裡面,首先重要就是質量問題,任何人,不管是業務還是技術人員,拿到數據之後思考的第一件事情,肯定是拿到的數據準不準,就需要思考數據質量好與壞,如果數據質量差,就會導致垃圾數據進垃圾產品出,不能給業務提供可靠的支持。
眾安在數據質量方面怎麼做的呢?
第一,眾安作為一家金融公司,首先需要滿足監管要求,需要把監管對保險行業的數據要求整理成規則。
第二,注意技術維度規範,例如數據命名是否規範,是否符合技術規範要求。
第三,業務需求層面也需要規範,通過業務需求反推現有數據是否滿足要求,比如關鍵欄位是否缺失等。
基於以上三個維度,眾安內部已經積累3000多個規則,此外這個規則庫還在不斷的豐富。
但光建立規則還不夠,像眾安這樣數據體量,人工已經很難判斷每條數據情況,還需一個平臺去幫助我們每天自動去監控數據的質量——數據質量管理平臺。平臺會對數據中每張表自動掃描,判斷是否符合上面規則庫中的3000多條規則,並自動統計和預警哪一張表或哪一事業部出現了數據質量問題。
另外,數據質量問題,不光是數據部門的問題,數據部門的主要職責是發現和警示數據問題,但數據產生的源頭其實是在業務生產系統中,需要有一個強有力的合作組織去推動數據的治理。
為此,目前眾安建立了數據治理委員會,委員會既包括數據部門、也包括業務部門,以及公司的的一些職能部門,比如發展規劃部、內審部等。。
數據委員會需要制定一系列公司的規章制度,去保障數據質量問題的治理推進;另外也需要牽頭舉辦定期和不定期的會議,去牽頭解決目前難點或者重點數據的問題。
數據質量是一個不斷發展,需要不斷跟進的問題,具體的解決之道就是,一把尺子(數據質量規則庫)、一個平臺(數據質量管理平臺)、一個組織(數據治理委員會)。
數據管理體系——數據資產盤點(數據地圖)
數據管理體系裡,第二大內容就是數據資產盤點。
眾安數據地圖基於眾安數據倉庫和從各系統獲取的的異構數據,分析其中執行關係,做了一個數據管理平臺,用一張全景圖把每張圖血緣關係都羅列出來。
眾安通過這樣一個平臺,將管理累計超過5萬多張表,涉及萬億級數據量。其中各張表、各個欄位之間的血緣關係通過自動化的方式進行監測維護,將原本散落在不同事業部的所有數據都以資產的形式非常低成本地維護起來。
使得每天報表需求、數據加工需求,從凌晨開始,在數小時之內就可加工完成,在業務上班之前就可以給到一些移動報表或分析報告支持。
數據管理體系——數據資產盤點(指標字典)
數據管理體系第二塊是指標字典。
業務一般看數據主要是關鍵指標,所以指標定義對整個數據管理非常重要。
但是以往大家都是按需出發管理報表,接到一個業務需求,把報表做出來,具體意義並沒有統一管理,只有做的人知道,一旦這個人離職,或者報表更新迭代、既往報表基本作廢。
如果沒有對指標字典進行準確定義,就一定會導致管理層次、業務層次,每個人對業務出現不同解釋和定義,指標如果不能統一,報表也就沒有任何價值。
目前眾安把業務、管理層、BI分析師等所有指標都進行統一管理,搭建平臺對所有指標進行溯源,發掘哪些表屬於基礎指標、哪些屬於衍生指標、哪些屬於計算指標。
把這些指標在系統裡面進行完整記錄,從名稱到定義,再到來源都管理起來。此外指標還可以動態跟報表聯動,改變過去報表是報表,指標是指標,兩套系統的情況。
眾安在做完指標字典之後,可以自動把字典關聯到BI分析報表上,業務看報表過程中可以立馬查看背後指標順序定義方式,把指標系統設置成外鏈,嵌入到報表系統裡。
數據管理體系——數據資產盤點(數據超市)
數據服務資產,還需要統一地方進行管理。
現在數據人員積累了很多數據服務、數據接口,各事業部數據團隊之間並不相通,可能造成重複對接以及接口數據的孤島。因此整個體系需要一個平臺或工具,把數據服務化統一管理起來,在眾安,整套系統叫做「數據超市」這樣做主要有幾個好處:
第一,確保可以統一查詢,降低成本。例如在安全合規的情況下,事業部可以直接利用其他部門已對接的數據接口,這就不需要重複採購、重複調用,大大降低外部數據接口調用成本。
第二,平臺可以提供一些已經開發好的數據服務,別人不需要重複性開發,而且可以統一進行服務擴容、降級、以及多供應商接入,通過簡單接口配置就可以將服務接入到新應用場景當中。
每家公司都會接入大量的數據服務,也會積累很多有價值的數據。數據超市就是數據接口服務的一站式服務平臺,通過這個接口平臺對接的數據服務,平臺也會自動幫助各事業部進行自動分帳。從而達到減少接口的重複性開發,也最大化地把存量數據協同利用起來,達到降本提效的目的。
數據流通體系——安全流通
流通的最大困難是什麼?
假如A事業部,想利用B事業部的數據,第一個問題就是怎麼保障數據安全,整個過程需要大量申請,其他事業部也會用安全理由,拒絕這些數據使用。
數據流通體系最重要的就是安全,眾安數據安全體系主要包括兩方面:數據安全分級和集成數據應用。
眾安在數據安全方面,主要做了兩件事情:
第一,把已有數據表和數據資產按照監管以及公司的規範,進行安全分級。目前眾安有幾萬張表,每一張表根據數據敏感程度都進行分級,可以分為內部公開或不公開,外部公開不公開等等,根據數據安全等級在權限管理、數據訪問,下載也可以進行相應OA流程制定,保證敏感數據進行嚴格流程審批,安全等級清晰,最大化縮小審批流程路徑。
第二,加強數據安全管理,我們以集成系統應用的形式,儘量讓數據不要出安全的環境。使得數據在封閉的環境中,就能完成數據的消費。數據審批通過之後,並不是把數據下載下來開放使用,如果這樣,前面所有安全措施都會形同虛設,眾安以集成系統方式提供數據訪問,減少不可控的數據分發。
過去數據審批,往往都是前面審批流程非常嚴,拿到審批批准之後,數據流通就會變得非常不可控,如果員工主動或者無意操控失誤,就一定會造成數據流失,需要保證所有數據都在可控環境之內。
這種可控主要分為幾類:
第一,單純數據服務,可以通過集成數據服務,利用「數據超市」進行發布。例如客服想選擇一部分經授權的用戶群體進行營銷,就可以在名單不出系統的情況下,通過加密等技術,直接由系統數據服務打通營銷系統。
第二,如果僅僅拿一份數據做報表,可以在數據不出系統的情況下,建立分析建模可視化環境,而不需要把數據直接導出去。
另外,我們也支持通過接口的方式,對接各類應用系統。比如,如果我們想進行客戶的圈選和投放,可以直接打通數據服務和投放系統,數據不會脫離管控環境。所以說,整個數據加工和消費是在一個受安全管控的閉環環境。
數據流通體系——眾相(用戶標籤系統)
眾安2019年我們就承保了70億張保單,我們如何串聯這些保單數據?這些保單數據屬於不同產品和不同的險種。其實無論險企內部車險、健康險等各個部門,真正需要流通的就是用戶數據,現在網際網路化就是從以往產品為中心,轉化成用戶為中心。
保證用戶數據的流通,就要建立用戶標籤系統,這個用戶標籤系統主要包括幾件事:
第一,從用戶層次把不同事業部的用戶數據打通,從用戶層面把整個公司的操作行為,購買行為打通,沉澱成標籤,目前眾安內部已經有1000多個標籤。我們支持離線和實時標籤的圈選,並且能立馬得出客戶的洞察分析,從而支撐我們基於用戶的業務交叉營銷和聯合風控。
第二,交叉風控。這部分眾安也有很好的案例,例如在信用保證保險和健康險之間進行風控,當金融事業部出現一些逾期的客戶,又突然來買非常高額的健康險、意外險,這就可能存在欺詐風險。通過類似這樣交叉風控手段,每年減少的損失可以達到近千萬。
第三,通過用戶標籤打通客戶數據,眾安將包括在線、電話、APP、簡訊等全渠道客戶營銷數據打通之後,可以做到實時感知,觸達用戶之前,就可以知道有什麼樣的訴求。比如在線客服這邊,客戶問你一個問題,客戶又從電話渠道過來的時候,眾安能立刻知道他買了什麼保單,之前有什麼問題,從而可以整體提升服務質量。
這是眾安內部眾相用戶關係系統,可以從用戶信息、保險行為、行為偏好、資產狀況等標籤維度對用戶進行刻畫,在營銷或風控之前,就可以通過標籤找到相應客戶。
數據價值體系——價值路徑
圖中所示,這是典型的數據價值的挖掘路徑,包括從源數據、清洗報表、到OLAP分析、BI機器建模,最終人工智慧優化。基本上分為四個步驟點,
首先通過數據去了解「發生了什麼」;
第二,通過數據的分析和洞察,多維分析,就了解「為什麼會發生」;
第三,藉助算法的力量,如何在未來幫助我們去預測和做提前預警,做到了解「什麼時候回發生」;
最後,藉助機器學習等算法,幫助我們做到優化,告訴我們「什麼是最佳決策」。
一套流程下來,可以發現現有業務問題;BI分析可以知道問題為什麼會發生;通過預測建模可以了解問題還會不會發生;通過優化算法,可以知道這些問題需要什麼動作解決。
數據洞察平臺和機器學習平臺一般在市場上,數據分析平臺的產品都是按照數據處理的流程或者某一數據形態來區分的,比如ETL工具、流數據處理、OLAP引擎、報表系統、機器學習系統等,這是一個十分自然的挖掘數據價值的步驟,但是直接採用這些組件的一個缺點就是數據在銜接流轉會變得異常複雜與難於管理,比如權限,上下遊變動等等。
另一方面,開源社區雖然推出了許多優秀的項目,但是百家爭鳴,連一個OLAP分析引擎可能就有若干個,各有特色,沒有「silver bullet」(銀彈)。
對於眾安來說,我們基於開源優秀的組件以及我們在網際網路保險與金融科技的最佳實踐,自研了一套覆蓋整個數據價值挖掘鏈路的分析平臺:集智平臺。
這套平臺的最大優勢就是在一個平臺中囊括了數據從數倉到分析產出結果的所有步驟,數據開發、數據分析師、數據科學家在一個統一的平臺上對於數據進行加工、分析、建模、可視化。具體來說,集智平臺分為2個模塊,數據洞察平臺與機器學習平臺。
數據洞察平臺
數據洞察平臺主要解決發生什麼、為什麼發生這兩件事情。
傳統數據都是看報表,眾安已經有這麼多報表平臺的情況下,為什麼還要做數據洞察平臺?
首先是為了解決大數據處理速度問題,千萬行數據集在業務中是很常見的現象,報表響應可能需要幾分鐘或幾個小時,對業務分析影響非常大,如果可以達到秒級響應,對整個分析思路都是很好的幫助,也是為什麼需要大數據處理能力的原因。
此外,現在大數據平臺越來越多,隔幾個月就會出現一個新的大數據平臺,使用門檻越來越高,他們的使用方,業務或BI很難理解大數據平臺本身的複雜性,造成使用屏障,需要有一個平臺把所有複雜性都封裝起來。
數據洞察平臺是眾安數據分析的基礎工具。其最主要的功能有3點。
第一,洞察平臺是一個對數據分析師透明的數據查詢加速引擎,分析師可以自助式地將數據導入洞察平臺,對於億級的數據進行即席的查詢與多維下鑽,在技術上我們針對不同的數據形態,採用了不同的數據加速引擎,做了一個可插拔式的架構,可以很快地適應新的開源工具而不需要改造上遊數據消費的應用。
第二,我們在洞察平臺同時支持了流處理與批處理,並且抽象出了統一的數據模型層,對於分析師來說,不論是近1分鐘的數據還是平均30天的數據,都可以在一個模型裡進行可視化或者分析。
第三,洞察平臺也是一個可視化的系統,可以非常高效地搭建出各種大屏、報表與移動端應用,與業務系統非常簡單地進行對接與嵌入。
搭建高效可視化系統
數據洞察平臺也是一個可視化的系統。
數據除了輔助提供決策價值以外,還要讓業務看到數據。現在業務對數據的需求變得越來越多,搭建這些可視化、實時、離線報表,需要把大型報表嵌入到系統裡面,讓業務決策可以立馬獲得數據支持。
現在很少有業務打開報表系統看數據,報表都是BI分析師在看,業務更加關心操縱系統怎樣進行業務操作,需要把報表嵌入到他的業務系統當中。
這是眾安內部主推的可視化系統案例。這個車點通可視化系統,主要有四點好處:
第一,增加數據可視化程度。不同角色可以通過系統實時看到自己現在保費收入、業務指標、每生成一張保單,數據就會發生變化,所有系統都是移動端,可以做到完全脫離以前報表系統,打開手機查看。
這樣的實時展示可以讓車險業務部使用人數得到很大擴展,覆蓋率達到97%,每天業務看數據的次數也大範圍增加,以前一天看一次,現在次數可以增加4次以上。
第二,支持業務多維度實時透視。在全量數據上如何進行任意維度的查詢在一般的離線數倉中是很難做到的,往往需要業務重複地提出取數需求。在車點通,業務可以自主地進行透視,這裡面整個流程最重要的就是大數據引擎支持,如果一個維度就需要幾分鐘,就會嚴重影響用戶使用積極性。
第三,把數據問題融入到運營當中。在車點通中,系統會自動把相關問題發送給相關負責人,按照時間點把所有問題變化、改進情況發送給業務進行比較。系統可以對每個問題進行追蹤,避免出現遺漏、沒有解決的情況。
第四,刪除將數據融入到輔助決策。系統可以為業務變化,提供一些趨勢分析,適時給業務一些費用調整或預測建議。上線車點通車險業務一站式智慧經營及管控中心,半年時間一線業務人員在車點通內追蹤了193個(建議虛化具體數字)目標業務模式,邊際成本平均下降建議虛化具體數字
整套流程可以使業務部門通過數據更加了解業務,進行多維度技術分析,通過數據溝通幫助解決業務問題。
機器學習平臺
集智平臺秉持著BI與AI同一個系統的理念,當我們從數據中知道了歷史的狀況,我們很自然地就想知道未來的情況並相對應地進行策略地改變,為此眾安搭建了機器學習平臺。
這個平臺主要讓機器學習模型落地更加簡單。
傳統路徑需要數據人員和算法工程師先去數倉中找到數據,再編輯到Python環境下運行。經過一系列建模工作之後,再進行封裝。
而且算法人員寫的代碼往往達不到生產級別,需要配備相應開發工程師幫助輔助優化。優化包括DOCKER、做鏡像、上線做A\Btest,上線之後還需要定期到生產系統中撈數據,整個流程風險點非常多,過程也非常長。
一套模型從訓練到上線,往往需要數據工程師、算法人員、數據開發工程師至少三個角色,約兩周時間。
有了機器學習平臺之後,算法工程師可以直接在數據應用空間中獲取數據,平臺自動幫助分配DOCKER資源,保證DOCKER資源最終上線後的一致性,同時保證模型測試階段和模型上線階段環境以及數據的一致性。
在整個過程中,平臺主要解決幾個問題:
第一,幫助算法工程師快速申請資源,快速進行服務化,快速上線,進行數據回流,彌補算法工程師與應用工程師的開發鴻溝;
第二,把建模數據和算法過程保存下來。以往數據資產可能只有數據表,隨著算法模型應用和落地越來越多,模型資產也非常重要。包括用了什麼算法,使用什麼樣數據,整個機器學習平臺可以起到快速上線和管理模型的作用。
最後總結一下,眾安數據中臺三大體系——數據管理體系、數據流通體系以及數據價值體系。
數據中臺是什麼?他不是單一的系統或平臺,實際是一整套管理體系。每家公司進行數據中臺建設的時候,也都有不一樣的矩陣選擇,但本質上都符合一個邏輯,怎樣最大化把數據資產管理起來,讓數據更好流通,讓數據發揮價值。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。