我國監管科技中面對的數據治理問題
在2019年12月1日舉行的「第四屆中國新金融高峰論壇2019」中,中國人民銀行科技司司長李偉發表主旨演講,談到當前數據治理主要有四方面的問題。
隨著數字經濟和大數據產業的發展,政府和企業都產生了大量的數據。「數據孤島」是指金融機構面臨的數據共享困境,由於缺乏數據共享激勵機制、數據共享交換協同機制、數據共享隱私保護機制,導致海量數據散落在眾多機構和信息系統中,形成一個個的「數據孤島」。
一是缺乏數據共享動力。大多數機構認為數據是戰略性資源,意味著客戶資源和市場競爭力,出於自身的利益考量,機構往往將用戶數據視為自己的財產,不願與其它機構共享。
二是缺乏數據共享交換協同機制。目前我國數據協同的基礎設施還不完善,各機構自行建設,按照各自的模式進行數據的收集、統計、整合、分享,數據標準和數據接口不一,難以進行互聯互通,阻礙了數據的開放共享。
三是缺乏針對隱私數據的隱私保護機制。金融數據涉及用戶個人隱私或機構商業秘密,在我國的《個人信息保護法》草案、歐盟的GDPR法規中,均提出對隱私數據的保護,傳統的數據共享基於業務系統之間進行數據互傳,因未經數據所有者許可而存在法律風險,在沒有相應隱私保護方案的情況下機構不敢貿然進行數據共享。
金融科技背景下,高質量數據成為金融服務與創新的重要基礎,也是大數據提升金融精準施策能力的關鍵前提。金融業整體數據質量不高仍然是一個突出的問題。
數據質量問題主要表現在數據的完整性、準確性和一致性上面。
由於缺乏統一的數據治理體系,有些金融機構在數據採集、存儲、處理等環節可能存在不科學、不規範等問題,導致錯誤數據、異常數據、缺失數據等「髒數據」產生,無法確保數據的完整性和準確性。
由於不同部門、分支機構體系不同,業務種類多樣,各部門各自進行數據的收集、統計、整合,沒有統一的標準過程;而且數據本身的概念、類別體系沒有行業標準,統計模式與統計口徑也沒有成熟的類標準模式,同一數據源在不同部門的表述可能完全不同,最後得到的數據也標準不一,影響全局數據的建模、分析和運用,影響數據挖掘的效果。
金融數據的來源廣泛、關係複雜、遠近親疏各不同,需要以數據融合的方式實現集成。數據融合依賴於高效的信息技術支撐和可靠的基礎設施保障,建立數據間、信息間多維度、多粒度的關聯關係,實現更多層面的信息交互,是最大程度發揮數據價值的一種手段。
部分金融機構,特別是中小機構的科技投入相對不足、短期內人才匱乏,利用數據建模分析解決實際問題的能力有待提高。數據挖掘不深入、應用領域狹窄,導致數據的潛力未得到充分利用。
我國數據治理的法律法規尚不健全,《個人信息保護法》《數據安全法》於2020年正式進入立法進程,當前仍缺少個人信息數據使用的系統性立法,金融機構使用個人信息數據的規範細則還有待完善健全。長期以來,企業採集和使用個人數據的違法違規成本低,為謀求商業利益,過度採集數據、違規使用數據、非法交易數據的情況經常發生,電信欺詐、騷擾電話、暴力催收等行為屢禁不止,既影響個人信息安全,也影響個人資金安全,嚴重侵害用戶權益。
可驗證憑證的基本原理與技術發展情況
可驗證憑證(Verifiable Credential),是現實世界中物理憑證的一種數位化表現形式。W3C的可驗證憑證數據模型(Verifiable Credentials Data Model 1.0)規範中定義了可驗證憑證的數據格式。它是一種標準化的數字憑證的表達方法,從使用場景、核心模型設計均參照了現實世界中的物理憑證,目的是將物理憑證的優勢引入到數字世界中。可驗證憑證的典型特徵是密碼學安全、隱私保護和機器可讀。
物理憑證包括證件、執照、證明、回執等各種可用於身份或資質驗證的有效物件,如護照、醫師執照、銀行開具的收入流水證明、計程車小票等等。憑證上一般載有一系列關鍵信息、以及憑證來源方的印章等防偽手段,這些信息通過其物理載體由數據所有者保管,並在使用時提交、複製或出示給憑證的接收方。物理憑證具備可驗證的特點,如醫師執照可用於判斷其主體是否具有從事醫生職業的能力、銀行流水證明可用於判斷其主體是否具有貸款償還能力,等等。
可驗證憑證模型中包含四類角色:
憑證所有者:擁有可驗證憑證,並向憑證驗證方出示憑證的角色。比如個人或企業。憑證發行方:創建可驗證憑證,並傳送給憑證所有者的角色。可驗證數據註冊表:系統角色,用於維護需要被上述多個角色使用和驗證的數據,主要為標識符、標識符關聯密鑰、可驗證憑證模板、憑證撤銷註冊表、發行憑證的公鑰等等。它的實現方式可以是中心化或去中心化的,如可信資料庫、分布式資料庫、政府資料庫或分布式帳本,它們具有不同的安全性、擴展性和成本。圖1 可驗證憑證模型
可驗證憑證中的數據包括聲明、可驗證憑證和可驗證憑證組合。聲明(claim)是與主體關聯的屬性信息,一個聲明使用「實體-屬性-值」的數據模型進行表示,如「Alice-畢業學校-Faber大學」。多個聲明可進行組合用於表達複雜的數據關係,比如和其它主體或其它主體的數據之間的關係。聲明所使用的這種數據模型具有很強的靈活性和豐富的表現能力,可對任何數據進行編碼。
圖2 聲明數據模型
圖3 聲明示例
可驗證憑證中一般包含一個或多個聲明,這些聲明由同一個聲明發行人發出。可以由一個實體(如個人或組織)自己發出,也可以由另一個憑證發行方發出。
可驗證憑證中除了關於憑證主體的聲明信息,還包含憑證的描述信息和密碼學證明。憑證的描述信息通常包括:憑證發行方、憑證過期時間、憑證驗證公鑰、憑證撤銷機制,等等。憑證由發行方籤名,可通過密碼學證明是否由憑證中聲稱的實體籤發且未被篡改,因此被稱為可驗證憑證。
可驗證憑證組合是憑證持有方向憑證驗證方出示憑證的數據格式,一般包含一個或多個不同憑證發行方籤發的可驗證憑證,由憑證持有方進行選擇和組合,代表與該憑證驗證方相關的特定場景中的用戶畫像。
與可驗證憑證相似,可驗證憑證組合中也包含憑證組合的描述信息和密碼學證明。密碼學證明一般為數字籤名,可證明是否由憑證組合中記錄的實體生成且內容未被篡改。
以上聲明、可驗證憑證、可驗證憑證組合中的數據關係均可用圖形化描述,下圖是一個可驗證憑證組合的示例。
圖4 可驗證憑證組合數據模型
上述可驗證憑證數據模型實現過程中使用的技術主要是數據編碼、密碼學技術和分布式帳本這三個方面。
可驗證憑證數據模型的實現需要採用標準的數據編碼方式,便於計算機識別和處理。規範只定義了數據模型的結構,對數據編碼方式沒有要求。規範中推薦了JSON和JSON-LD兩種編碼方式,但任何數據表示語法都可以用於表示可驗證憑證數據模型,比如XML、YAML等等。
可驗證憑證的技術特性主要來源於將密碼學技術應用於數據計算、存儲過程,以提供對數據的可信證明和隱私保護。以下列舉幾種可驗證憑證的實現中常見的密碼學技術。數字摘要是採用單向Hash函數將需要加密的明文「摘要」成一串固定長度(128位)的密文,這一串密文又稱為數字指紋,它有固定的長度,而且不同的明文摘要成密文,其結果總是不同的,而同樣的明文其摘要必定一致。數字摘要可用於確保數據的完整性和防止篡改。數字籤名使用了「非對稱密鑰加解密」和「數字摘要」兩項技術來實現一種類似紙質物理籤名的效果。信息的發送者對信息生成摘要,並用私鑰對摘要信息加密產生一段字符串,即數字籤名;信息的接收方用信息發送方的公鑰對數字籤名進行解密,獲得摘要數據,再根據信息原文驗證摘要數據是否正確。非對稱密鑰技術保證了只有相同的信息原文和籤名私鑰才能產生相同的數字籤名,別人無法偽造,因此數字籤名是對信息的發送者和信息真實性兩方面的有效證明。數字籤名具有不可抵賴性,可用於驗證數據的真實性和完整性。可驗證憑證和可驗證畫像中的密碼學證明一般採用數字籤名技術,由數據的籤發者對數據內容計算數字籤名後將數字籤名附在數據內容後,以保證數據的接收者確認數據來源的不可抵賴、數據內容未被篡改。零知識證明的理念是通過將約束關係關聯到計算困難性理論,在證明者不透露被證明數據明文的前提下,向驗證者證明約束關係的正確性,被證明數據有極大概率滿足驗證者指定的約束關係,例如證明轉帳金額不是一個非法的負數。 匿名憑證技術具有很強的隱私保護特性,在可驗證憑證中用於計算聲明中的屬性值。除了對屬性的選擇性披露外,匿名憑證技術還允許憑證驗證方在不獲取屬性值的明文或密文的情況下,僅獲得對屬性值的密碼學驗證結果,實現對數據的最小化披露。分布式帳本主要用於實現可驗證數據註冊表。儘管規範沒有限制可驗證數據註冊表的實現技術,從註冊表的功能考慮到註冊表需要被多方信任,當在開放環境中使用、或參與角色較多的時候,使用分布式帳本是較好的選擇。
分布式帳本的主要作用是用於維護被多個角色使用和驗證的數據。首先,在籤發憑證之前,憑證發行方根據自身業務需求來定義一個憑證中包含哪些聲明,將該定義作為可驗證憑證模板公開發布到分布式帳本中。同時,憑證發行方還需要將籤發憑證的公鑰、憑證撤銷註冊表公開發布到分布式帳本中,用於驗證憑證的有效性。其次,當憑證發行方撤銷憑證時,通常需要更新憑證撤銷註冊表,以便及時更改憑證的有效性。
分布式帳本也可以為可驗證憑證的應用系統帶來更高的系統安全性。如可驗證憑證可以通過鏈上和鏈下兩種方式進行存儲管理。鏈上憑證通常僅需要在鏈上存儲憑證的哈希值,憑證則存儲在憑證所有者可以訪問的任何數據存儲中,包括指定的保管人或分散式存儲系統(如IPFS)。憑證接收方可以通過計算憑證哈希值並與在區塊鏈上找到的哈希值進行比較來檢查數據的完整性。憑證也可以完全脫鏈存儲,直接在憑證所有者的設備上和/或由指定的保管人存儲。但是,仍然存在鏈上機制來處理撤銷和其他憑證狀態更新。
作為一種全新的數據模型,可驗證憑證具有以下六點技術特徵:
國際標準化組織/國際電子技術委員會對「信息安全」的定義為:保持信息的保密性(confidentiality)、完整性(integrity)和可用性(availability)。註:此外,也可包括如真實性(authenticity)、可核查性(accountablity)、不可否認性(non-repudiation)和可靠性(reliability)等其他屬性。
可驗證憑證規範要求可驗證憑證和可驗證組合中包含至少一種密碼學證明機制和證明數據,來保持它們的可驗證性。這種證明機制和證明數據均由數據源頭計算給出,除了數據源本身,其它用戶不知道數據源的私鑰,無法偽造相同的證明數據。數字籤名技術保證了數據內容和證明數據的一致性,只有數據完整且未經篡改的情況下才能驗證正確。所以可驗證憑證模型可保證數據的完整性、可核查(驗證)性和不可否認性。
信息安全是隱私保護的基礎,但隱私保護不完全等同於信息安全。隱私保護的目標在於防止隱私數據被非授權的主體使用或者以一種未授權的方式使用。隱私數據的範疇包括了所有的非公開數據。對於個人來講,隱私數據是關於自己和周邊環境包括社交網絡的個人數據。對於企業來講,隱私數據是關於自己和合作夥伴的業務和其他非公開數據。
傳統的數據共享方法通常是業務系統之間進行數據傳輸,用戶既不知情也無法控制共享了哪些數據、以及是否有隱私數據。可驗證憑證模型中,數據共享必須經過憑證所有者,憑證發行方和憑證驗證方之間不需要直接通信,這避免了用戶授權環節的缺失。同時,可驗證憑證模型提供了基於屬性的靈活的數據共享策略,且通過密碼學技術可支持不同程度的數據最小化披露。憑證驗證方向憑證所有者請求數據,可指定需要哪些屬性、是否僅需要密碼學驗證結果。例如,在銀行驗證企業貸款資質時,可要求企業證明年收入是否大於500萬,而不用給出詳細的經營數據。
真實性指數據是否真實準確的反映客體的實體存在或真實的業務。可驗證憑證模型中要求憑證發行方將其憑證模板和憑證發行服務在全網公開以提供驗證,且每個可驗證憑證中必須包含憑證發行方信息,這使得憑證發行方的行為可被追溯,對數據真實性的要求也相應更高。
一致性指相同的數據有多個副本的情況下數據不一致、數據內容衝突的問題。可驗證憑證中由於數據持有方管理數據,對於數據不一致的情況,數據持有方作為數據屬主、且從數據使用的角度出發,會識別正確數據,並捨棄錯誤數據。
時效性指可驗證憑證是否能及時體現當前的有效性。可驗證憑證數據模型規範中要求可驗證憑證中必須包含「籤發時間」屬性,籤發時間包含了日期和時間,表示該憑證開始生效的時間。憑證失效有兩種方式:一種是在籤發可驗證憑證時寫入「失效時間」屬性,預先定義憑證的失效時間;另一種是在憑證發出後由憑證發行方執行撤銷操作,將失效憑證加入公開的憑證撤銷註冊表,在對該憑證進行驗證時能夠得到已被撤銷的結果。
可驗證憑證規範為數據的跨域跨系統交互定義了一種標準格式,可用機器可讀的語義網技術進行編碼。符合規範的數據可被不同系統識別和使用,再加上業界在對可驗證憑證數據交換制定協議、推進開源工程,使得不同主體之間具有互操作性。
可驗證憑證用於數據治理的探索
可驗證憑證作為一種新型數據模型,相對於應用系統來說是一種底層技術,並不直接影響業務功能。它的多個技術特性為改善數據治理現狀提供了一種新的思路。
數據質量管理是集方法論、技術、業務和管理為一體的解決方案,影響數據質量的因素主要有技術、業務、管理三個方面。
技術方面,質量問題通常存在以下過程中:
數據模型設計,例如:資料庫表結構、資料庫約束條件、數據校驗規則的設計開發不合理,造成數據錄入無法校驗或校驗不當,引起數據重複、不完整、不準確。
數據源採集,例如:有些數據是從生產系統採集過來的,在生產系統中這些數據就存在重複、不完整、不準確等問題。
數據採集過程, 例如:採集點、採集頻率、採集內容、映射關係等採集參數和流程設置的不正確,數據採集接口效率低,導致的數據採集失敗、數據丟失、數據映射和轉換失敗。
數據傳輸過程,例如:數據接口本身存在問題、數據接口參數配置錯誤、網絡不可靠等都會造成數據傳輸過程中的發生數據質量問題。
數據存儲過程,例如:數據存儲設計不合理,數據的存儲能力有限,人為後臺調整數據,引起的數據丟失、數據無效、數據失真、記錄重複。
業務和管理方面的問題大多數需要從相應的角度出發考慮,可驗證憑證能夠解決大多數技術原因引起的數據質量問題。
(1)數據模型設計簡單
可驗證憑證數據模型規範經過數年多次的修訂,具有通用性、擴展性,可用於表達不同的數據對象。相比於存儲於資料庫的數據模型,可驗證憑證提供了一個成熟模板,設計難度更低。數據產生方只需要根據業務需求考慮一個憑證中包含哪些聲明信息,不用考慮技術上如何優化設計,可減少因技術能力引起的數據模型設計質量問題。
(2)數據源對數據質量背書
可驗證憑證具有真實性特徵。憑證發行方將其憑證模板和憑證發行服務在全網公開以提供驗證,且每個可驗證憑證中必須包含憑證發行方信息,這使得憑證發行方的行為可被追溯。憑證發行方對數據質量背書,可減少因數據源產生的質量問題。
(3)由數據模型保障的數據特性
如前文所述,可驗證憑證具有安全性、完整性、可核查性、不可否認性、真實性、一致性、時效性等多種技術特性,可減少數據在採集、傳輸、交換、存儲等過程中產生的技術性錯誤,也能杜絕操作人員故意修改數據作假的行為。
(4)減少業務人員數據輸入錯誤
在傳統方案中,數據輸入依賴於業務人員填寫表格,既花費時間,也容易出錯。在可驗證憑證模型中,憑證所有者可將已有憑證直接提交用於填表,避免了數據輸入錯誤引起的質量問題,減少了對數據錄入人員的依賴性。
影響隱私保護的因素通常有隱私設計和技術能力兩個方面。
隱私設計理論(Privacy By Design)近年來獲得國際組織、各國政府、企業及專家學者的高度認同。機構可以在系統設計階段考慮用戶個人信息保護問題,將個人信息保護的需求通過設計嵌入系統之中,制定產品服務和商業實踐的前提規則。增強數據使用透明度、提升用戶控制力、遵循數據最小化收集均是隱私設計理論的重要實踐。
技術方面的挑戰一是隱私保護需求因人而異,對預先定義固定規則的信息化系統極不友好,隱私保護解決方案應提供靈活的系統適配性和擴展性;二是與現有技術架構的兼容性問題,如雲廠商的隱私保護方案與自身雲服務接口深度結合,難以分離使用;小程序等輕客戶端應用預置的密碼學類庫比較有限,前沿的密碼學算法庫無法直接加載。隱私保護方案設計應充分解耦,盡力避免依賴任何特定平臺的非通用特性。
可驗證憑證模型滿足以上幾點要求。
(1)如前文所述,可驗證憑證具有隱私性。一是數據使用需數據所有者授權;二是提供了基於屬性的數據共享策略,支持多種算法實現不同程度的數據最小化披露。同時基於屬性的數據共享策略還可以靈活的適配系統需求,不需要在系統設計時預先定義好所有權限。
(2)可驗證憑證實現方案具有分層解耦的架構。W3C規範定義了底層的數據模型,數據模型上可加載不同的密碼學算法,這些都是與具體平臺無關的。在應用中,由解決方案實現商根據系統環境相應的實現與上層應用通信的接口,構建一個模塊化的數據交換生態系統。
當前「數據孤島」產生的主要原因是由於商業原因不願共享、或者由於技術障礙而不能共享。商業原因通常包括認為用戶數據是企業的戰略資源、將數據共享給其它機構或使用其它機構的數據所需要的信任成本高昂,等等;技術原因一般指基礎設施不完善,如缺乏互操作性、安全性,等等。可驗證憑證與區塊鏈技術相結合有望打破「數據孤島」的問題。兩者從特性、架構上互相支持。區塊鏈技術被業界認為是「信任機器」,可支持機構在互不信任的情況下進行協作,為可驗證憑證的流轉提供底層的信任機制;可驗證憑證支持隱私數據的可信交換,為區塊鏈技術的應用增添了一種隱私數據的鏈下交互機制。兩者的結合已被廣泛用於分布式數字身份解決方案中,用於解決網際網路身份的「數據孤島」問題。在金融監管和數據治理方面,相信兩者的結合會有更精彩的應用,這需要我們積極探索。可驗證憑證數據模型契合了數據治理中的大多數痛點,可以積極嘗試。同時可驗證憑證技術本身無論是規範標準化研究成果還是實際應用都取得了豐富的進展,其成熟程度能夠用於實踐。2019年11月19日,W3C可驗證聲明工作組發布可驗證憑證數據模型(Verifiable Credentials Data Model 1.0)正式推薦標準(W3C Recommendation)。該規範的作者來自Digital Bazzar 、Consensys、Evernym等多個分布式數字身份的早期參與公司,並得到了如Christopher Allen等近百人的審閱支持。可驗證憑證作為一種參照物理憑證的核心模型和使用場景設計的數據模型,其中一種應用場景是基於可驗證憑證中屬性信息對用戶進行身份認證、提供應用系統的授權訪問,與物理憑證在現實世界中的應用相似。
在這一類應用場景中,可驗證憑證通常與分布式標識符相結合,構成分布式數字身份方案。根據W3C發布的DID規範中描述,分布式數字身份標識符(DID)是由字符串組成的標識符,用來代表一個數字身份。它註冊在分布式帳本上,是一種去中心化可驗證的標識符,實體可自主完成DID的註冊、解析、更新或者撤銷操作,不需要中央註冊機構就可以實現全球唯一性。
目前,使用可驗證憑證技術的分布式數字身份解決方案在全球發展迅速。W3C起草的分散標識符和可驗證憑證規範發布了1.0版本;W3C的DID註冊表中已註冊了50多個項目;去中心化身份基金會(DIF)在推進標準的開源技術、協議和參考實現;非盈利基金會Sovrin發起的開源項目Hyperledger Indy已在多個產品中應用。
同時,可驗證憑證只是一種信息系統底層的數據對象,適用於各種跨域數據交換的場景。微眾銀行的WeIdentity可信數據交換解決方案中就使用了可驗證憑證作為數據交換的載體。將可驗證憑證用於可信數據交換中,會為這一技術帶來更多可能性和想像空間。
結語
可驗證憑證技術作為一種新型數據模型,具有安全性、隱私性、真實性、一致性、時效性、互操作性等技術特徵,其規範定義和實際應用經過了時間的考驗而逐漸成熟。這種數據模型契合了大多數當前監管科技數據治理中存在的痛點,有助於提高數據質量、提供隱私保護合規方案、促進數據互通。