圖 | pixabay@geralt
編者按:文章來自「同盾科技人工智慧研究院」投稿,36氪經授權發布。
網際網路時代出現了兩種普遍的現象:一個是數據孤島現象,一個是隱私換便利現象。而隨著數據安全合規的監管日益嚴格,突破這兩種現象造成的壁壘必然需要技術的創新。這一章將首先介紹這兩種網際網路時代的現象,然後進一步分析並提出相應的解決辦法。
隨著信息化和網際網路應用的發展,數據孤島已經成為一個全球普遍存在的問題。企業發展到一定階段,會出現多個子公司或分公司,每個子公司都有各自數據,部門之間的數據往往都各自存儲,各自定義。每個部門的數據就像一個個孤島一樣無法(或者極其困難)和企業內部的其他數據進行連接互動。這就是數據孤島。數據孤島的類型有很多,不僅企業內各部門或環節存在著數據孤島,企業或機構間也存在數據孤島。甚至政府機關之間也存在數據孤島,在很多地方,有多少個委、辦、局就有多少個信息系統,每個系統都有自己的資料庫,相互之間完全獨立。
數據孤島不僅僅是物理上的,還有更多是邏輯上的孤島。每家企業都會有業務數據的產生,有對數據保存和使用的需要,不同企業對數據的定義和使用可能存在比較大的差異,所以各企業之間的數據在邏輯上就不能互通。
數據孤島的存在所帶來的弊端是顯而易見的。首先是不同部門間的數據信息不能共享,數據出現脫節,勢必給企業帶來重複多次採集、數據冗餘的問題,甚至數據一致性和正確性也可能無法保證。其次在涉及多工作模塊數據時不能有效共享互動,會導致數據的價值不能得到真正體現,以致對企業的決策支持只能流於空談。
數據孤島產生的數據割裂也嚴重製約了人工智慧的發展,人工智慧應用需要大量的數據。發展人工智慧需要消除數據孤島,不僅是內部消除孤島,還要消除外部孤島,最終形成智能化應用的閉環。未來大數據的發展是要消除各行業的數據孤島現象,創造出各種渠道、模式讓數據協作的更好。
移動網際網路時代,不少企業強制用戶開放與其提供的服務毫不相關的各種手機權限,不同意就不能用——手電筒軟體為什麼要知道我在哪裡,天氣軟體打探我的通訊錄做什麼?我們在享受網際網路軟體提供便利的同時,不得不犧牲一些個人隱私,這就是隱私換便利。
隱私換便利不是新鮮事——「你向醫生袒露身體的隱私,以換取健康的保證;你向郵局公開住所的隱私,以換取信報郵包的及時送達」。與網際網路軟體獲取用戶隱私不同的是,這兩個例中消費者是在知情的情況下自願適度讓渡隱私換取必要的服務。「知情」「自願」「適度」「必要」等限制性要素缺一不可,突破限制就會走向反面。而用戶在與網際網路軟體交互中顯然多數不是自願的,而且也不是在適度必要的原則下提供數據,更沒有對自己數據使用的知情權、更正權和退出權等。
網絡服務提供者大量收集用戶數據後,導致用戶毫無隱私地赤裸裸地暴露在網絡服務提供者面前。而有些不法人員也趁機把個人隱私在網上被當成商品買賣,造成大量的用戶數據洩露,甚至還形成了產業鏈條,催生了變現途徑。據調研問卷分析,70%以上的社會公眾對當前個人信息環境缺乏安全感。未來在隱私性和便利性之間,通過技術創新尋求一個平衡點是至關重要的一環。
隨著越來越多的數據產生,用戶隱私保護日益成為關注熱點,而同時打破數據孤島進行數據共享和交換也會面臨數據安全的問題。尤其是近年來數據洩漏事故頻發,數據安全和隱私保護問題引起了全球的關注。
2016年11月,我國通過了《中華人民共和國網絡安全法》,旨在通過多項舉措加強個人信息和數據保護。2018年5月在歐盟生效的《通用數據保護條例》(GDPR)[1]規定用戶可以要求經營者刪除其個人數據並且停止利用其數據進行建模,而違背該條例的企業將會面臨巨額罰款。在GDPR正式實施一個月後,美國加利福尼亞州頒布了《2018年加州消費者隱私法案》(CCPA)[2],加強消費者隱私權和數據安全保護。2019年5月28日,我國國家網際網路信息辦公室發布了《數據安全管理辦法(徵求意見稿)》[3],提出了收集重要數據的備案制以及向第三方提供重要數據的批准制的新要求。中國人民銀行近期正式發布了《個人金融信息保護技術規範》[4],從安全技術和安全管理兩個方面,對個人金融信息保護提出了規範性要求。而隨著2020年《信息安全技術 個人信息安全規範》修訂版[5]正式獲批發布,數據安全和隱私保護將迎來新時代。
1.3.1 相關概念
參照相關標準,這裡給出數據安全和隱私保護相關術語的統一定義:
數據安全:以數據為中心的安全,保護數據的可用性、完整性和機密性。
數據交換:數據供方和需方以數據商品作為交易對象,以貨幣或者數據商品交換。數據商品包括原始數據或加工處理後的數據衍生產品[6]。
個人信息:即隱私。能單獨或結合識別特定自然人身份或反映其活動情況的各種信息。個人信息包括姓名、出生日期、身份證件號碼、個人生物識別信息、住址、通信通訊聯繫方式、通信記錄和內容、帳號密碼、財產信息、徵信信息、行蹤軌跡、住宿信息、健康生理信息、交易信息等。個人信息控制者通過個人信息或其他信息加工處理後形成的信息,例如,用戶畫像或特徵標籤,能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的,屬於個人信息。關於個人信息的判定方法和類型參見《信息安全技術 個人信息安全規範》[5]。
數據共享:數據控制者向其他控制者提供數據,且雙方分別對數據擁有獨立控制權的過程。
數據有用性:數據對於應用有著具體含義、具有使用意義的特性。每種應用將要求數據具有某些特性以達到應用目的,因此在數據去標識化、脫敏或加密後,需要保證對這些特性的保留。
1.3.2 數據可用不可見的趨勢
大數據時代,數據已經成為個人或企業的核心資產,數據資產化趨勢明顯。
尤其是個人數據資產,在不久之後的未來,我們會看到一個與真實的物理世界平行的虛擬世界裡,所有的個人信息資產包括房產、存款、汽車、保單等會成為信貸或各種交易的依據。簡單直接共享這些數據資產無法保護用戶隱私,顯然是不安全的,如果數據不對外共享,可以保證數據對外不可見,但也不利於數據經濟價值的發掘。把數據資產根據場景提取有用的知識,把知識開放共享才是保證數據可用的一種合理解決方案,這就是資產知識化。
從數據資產化和資產知識化可以看出一種數據應用的新趨勢——數據可用不可見。
1.4.1 大數據、人工智慧與密碼學交叉融合
最近幾年,學術界和工業界都已經開始在數據安全和隱私保護方向的探索。尤其是在大數據、人工智慧和密碼學等領域,出現了安全多方計算、隱私計算、聯邦學習、可信執行環境等多個方向,都在研究如何在保證數據安全的前提下打破數據孤島,實現數據可用。具體解決方案基本上沿著兩個方向在演化:
中心化向分布式或去中心化過渡。現有的大數據平臺基本上都是中心化的,對數據進行集中的存儲、管理、分發等操作。中心化方式的缺點是數據存儲在第三方平臺,脫離數據提供方的控制,違背了數據隱私保護的規定。
同時,隨著數據規模的不斷變大,直接在中心伺服器上計算或學習的壓力也會不斷增加。為了減輕這種壓力,計算或學習過程需要分散到數據提供方或終端設備上進行,這種分布式計算或學習的過程則是人工智慧領域更關心的問題。
而如果沒有中心節點的存在,這種智能化的過程則變為去中心化的形式。這時的數據是分而治之,各自為數據所有者控制,每個節點上的數據相對只是小數據,但是由於可以觸達更多的數據,其性能甚至會超越有限數據的中心化聚集方式。
數據向知識化升級。為了保護節點數據安全和隱私,直接共享使用顯然是不可行的,要做到數據對外不可見才是關鍵,這就需要密碼學。通過加密方法(如:哈希編碼、同態加密等)對數據脫敏和去標識化,讓數據轉化成為安全的信息或者知識,再對分散的信息計算或知識聚合,來保證數據不直接共享但是可用的。
多學科多領域的交叉融合發展是大勢所趨。大數據、人工智慧和密碼學的交叉融合可以將大數據分解成小數據,確保參與各方數據的獨立性,同時用加密技術保證參與數據的安全,解決參與方互不信任的問題,最終通過在小數據生成的信息或知識的基礎上聯邦實現大智能。
1.4.2 知識聯邦開創數據可用不可見新局面
數據可用不可見的目標是實現數據智能化利用同時又保證數據安全與隱私保護。其核心有兩層含義:
數據可用性,也就是數據開放性。目前的人工智慧本質上是數據智能,也就是用大數據來訓練計算模型支撐業務應用。但是現實中數據是各機構或個人的核心資產,數據孤島現象普遍存在。如何充分利用各方的數據,讓數據對外開放,進行智能化服務,這是數據可用關心的重點。
數據不可見性,也就是數據不共享。不共享數據,也就是數據不離開各機構或個人,可以保證數據對外不可見,自然也就可以保護數據隱私了。但這也會導致數據孤島現象更加嚴重,智能化發展受到更大制約。
數據不可見性可以採用加密技術解決,但是針對數據可用性則需要考慮數據的應用場景,常見的應用包括查詢、計算、學習、推理等。為此,同盾科技提出了「知識聯邦」的理論框架體系,它是人工智慧、大數據和密碼學交叉融合的產物。知識聯邦首先將數據轉化成信息、模型、認知或知識,滿足數據不可見,再通過聯邦的方式實現數據可用,打造安全的人工智慧。
知識聯邦是一個國產原創、自主可控、全球引領的技術體系,該體系在解決了數據割裂和隱私保護問題的同時,可以進一步開展跨源跨域的知識發現、表示、歸納、推理和演繹,為人工智慧3.0奠定了堅強的基石。
1.4.3 知識聯邦的歷史新機遇
在智能時代,數據將成為驅動技術革命和重新定義人類社會未來的新動力。2020年4月9日,中共中央國務院出臺了《關於構建更加完善的要素市場化配置體制機制的意見》[7],首次明確將數據納入生產要素。意見強調要從三個方面加快培育數據要素市場:
推進政府數據開放共享,加快推動各地區各部門間數據共享交換。
提升社會數據資源價值,培育數字經濟新產業、新業態和新模式。
加強數據資源整合和安全保護,尤其是對政務數據、企業商業秘密和個人數據的保護。
作為一種安全的數據和知識交換框架體系,知識聯邦有助於打破數據孤島,推動各地區各部門間數據共享交換,充分挖掘社會數據資源價值。
數據作為一種新型生產要素,必將成為智慧城市建設的有力抓手。社會數據的應用場景也日益豐富,可以促進5G、大數據中心、工業網際網路、人工智慧等新型基礎設施建設,進而提升全社會數位化水平。這正是知識聯邦迎來的一個歷史新機遇。我們也相信知識聯邦打造的數據安全的人工智慧生態系統為新基建國家級戰略規劃貢獻一份力量。
知識聯邦從字面上理解可以看成是「知識」和「聯邦」兩個概念的結合,下面分別進行介紹。
2.1.1 知識
我們身邊充滿了各種各樣的數據,有數字、文字、圖像、符號等,在沒有被處理之前,這些數據並沒有什麼潛在的意義,也不會有什麼價值。當通過某種方式對數據進行組織和分析時,數據的意義才顯示出來,從而演變為信息。
信息具有一定的價值,可以對某些簡單的問題給予解答,譬如:誰?什麼?哪裡?知識是在對信息進行了篩選、綜合、分析等過程之後提煉融合出來的。它不是信息的簡單累加,往往還需要加入基於常識和相關知識及上下文所作的判斷。
因此,知識可以解決較為複雜的問題,可以回答和解釋「如何」、「為什麼」、「如果不」(反事實的,Counterfactual)的問題[8],能夠積極地指導任務的執行和管理,進行決策,並最終形成智慧。從數據到智慧[9]是要經歷多個層級的,而知識正是將數據轉變成為智慧的關鍵一環。
為了更有效地對數據、信息和知識進行比較分析,我們在這裡分別給出如下的定義:
數據是對客觀事物的數量、屬性、位置及其相互關係進行抽象表示。
信息是經過加工處理具有邏輯關係的數據,它對決策是有價值的。
知識是對信息進行歸納、演繹後,沉澱下來的有價值的信息,與決策相關。
事實上,數據是沒有對錯的,但得到的信息可能會是錯的,可能無法反映真實的情況。特別是在噪聲比較強的環境下的數據,更容易使信息出錯。各種信息來源參差不齊,真正有價值的信息往往被裹挾在大量冗餘、錯誤且一直呈爆炸性增長的信息之中。而知識具有去偽存真、去粗存精的作用,它可以從信息中提煉出有價值的信息,形成規則策略,用於指導後續的行動或決策。
在實際應用中,數據、信息和知識三者之間的區別並非涇渭分明,常常被混用,主要是因為數據、信息和知識的界定是與實際使用者和應用場景相關的。某個經過加工的數據對某個人來說是信息,而對另外一個人來說則可能是數據;一個系統或一次處理所輸出的信息,可能是另一個系統或另一次處理的原始數據。同時,在某個語境下是知識的內容,在另外的語境中,可能就是信息,甚至是無意義的數據。
2.1.2 聯邦
聯邦常用於政府的組織形式中,是一種協約。依據這種協約,幾個獨立的政治單元聯合起來,構成一個有機整體。聯邦國家作為一個整體有自己的立法、司法和行政機關,聯邦成員各也有自己相對獨立的立法、司法和行政機關,有較大的自主權。聯邦成員之間是平等的,新成員加入後聯邦會不斷擴大。
解決數據孤島難題同樣可以採用聯邦的方式,聯邦連通了每個數據孤島所屬的機構。此時,每個機構就像一個個獨立的政治單元,他們自行管理自己的數據,是自治的;但是機構之間會通過一種協議聯合起來,共同參與組成一個整體作為聯邦機構,所有參與成員共同賦予聯邦機構一定的權利由其統一行使。因此,知識聯邦中的聯邦在本質上是一種數據和知識安全交換協議。
2.1.3 從數據聯邦到知識聯邦
數據聯邦是一種數據集成方法,將多個不同的來源的的資料庫進行集成,比如聯邦資料庫系統[10]。數據聯邦是為了實現對多個獨立的資料庫進行相互操作,它只是提供了一種為數據提供抽象的數據接口的能力,而數據消費者不需要知道數據的物理位置、數據結構和保存方式。數據聯邦在一定程度上解決了數據孤島的難題,但是在交互過程中不涉及任何隱私保護機制,因此存在監管合規的問題。
知識驅動的聯邦技術則是在聯邦的理念上進一步升華,有了新的飛躍。知識的提煉和生成需要人工智慧和大數據技術的有機結合,知識的升級和擴展則離不開密碼學支撐的多方安全聯邦技術。知識聯邦可以打破數據孤島困境,並保護數據隱私,符合法規監管的要求。而且,知識聯邦除了能用於進行數據查找、合併等基本操作外,還可以進行安全多方計算或者多方聯合學習建模,充分利用多方數據中蘊含的知識,提供更好的決策服務。
知識聯邦的基本內涵[11]包括:
基於數據安全交換協議,來利用多個參與方的數據;
基於多方數據進行安全的知識共創、共享和推理,實現數據可用不可見;
支持統一的多層次的知識聯邦生態:信息層、模型層、認知層和知識層;
管理知識安全聯邦的全生命周期:統計查詢、訓練、學習、表示、預測和推理及其監管、仲裁和評價。
簡單地講,知識聯邦是將散落在不同機構或個人的數據聯合起來轉換成有價值的知識,同時在聯合過程中採用安全協議來保護數據隱私。知識聯邦不是一種單一的技術方法,它是一套理論框架體系,是人工智慧、大數據、密碼學等幾個領域交叉融合的產物。
知識聯邦是一個支持安全多方檢索、安全多方計算、安全多方學習、安全多方推理的統一框架,為打造安全的知識融合、管理、使用的生態系統提供設計指南和標準。它可以用於涉及到數據安全和隱私保護諸多領域,尤其是在金融、保險、醫療或政務等行業中有非常大的應用潛力。
知識聯邦是一個國產原創、自主可控、全球引領的技術體系,該體系在解決了數據割裂和數據安全問題的同時,可以進一步開展跨源跨域的知識發現、表示、歸納、推理和演繹,為人工智慧3.0奠定了堅強的基石。
表1. 弱中心化與強中心化、去中心化對比
在實踐中,知識聯邦採用的是弱中心化的分布式方法,這與傳統的強中心化和完全的去中心化還是有很大差別的,如表1所示。
強中心化模式下,中心節點(也稱作第三方)會聚集並保存所有參與方的數據,所有的計算和學習都是在中心節點完成,強中心化方式有數據安全隱患,隱私保護方面也很難合規。
去中心化模式沒有中心節點,需要所有參與方互聯互通。去中心化以區塊鏈為代表,通常會在節點中保存完整數據或者保存區塊頭來索引相應區塊,同時通過多方共識機制進行數據訪問授權,當節點規模較大時,通信成本很高,達成共識效率低下。
而弱中心化模式中原始數據是保留在本地,並且不會離開本地的,計算和學習仍然發生在本地,中心節點僅對參與方模型知識進行安全的聚集。弱中心化模式達成了效率和安全之間的平衡,是一種更切實可行的安全多方應用解決方案。這種模式尤其適合在強監管行業應用,有助於監管部門開展合規監管工作。
表2. 知識聯邦與相關技術
知識聯邦是一個統一的安全多方應用框架,它支持安全多方查詢、安全多方計算、安全多方學習、安全多方推理等多種聯邦應用。知識聯邦在借鑑一些相關技術的同時,也具備一定的獨創性,尤其是在認知層和知識層聯邦都是自主創新的。知識聯邦與其它技術領域,如聯邦學習、區塊鏈、隱私計算、安全多方計算等,都有著緊密的關係。表2簡單概括了它們之間的關係,下面我們將從多個角度進行詳細闡述。
2.3.1 知識聯邦與聯邦學習的關係
聯邦學習[12],[13],[14]更關注的是聯合建模訓練過程,最初的聯邦學習是面向用戶客戶端解決跨樣例聯邦問題的。在這種情況下,數據特徵在每個用戶端保持一致,如何通過安全聯邦的方式訓練模型成為關鍵,而至於模型訓練好之後的預測基本不用考慮,因為每個訓練好的模型只依賴當前用戶端的數據,預測時不需要數據交換。在機構間進行跨特徵聯邦時,建模完成後的預測過程中仍然需要進行聯邦。
知識聯邦關注的是通過聯邦提取有用的知識,其聯邦的目的可能是建模、預測、計算、推理。知識聯邦不僅僅是面向學習,還包括安全的多方計算和知識推理。聯邦學習更多是知識聯邦中模型層聯邦,而知識聯邦除了包括模型層聯邦外,還包括信息層、認知層和知識層等幾個層級的聯邦。因此,聯邦學習是知識聯邦的一個子集,專注於數據分布的聯合建模,詳細討論參見章節3.4.3。知識聯邦關注的是安全的數據到知識的全生命周期的知識創造、管理和使用及其監管,設計目標是面向生產環境的完整知識聯邦生態系統,致力於推動下一代人工智慧,不僅僅是一個安全的聯合建模。
2.3.2 知識聯邦與區塊鏈、隱私計算的關係
區塊鏈本質上是一個去中心化的資料庫,它通過共識機制創造信任保證數據一致性。知識聯邦更多是介於去中心化和強中心化中之間的一種弱中心化的模式,第三方在其中作為一個協調和仲裁的角色出現,它不會像強中心節點一樣保存所有的數據,更多是對參與方知識進行聚集,並對參與方數據質量和貢獻進行仲裁。
在數據存儲中,區塊鏈的節點會保存完整數據或者保存區塊頭來索引相應區塊。這與知識聯邦在本質上是不同的,知識聯邦中原始數據是保留在本地,並且不會離開本地的。區塊鏈中常用非對稱加密和授權技術保證帳戶身份信息的數據安全和個人隱私,而知識聯邦則是通過數據知識化後進行加密聯邦。當然知識聯邦也可以與區塊鏈技術相結合,利用區塊鏈的去中心化的信任和共識機制。
隱私計算是從數據的產生、收集、保存、分析、利用、銷毀等環節中對隱私進行保護,是面向隱私信息全生命周期的。隱私計算本質上是一類在保證數據提供方不洩露敏感數據的前提下,對數據進行計算並能驗證計算結果的技術。
同樣是關注隱私保護,隱私計算是關注隱私數據全流程中的保護問題,其分析也更側重於計算,不涉及訓練學習,與知識聯邦的聯邦計算(參見章節3.4.2)有較多相似;知識聯邦更關心數據分析和利用過程中的隱私保護,也不局限於計算分析還包括模型和知識的學習、預測、推理等。隱私計算常與區塊鏈結合,以去中心化形式落地;知識聯邦更多會是以一種弱中心化的方式呈現,更切實可行。
2.3.3 知識聯邦與安全多方計算的關係
安全多方計算(MPC)[15]是一種在無可信第三方的情況下,安全地計算一個約定函數的方式。MPC中各參與方可以在本地數據不被歸集、隱私數據不被洩露的前提下,共同執行既定邏輯的運算,獲取共同想要的數據分析結果。計算參與方只需參與計算協議,無需依賴第三方就能完成數據計算,並且各參與方拿到計算結果後也無法推斷出原始數據。
理想狀態下的MPC是不依賴於第三方的,也就是一種去中心化的模式,但是MPC只會在本地數據上進行計算。理想的MPC在多方參與時通信交互會非常複雜,效率低下。如果MPC也採用弱中心化的方式,那麼它就和知識聯邦中的聯邦計算是等價的了,也就成為知識聯邦的一個子集,關於聯邦計算的介紹可以參見章節3.4.2。MPC更關注數據計算層面的問題,但是知識聯邦除了多方聯合計算之外,還會關注多方聯合建模、多方聯合預測和多方聯合推理等應用。
2.3.4 知識聯邦與可信執行環境的關係
可信執行環境(TEE)提供一個隔離的執行環境,提供的安全特徵包含:隔離執行、可信應用的完整性、可信數據的機密性、安全存儲等。主要思路是在計算機硬體平臺上引入安全晶片架構,通過提供的安全特性來提高終端系統的安全性。TEE是一種數據安全和隱私保護的硬體實現方式;知識聯邦則對硬體執行環境沒有特定的要求,是一種更便捷的實現方式。知識聯邦也可以與TEE相結合,在聯邦節點上採用TEE實現以提升數據安全性,構建更可信的知識聯邦。
2.3.5 知識聯邦與分布式機器學習的關係
分布式機器學習涵蓋了多個方面,包括把機器學習中的訓練數據分布式存儲、計算任務分布式運行、模型結果分布式發布等,參數伺服器是分布式機器學習中一個典型的例子。
分布式機器學習強調如何加速模型訓練過程,不關注數據安全和隱私問題。而對於知識聯邦而言,首先採用弱中心化的計算模式,不像分布式機器學習那樣有強中心節點主導;其次知識聯邦中的參與方是數據擁有方,對數據有獨立控制權,而分布式機器學習中數據的擁有者和控制權都是中心節點;最後,知識聯邦在進行多方計算和學習過程中更關注參與方數據安全和隱私保護,目的是在打破各方數據割據的同時又能達到安全合規要求。
2.3.6 知識聯邦與差分隱私的關係
差分隱私[16]是密碼學中的一種實現隱私保護的技術手段,旨在提供一種當從統計資料庫查詢時,減少洩漏資料庫中具體記錄所屬主體的身份的機會。差分隱私是一個概率概念,它通過加擾在統計數據的準確性和隱私參數之間進行權衡,實現準確性與隱私的均衡。差分隱私是實現安全知識聯邦的一種技術手段。在聯邦過程中同樣需要用到這些傳統的隱私保護和加密技術,即便是在模型層、認知層和知識層聯邦時,雖然傳輸數據已經被加工處理過,但仍需要採用這些技術來保護數據隱私。
知識聯邦的分類可以有很多種方式,可以按聯邦階段、數據特點、參與對象類型和應用目的進行劃分,如圖1所示,下面分別進行介紹。
圖1. 知識聯邦分類
知識聯邦按照聯邦發生的階段可以分為四個層級:信息層、模型層、認知層和知識層,其整體層級結構如圖2所示。
圖2. 知識聯邦的層級
3.1.1 信息層
圖3. 信息層聯邦
信息層聯邦是指在將原始數據匯聚到第三方伺服器之前,必須對參與方數據進行清洗、轉換和加密,讓數據變成有價值的密文信息,如圖3所示。值得注意的是,這裡的加密要求是非常嚴格的,不允許密文信息在第三方伺服器中解密後運算,通常需要採用同態加密技術。知識創造過程發生在第三方伺服器上,它直接對密文信息進行計算或學習,不能解密。信息層聯邦的優勢是聯邦過程是一次性通信,通信開銷小,但缺點在於對於加密方法要求較高,而且在密文信息上的訓練學習也比較困難。
信息層聯邦和隱私計算和安全多方計算有很多相似之處,但信息層聯邦不僅僅局限於計算應用,還可以在密文上進行安全的學習和推理。比如Aslett等人[17]在2015就採用完全同態加密方法進行隱私保護的機器學習。隨後,Dowlin等人[18]又提出了第一個基於密文信息的神經網絡CryptoNets做隱私保護的深度學習。信息層聯邦常用於多頭共債、黑名單查詢、用戶對齊等應用中。
3.1.2 模型層
圖4. 模型層聯邦
模型層聯邦主要發生在模型訓練過程中。基本思想是首先在各個參與方分別利用自身數據訓練學習一個初步模型;然後將模型更新的模型參數加密後上傳至第三方伺服器進行聚合;聚合後的更新參數再分發給各個參與方用於各參與方本地模型的參數更新;模型迭代後再進行聚合,如此重複多次直到模型收斂,如圖4所示。這裡知識提取過程發生在參與方內部,局部知識聚集後可以有效平衡各方的數據偏差,形成更魯棒的全局知識。
模型層聯邦與現在熱門的聯邦學習在本質上是一致的。模型層聯邦的優勢是訓練學習是分布式的,即模型的訓練、優化發生在各個參與方,第三方只進行聚合,計算開銷小。但其最大劣勢是聯邦過程需要頻繁地進行模型參數的上傳和分發,通信成本高。尤其是對網絡安全要求較高的金融機構,通常會將內外網隔離,如果是在內網訓練,多方只能在外網定時聯通聚合,必然會導致訓練周期變長。此外,由於模型參數中蘊含著數據隱私信息,所以在上傳聚合前同樣也需要同態加密或差分隱私等方法進行安全處理。
3.1.3 認知層
圖5. 認知層聯邦
認知層和模型層的顯著區別在於,是用嵌套特徵而不是模型更新進行聯邦。嵌套特徵可以是深度神經網絡中的全連接層,也可以是特徵提取後得到的高層語義特徵或局部認知結果。在第三方聯邦時,會基於局部嵌套特徵再訓練或學習一個獨立模型,訓練過程也會與各參與方交互并迭代至收斂。具體如圖5所示,聯邦前先用本地數據提取嵌套特徵,然後再加密發送到第三方伺服器進行聯邦知識發現。局部嵌套特徵可以看作是元知識,聯邦集成後創造的知識時一種綜合知識。
認知層聯邦如果是應用在各聯邦節點上數據同構但樣本不同的場景下,理論上與集成學習的核心思想一致。事實上,認知層聯邦更經常遇到的場景是在各聯邦節點上數據異構的情況,比如在分布式的多模態學習中,需要融合圖像、聲音、視頻、文字等信息進行綜合認證,以降低金融交易環節中的風險。
3.1.4 知識層
一旦初始知識以某種方式構建並保存在知識庫中,聯邦將進入一個更高級的階段,即知識層聯邦。在該階段,多個知識庫中的知識相互協作進一步演繹出更重要的知識。為了能讓知識不同知識源之間自由流動,需要將每個知識庫當作一個知識節點連接起來構建一個知識網絡。值得強調的是,知識網絡與知識圖譜完全不同,但又密切相關。後者主要描述實體及其相互關係,以圖表形式組織。知識網絡是建立在知識圖譜之上的一種網絡,它是由與多個特定領域知識組成的網絡。
簡單地說,知識層聯邦實際上是通過知識融合或推理,讓知識在知識網絡中自由流動,以創造或挖掘出更全面、更有價值的知識,這對管理決策有很大幫助。知識推理和演繹相關技術在分布式環境下的擴展,是知識層聯邦落地的一種解決方案。
參與聯邦的各方數據分布有時是相同的,有時又有很大差異。根據數據分布的差異,可以將知識聯邦劃分為:跨樣本聯邦、跨特徵聯邦和複合型聯邦。
3.2.1 跨樣本聯邦
跨樣本聯邦是指每個聯邦參與方的數據具有相同的特徵分布,但各方的樣本(或用戶)是獨立的,而且每個參與方都有與自己樣本對應的標籤數據。聯邦的目的就是要充分利用數據持有者的樣本和標籤數據,讓各個參與方利用自由數據在本地進行訓練或知識化提取,然後在通過模型知識聚合方式不斷更新模型知識。
由於本地標籤只是用於監督本地模型訓練,所以跨樣本聯邦不需要在不同參與方之間傳輸標籤數據,降低了聯合訓練的難度。跨樣本聯邦的模型在訓練和預測中都僅僅利用自有數據,因此也避免了在模型預測時需要聯合預測。跨樣本聯邦最典型應用就是,Google提出的在手機輸入法中根據用戶輸入習慣預測下一個可能出現的單詞。
跨樣本聯邦在聯邦學習中也稱作橫向聯邦學習[13], [14],但是跨樣本聯邦不僅僅可以用於聯邦學習建模,還可以用於聯邦計算分析。在實際應用中,由於不同機構中樣本數據特徵分布很難保持一致,因此跨樣本聯邦應用場景也有很大的局限性。
3.2.2 跨特徵聯邦
聯邦應用的一個目的就是利用其他參與方的數據彌補自身數據不足,以計算或學習更好的模型知識。尤其是在機構間,數據特徵分布不同,但不同參與方之間有很多共同的用戶樣本,那麼融合這些交集樣本的獨立特徵將有助於模型知識的優化,這就是跨特徵聯邦。跨特徵聯邦要比跨樣本複雜,因為此時的參與方可能只有一家是有標籤數據的,訓練過程中不僅僅要保證特徵數據的安全,還要防止標籤數據的洩漏。由於模型需要用多方數據才能訓練,模型預測時也同樣需要多方數據才能完成,這也就意味著在生產環境也需要聯合預測。
跨特徵聯邦在聯邦學習中也稱作縱向聯邦學習[13], [14],但是跨樣本聯邦並不局限於學習建模,還可以用於聯邦計算或推理。跨特徵聯邦在金融行業中有非常廣泛的應用需求,不管是信用評估還是反欺詐,都需要聯合多方數據進行跨特徵聯邦才能有效解決。
3.2.3 複合型聯邦
除跨樣本和跨特徵聯邦之外,還有一種更複雜的場景,其中只有一小部分樣本或特徵集是參與各方的交集,其餘數據無論是特徵分布還是樣本分布都不相同。這種場景下,涉及跨樣本和跨特徵的組合,因此我們稱之為複合型聯邦。複合型聯邦儘管複雜,但也有很多可行的解決方案,比如可以採用元學習[19]、遷移學習[20]或知識蒸餾[21]等方法提取不同領域知識並自適應到目標領域。這種聯邦在實際應用中更為常見。比如有兩個機構,一個是位於甲城市的且面向當地客戶的保險公司,另一個是位於乙城市的服務於周邊居民的地方醫院。顯然,由於地理區域不同,雙方共同用戶群體很少;而業務上的差異也決定了兩個機構之間的數據特徵是異構的。如果保險公司想在乙城市開展業務,並期望利用醫院數據來進行當地客戶風險評估,這時複合型聯邦將派上用場。
知識聯邦按照聯邦參與對象類型分為三種:個體間聯邦、機構內聯邦、機構間聯邦。
3.3.1 個體間聯邦
個體間聯邦,是面向個人終端用戶的,這種場景下要求每個用戶數據都不離開個人終端,以保證用戶隱私不受侵犯;同時希望利用每個用戶的數據,通過大量用戶數據提煉一個穩定可靠的通用模型。在通用模型的基礎上,每個用戶還可以根據自己的行為特徵定製個性化服務。個體間聯邦採用的數據特徵屬性是一致的,因此通常都屬於跨樣本聯邦。
比如,在用戶瀏覽習慣分析中,由於用戶瀏覽細節會涉及個人隱私,這些數據不能直接對外共享,要利用這些數據就只能直接在個人終端上計算,再將每個個體上得到的模型知識進行聯邦。通過個體間聯邦,可以讓終端設備更懂用戶讓應用服務更貼心,同時由於數據對外不可見,用戶隱私數據也不會發生洩漏。
3.3.2 機構內聯邦
機構內聯邦常常發生在大型企業集團內部。不同分公司所處地區不同,面向的客戶群體也不相同,而各子公司因為業務類型不同也產生的數據特徵不盡相同。比如有些保險公司在國內和東南亞地區都有業務,但是東南亞地區客戶數據量較少,國內數據較多,公司希望在東南亞應用的營銷模型或風險控制模型可以利用國內數據。由於數據出境合規性要求,不能直接將雙方數據聚集在一起使用。那麼這時就可以採用機構內聯邦的方式,在保證數據安全同時,雙方聯合訓練模型,以適應業務的需求。
3.3.3 機構間聯邦
機構間聯邦會出現在政府部門或企業之間。比如在疫情期間,要分析感染人群的行為軌跡和跟蹤密切接觸人群,就需要聯合運營商、社交、交通和社區等部門的數據。各機構的數據欄位屬性不同,但可以起到互補作用,充分利用每一方的數據可以進行有效分析進而深度挖掘潛在的風險人群。但是,由於涉及到很多用戶的隱私信息,數據直接對外共享,這時就可以採用機構間的知識聯邦,從各部門數據中提取有用知識,通過知識共享和推理的方式解決這個問題。
聯邦是一種數據和知識安全交換協議,按照聯邦應用目的的不同,可以細分為聯邦共享、聯邦計算、聯邦學習、聯邦預測和聯邦推理。因為聯邦本身就是解決安全多方問題的,所以這些術語也可以稱作:安全多方共享、安全多方計算、安全多方學習、安全多方預測和安全多方推理。這些應用與信息層、模型層、認知層和知識層聯邦有潛在的對應關係,具體如表3所示。
表3. 聯邦應用與聯邦階段對應關係
3.4.1 聯邦共享
聯邦共享不是簡單的數據共享,它是在聯邦的基礎上,也就是在滿足數據和知識安全交換協議的基礎上,進行數據或知識的共享。而且,這裡的共享並不會將數據控制權轉移給其他參與方,數據擁有者依然獨立保持對數據的控制權。在某種程度上,聯邦共享類似於數據聯邦,但前者會更關心數據安全和隱私保護。聯邦共享的核心在於參與方之間的數據保留在本地,分別經過分類分級脫敏後與其他參與方數據形成虛擬的動態數據倉庫對外提供服務。
聯邦共享主要用於多方數據安全查詢和檢索。在打通政務數據開展一網通辦業務中,可以採用聯邦共享的方法破解橫向數據共享交互的難題,這也是未來新基建中建設大數據中心的基礎。
3.4.2 聯邦計算
實際應用中有許多先驗知識可以直接利用,這種先驗知識可能是從實踐中積累生活常識,也可能是在理論上已經驗證過的領域知識,它們共同的特點就是已經經過驗證不需要再從大量數據中挖掘學習。基於已有的規則性知識,利用各參與方數據進行聯合計算,得到統計分析結果,這就是聯邦計算。聯邦計算通常會直接在密文數據上進行計算分析。
安全多方計算可能是在工業界和學術界使用更多的一個術語。理想的安全多方計算常以去中心化的方式實現,而聯邦計算會採用一種弱中心化的方式實施。安全多方計算與聯邦計算其實本質上是一致的,都是利用多方數據安全地進行統計分析或線性計算。如果安全多方計算也採用弱中心化方式實現,那麼它與聯邦計算就是完全等價的了。
3.4.3 聯邦學習
聯邦學習,也稱作聯邦建模或聯邦訓練,其主要目的是聯合多個參與方的數據進行模型訓練學習,這個過程主要對應模型層和認知層聯邦。在利用參與方現有的數據時,保證數據不離開本地,同時能夠形成一個更全面的模型知識。簡單地講,聯邦學習就是將傳統的聯合建模過程分布式線上完成。但是傳統的聯合建模常用於異構數據的跨特徵聯邦,顯然聯邦學並不局限於傳統的聯合建模,它還包括同構數據的跨樣本聯合訓練。跨特徵聯邦學習在金融行業合作中常有應用,跨樣本聯邦學習在用戶個性化產品定製或智能化運維中經常會用到。
3.4.4 聯邦預測
聯邦學習生成的模型在使用過程中還會遇到另一個問題,那就是模型預測。跨樣本聯邦學習相對比較簡單,因為模型訓練發布後不會再涉及多方數據協作進行預測。而跨特徵聯邦學習在訓練模型過程中需要各方數據同時訓練,所以模型預測階段也同樣需要各方數據參與才能完成預測。如何保證參與方用戶數據隱私的情況下,利用各方數據完成預測,就是聯邦預測要解決的問題。
跨特徵聯邦學習在訓練前通常需要進行批量用戶樣本對齊,安全的用戶對齊是希望對齊過程中能保護各方數據不為其他參與方所見。相比之下,聯邦預測不需要批量用戶對齊,它只需要對單個用戶進行查詢檢索。聯邦預測過程中的安全用戶查詢也希望被查詢的用戶數據不會被其他參與方知道。
3.4.5 聯邦推理
聯邦推理是在知識庫和知識圖譜形成之後,在多個跨領域跨機構的知識庫之間進行知識推理和演繹的過程。聯邦推理涉及到知識表達規範化、知識融合、知識演繹等[22],主要發生在知識層聯邦中。例如機構A和機構B分別偵測到的可能的欺詐團夥關係圖譜Ga和Gb,通過知識聯邦推理,可以相互增強判斷、分類和打分。企業或個人信用評分,也可以通過知識聯邦來利用各個機構已經創建的知識,輔助以人工知識及各自的約束條件或目標,進行聯邦推理得出並提供可解釋性。
知識聯邦平臺化核心需要考慮三個要素:數據隱私安全性、模型知識開放性、平臺功能實用性。智邦平臺(iBond)是同盾科技基於知識聯邦理論體系打造的工業級應用產品,是知識聯邦的參考實現,構建數據安全的人工智慧生態系統。
圖6. 智邦平臺生態
如圖6所示,智邦平臺包括四大核心模塊和兩個中間件。核心模塊包括:
功能服務模塊:主要提供實際應用中需要的諸如帳戶管理、配置管理、費用統計、測試分析、模型發布等服務
任務場景模塊:面向需求場景設計模型策略知識,開展學習、計算、檢索等任務。比如:信用分、欺詐分、多頭貸等
開放平臺模塊:主要完成算法聯邦化的實現,支持數據加密解密、計算或學習、知識歸集等功能。
基礎設施模塊:提供底層的公共設施,包括:離線/實時任務調度監控、計算環境、資源調度、數據/知識存儲。
中間件具體如下:
聯邦環境中存在多種不同的角色參與其中,具體可以分為:
數據提供者,參與聯邦計算或學習等行為的數據擁有者。數據提供者通過聯邦的方式對外進行安全數據交換,但是數據不離開本地,數據提供者仍舊擁有數據控制權。
模型設計者,依託聯邦平臺設計聯邦化模型策略的人員。模型設計者不用關心數據提供者如何進行通信或數據交換,也不需要過多關心模型如何聯邦化實施,只需要關心如何利用參與方數據特徵設計高性能可解釋的模型或依託常識來設計某種策略進行多方計算。
模型使用者,使用聯邦平臺提供的模型策略的用戶。這些用戶不需要關心模型是如何聯邦,調用了哪些參與方的數據,他們只需要利用這些模型開啟應用或服務即可。
平臺運營方,即聯邦平臺的運營管理者。平臺運營方會設計平臺運營收費模式,制定相應的利潤分配規則,以及平臺的發展規劃。
平臺提供方,即聯邦平臺的開發和維護升級的技術提供方。平臺運營方通常會委託平臺提供方開發和維護平臺,雙方保持緊密合作關係。
第三方,也稱仲裁方或協調方。第三方只承擔模型知識的歸集工作,不像傳統的強中心化模式種的第三方,這裡的第三方只是一個協調者,不會解密信息,存儲數據。
4.3.1 可信第三方
在知識聯邦中,第三方的存在只是一個協調者和監管者作用,不會觸碰參與方的原始數據。事實上,第三方可以是虛擬的,只是一個可審計和可追溯的機器。在數據參與方都達成共識的情況下,虛擬第三方可以部署在更擔心數據安全的一方的私有雲上,也可以部署在都認可的公有雲或專有雲上。第三方也可以是實體機構,一般是一個中立的、可信的機構。
可信第三方要保證在任何情況下都不會撒謊,也不會洩露任何不該洩露的信息。可信第三方的選擇一般是基於任務場景的,不同聯邦任務可能會選擇不同的第三方機構。一個有公信力的平臺運營方也常常會承擔可信第三方的職責。
4.3.2 數據提供者公平性
聯邦平臺中的數據提供者,儘管在理想狀況下會作為誠實參與者嚴格遵守安全協議執行。但是在實際應用中,也會遇到半誠實參與者和惡意參與者。
半誠實參與者:在協議的執行過程中會按照協議要求忠實地履行協議,執行協議後,除了協議的執行結果外沒有任何信息洩露。但他們可能會記錄下協議執行過程中收集到的所有信息,並試圖根據收集到的信息推算出其他參與者的輸入信息。所以,半誠實參與者又稱為誠實但好奇參與者。
惡意參與者:不遵循協議,採取任意的行為獲取他方的隱私。常見的惡意行為包括中途退出協議、替換自己真實的輸入以及拒絕執行協議等。
針對聯邦平臺中的半誠實和惡意參與者,還需要探索高效合理的方法來智能監測和識別,以保證參與者之間的公平性和數據安全性。
4.3.3 數據質量和貢獻評估
數據質量是數據衍生類產品產生價值的關鍵,低質量的數據很難創建有價值的模型知識,而數據質量的高低往往又是很難評判的。與大數據平臺建設中的數據質量評價不同,聯邦過程中的數據質量評價是面向模型知識應用的。其數據質量的高低主要取決於參與訓練學習的數據對模型性能提升的貢獻,貢獻大質量就高,貢獻小質量就低。因此在聯邦訓練前,一般會分別進行數據特徵選擇,然後再聯邦過程中再進行一次多方數據特徵選擇,並按照單方模型性能與多方聯邦後性能做性能提升效果分析,分別計算出各方在模型中的貢獻分。模型貢獻分將作為後續利潤分配的依據。
4.3.4 平臺參與各方的激勵方式
事實上,各方參與聯邦的動機不同,所以對應可以採取的激勵措施是不同的。對於模型使用者,其參與聯邦平臺的目的是為了藉助已有的聯邦模型,安全合規地利用多個數據提供者的數據,提升其業務核心競爭力和行業影響力。這種參與方有對聯邦模型和數據的剛需,屬於模型知識購買方。只要平臺提供有效的模型知識,就會積極參與,無需太多激勵。
數據提供者通常會有很多自有授權的數據,在數據交易合規要求日益嚴格的情況下,也需要探索新的數據價值變現方式。數據提供者是利潤分配的主體,也有數據合規變現的潛在需求。
其他參與方,包括平臺運營方、平臺提供方、模型設計者和第三方都是通過提供聯邦過程中的相應服務獲取利潤分配的,是有潛在動力的。
4.3.5 平臺數據安全性的證明
聯邦的核心是要保證各參與方的數據安全並實現隱私保護。聯邦平臺的數據安全性可以從數據完整的過程域進行評估,包括數據導入、數據存儲、數據處理、數據傳輸、數據共享、數據溯源、數據銷毀。隱私安全性評估可以根據個人信息的類型、敏感程度、處理方式等對個人信息進行分類,分別進行影響分析和風險評價。目前還沒有一個類似等保認證的國家級標準規範可以用於聯邦平臺數據安全和隱私保護評估,這也是需要各方努力共同推進的。
4.4.1 建立聯邦數據安全交換標準
近兩年,在國內外學術界和工業界,掀起了一股聯邦學習熱潮。這股技術熱潮主要是由於隱私保護的合規性要求帶來的。但是,目前真正制約聯邦(尤其是跨特徵聯邦)實施應用的難點主要包括:
數據異構問題。參與方之間數據異構主要體現在兩個方面,一是資料庫類型不同,有的採用關係型資料庫如MySQL,DB2等,有的採用的是非關係型資料庫如MongoDB、Redis等,還有些採用分布式資料庫;二是數據欄位描述和數值表示方式不同,同樣是出生日期欄位不同資料庫裡可能會採用不同形式描述也可能用不同格式記錄。因此,需要在聯邦時必須先對各參與方數據進行標準化,讓各家參與方數據達成一致。
數據一致性問題。實際應用數據有很多種類型,有些屬於業務數據,有些屬於個人信息,各自敏感級不同。此外,不同數據欄位敏感級不同。因此需要對數據進行嚴格的分類分級,然後分別進行去標識化和脫敏,並要保證去標識化和脫敏後的各方數據具有一致性,這對後續聯邦應用是非常重要的。
安全交換問題。不論是在聯邦計算還是聯邦訓練中,都會涉及到數據或模型知識與第三方的交互,在交互前必須對這些數據進行加密處理,具體加密方法取決於不同的應用場景。在傳輸過程中,也需要對傳輸通道進行加密處理以進一步保證數據安全性。
針對上述問題,亟需形成一套完整的聯邦數據安全交換的標準,讓參與方在選擇使用聯邦平臺時有規範可依,可以不用擔心數據安全和用戶隱私的合規問題。標準的建立也有益於推進聯邦在各行各業的應用落地。
4.4.2 存量模型聯邦化
聯邦平臺會提供常用的深度網絡模型和傳統機器學習模型。模型設計者可以更多關注特徵選擇和指標設計,也可以採用學習流方式設計自己的算法。
此外,有些機構有很多過去通過線下聯合建模方式得到的模型,這些模型在應用中相對穩定性能也能滿足要求。這些機構希望能夠將現有的這些存量模型能夠快速的轉換成為聯邦化的模型,這就是存量模型聯邦化的問題。受制於應用場景的限制,聯合建模中產生的模型差異很大,也涉及各種不同參與方,所以存量模型目前還無法自動聯邦化,但這將是聯邦平臺進一步演化升級的方向。
4.4.3 打造任務聯盟維持開放生態
聯邦平臺可以解決不同應用場景需求,一個場景就是一類任務,不同類任務之間需要的數據特徵也完全不同,相應的參與方也自然不同。比如在個人信用風險評估時,可能會需要個人的收入情況、消費能力、貸款情況以及其它信息,而這些信息可能分布在不同的機構中。
根據任務不同,聯合相關機構參與任務,建立相應的任務聯盟是一件非常有意義的工作。尤其是那些中小微企業,自由數據量少,需要藉助外部數據才能開展業務,通過聯邦平臺建立小範圍的任務聯盟就可以有效解決這個難題。
聯邦平臺將會是一個開放的生態。開放主要體現在三個層面:
任務聯盟是開放的。基於聯邦平臺,每個機構可以參與多個任務聯盟,在不同聯盟中也可以開放不同的數據。
模型設計是開放的。有興趣和能力參與模型設計的人員可以開放的加入到聯邦平臺,並在不同的任務聯盟中針對任務需要設計模型。一個模型設計者可以參與多個任務,每個任務也可以有多個模型設計者設計不同的模型。
模型使用是開放的。每個任務對應的模型性能效果是對外開放的,可供使用者查詢。模型使用者可以根據業務需求選擇合適的模型,也可以將不同任務場景下的模型連通起來形成業務閉環。
知識聯邦通過安全的數據交換實現知識共創和共享,是打破部門數據割裂,同時確保數據安全和隱私保護的關鍵,在金融、保險、政務和醫療行業有很大應用潛力,也是實現智慧金融、智慧政務和智慧醫療的基礎。
智慧金融領域中所有需要多方參與建模、知識共享的場景都可以應用知識聯邦。尤其是在貸前風險防控,聯合營銷和多頭共債中,可以很好提升企業的核心競爭力和行業影響力。在風控評分中又可以細分為個體信用評估和企業信用評估,具體聯邦建模的形式完全取決於參與方之間數據的特點。由於不同機構間含有各種不同維度客戶特徵,常以跨特徵聯邦為主。
在現實場景中,金融機構之間、金融機構與政府部門之間,普遍存在基於多方聯邦進行安全查詢和安全計算的場景。有些是基於高頻高並發的非明文加密查詢,有些是基於數據可用不可見的建模增益。金融行業普遍存在的多頭共債問題,可以採用聯邦計算的方式解決,保證多方的信貸數據不共享的同時降低信貸的風險。
聯合營銷則是可以利用流量渠道的數據與金融機構的數據進行有針對性的精準投放,實現用戶增長或默客激活,同時保護各參與方數據不會外流,另外在聯合營銷的過程中,需求投放方希望核心投放用戶數據在三方渠道處是不可細數的,既能滿足拉新需求又能保證核心資產安全。
隨著網際網路銀行(也稱虛擬銀行)的不斷發展,智能KYC成為客戶審核的關鍵一環,如何在保證客戶隱私的同時,能綜合利用客戶的生物特徵信息,如:人臉、聲紋、語音,和客戶的有效證件信息全方位認識客戶,是一個有挑戰性的難題,認知層聯邦是一個有效的解決方案。
在保險領域,保險產品的定價往往取決於各方面的因素,風控的難度就在於信息的不對稱,才會頻頻出現騙保或薅羊毛事件。在健康險和壽險領域,保險公司和醫院數據聯邦,可以在保證病人隱私的前提下,健全人、病、醫、藥、保的全方位知識。這可以通過知識層聯邦實現,不僅能加速保險理賠的流程,同時讓保單定價更人性化,擴大營收降低風險,真正做到降本增效。同樣,在車險、航空延誤險或其它財產險中,知識聯邦也有相應的發揮空間。
未來開放銀行的發展和可持續深化給用戶帶來了極大的便利,也給銀行和金融科技帶來新的挑戰。在開放銀行的場景下,知識聯邦將成為剛需,各個機構間各種複雜業務場景下,需要安全交換各種要素,應用場景覆蓋了知識聯邦的全部四個層次。
很多地方政府為了盤活地方中小微經濟,組織了不少面向產業鏈或者供應鏈的撮合平臺,一方面撮合上下遊產業供給,一方面對接銀行資金。這類中小微融資扶持平臺跨智慧金融和智慧政務場景,需要打通政務、稅務、銀行、企業及個人等安全和隱私要求差異較大的異構數據,採用知識聯邦的方式對信息/流程進行安全串聯。知識聯邦可以提供強有力的支撐平臺和監管等安全和監管標準工具,滿足複雜的多層次需求。
政務數據通常會分散在各個部門裡面,每家機構的數據獨立存儲,獨立維護,彼此間相互鼓勵。政府部門間數據共享不足、開放利用不夠、質量標準不一,這是一個普遍存在的現象。現在地方政府在打造大數據中心也是希望能夠破解數據割裂的問題,但在實踐過程中,橫向數據共享交互仍存在困難,稅務、民航、通信管理等垂管部門系統相對獨立、數據無法接入地方共享平臺。
知識聯邦是一種很好的解決方案,因為聯邦的本質就是一種數據安全交換協議。通過知識聯邦可以幫助政府實現安全的數據虛擬融合,實現數據聯邦檢索,在保護個人信息的情況下,建立政府數據向社會開放的安全渠道;同時可以為各部門行政審批事項梳理和業務流程再造提供支持。
基於各部門數據進行建模分析,地方政府可以進一步加強安全管控和預警預判。比如在疫情期間,通過多部門數據協作,尤其是人群運動和遷徙軌跡和社交關係分析,可以快速篩選出來與確診病例緊密接觸的潛在風險人群。
知識聯邦在醫療領域有廣泛的應用前景,常見的應用包括醫藥發現、智能影像分析、疾病知識推理等。醫藥發現主要是通過疾病診療變化和個人用藥情況綜合分析藥品對疾病治療的效果,進而探索和發現新的藥物。通過聯邦的方式,可以在保護個人的疾病信息的同時,進行大範圍的藥品臨床效果分析。
在醫療影像分析中,普遍面臨的一個問題是影像打標,醫療影像需要專業人員才能完成打標,而這些人員時間有限,影像數據又分散在各家醫院裡無法對外共享,採用聯邦可以有效破解這個難題。
疾病知識推理則是利用各家醫療診斷數據建立知識圖譜中,然後在知識庫上進行知識推理發現疾病之間的潛在關係,採用聯邦的方式可以在保護各家知識庫的前提下深度挖掘疾病關聯性,可以採取更有效的措施治療。
在智慧城市建設發展中,知識聯邦同樣可以發揮重要的作用。在車聯網,通過知識聯邦可以保護車主行為習慣的前提,讓每輛車輛與周邊車輛保持安全的信息交流,為自動駕駛形成助力。在城市交通中,交通信號燈可以根據不同方向車流人流量智能調整。這種基於知識聯邦智能控制信號燈方式,不會洩漏行人或車輛的隱私,同時可以避免目前固定間隔方式導致有的方向交通擁堵,而有的方向則是沒有車輛通過。而在社區監控或智能門禁中,利用知識聯邦可以將區域或家庭監控系統與公安的犯罪嫌疑人資料庫連通,通過本地計算分析,在保護過往行人的隱私情況下,對發現的潛質嫌疑人及時報警。
知識聯邦致力於打造數據安全的人工智慧生態系統。知識聯邦的設計理念受到了人工智慧發展歷史的啟發和影響,也希望成為推動下一代人工智慧發展突破的一個關鍵環節。
表4. 人工智慧與計算平臺的發展階段
人工智慧的幾個關鍵發展階段簡單概括如表4所示。我們觀察到兩個現象:(1)人工智慧與計算平臺的發展階段有相當的巧合。(2)各個階段的飛躍間隔大約30年。由此我們推測AI 3.0將在2040年代獲得極大突破,進一步逼近強人工智慧。目前AI 2.0突破的前提是大數據、雲計算、GPU/TPU等的極大提升(統稱SMAC - Social, Mobile, Analytics, and Cloud),以及深度學習等一系列人工智慧等理論和技術的巨大突破。AI 3.0的突破的前提預計會是新一代計算平臺(我們暫時稱為智能平臺)的突破和人工智慧理論和技術的突破。
人工智慧的發展歷史可謂波瀾壯闊,從最初萌芽階段的豪言壯語,歷經兩次寒冬的巨大打擊,而終於在最近10年崛起並全面落地,影響了我們社會的方方面面,仍在發揮巨大的影響力,成為各個國家必爭的技術高地。率先突破AI 3.0的國家必然擁有強大的先發優勢,引領下一代工業革命 。
雖然目前還沒有完備的理論突破來實現AI 3.0,學術界和工業界也沒有統一的看法。如表1所示,AI 3.0預計會融合前面近百年的人工智慧技術達到很有知識、很有感覺、擅長推理決策。我們相信知識的智能發現、歸納、演繹和推理決策是通向AI 3.0的必經之路。
知識聯邦倡導統一的多層次的安全聯邦,從信息層、模型層、認知層到知識層。AI 3.0也必須解決數據安全、個人隱私以及社會安全、人類安全等核心問題。知識聯邦的安全人工智慧生態系統為AI 3.0奠定了堅實的基石。知識聯邦的理論、算法和智邦平臺的實現機制,支持從數據到知識的發現、融合、歸納、推理及演繹的各個層面,為走向AI 3.0鋪平道路。作為知識聯邦生態的重要組成部分,監管、仲裁和評價機制也為未來AI 3.0的社會安全保障提供理論支撐和實踐經驗。
作為國產原創、自主可控、國際領先的技術,我們相信知識聯邦的理論體系以及智邦平臺的實踐必將為中國率先突破AI 3.0做出微薄的貢獻。我們也希望知識聯邦和智邦平臺拋磚引玉,得到國內同行的大力支持、發展和應用,並建立起強有力的社區聯盟,群策群力,共同推進知識聯邦的發展、推廣並形成行業標準。
[1] Mugabi, Ivan. GDPR: General Data Protection Regulation.[OL],2018 10.13140/RG. 2.2.31039.41122.
[2] CCPA: California Consumer Privacy Act, [OL],2018, https://www.caprivacy.org/
[3] 《數據安全管理辦法(徵求意見稿)》,[OL],2019,http://www.gov.cn/xinwen/2019-05/28/content_5395524.htm
[4] JR/T 0171-2020《個人金融信息保護技術規範》[S], 2020,中國人民銀行
[5] GB/T 35273-2020《信息安全技術 個人信息安全規範》[S],2020
[6] GB/T 37932-2019《信息安全技術 數據交易服務安全要求》[S],2019
[7] 中共中央國務院《關於構建更加完善的要素市場化配置體制機制的意見》[OL],2020, http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm
[8] Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. [B] Basic Books, 2018.
[9] Ackhoff, R. From Data to Wisdom. Journal of Applied Systems Analysis, [J], 1989. 16. 3-9.
[10] Sheth, A.P., & Larson, J.A., Federated database systems for managing distributed, heterogeneous, and autonomous databases, [J],1990, ACM Computing Surveys, 22(3), 183-236.
[11] Hongyu Li, Dan Meng, Hong Wang, and Xiaolin Li, Knowledge Federation: A Unified and Hierarchical Privacy-Preserving AI Framework, [J], 2020, arXiv:2002.01647
[12] Konen, J., Mcmahan, H.B., Yu, F.X., Richtárik, Peter, Suresh, A.T., & Bacon, D. Federated learning: strategies for improving communication efficiency,[J],2016, arXiv:1610.05492.
[13] Yang, Q.,Liu, Y.,Chen, T.,Tong, Y. Federated machine learning: concept and applications,[J],2019,ACM Transactions on Intelligent Systems, 10(2), 12.1-12.
[14] Kairouz, Peter, H. Brendan McMahan, et al 「Advances and Open Problems in Federated Learning.」 ArXiv abs/1912.04977 (2019).
[15] Goldreich, Oded. Secure Multi-Party Computation. Manuscript, [B],1999. Preliminary Version.
[16] Cynthia Dwork, Differential Privacy: A Survey of Results, [C], International Conference on Theory and Applications of Models of Computation, pp:1-19, 2008
[17] Louis Aslett, Pedro Esperança, and Chris Holmes. Encrypted statistical machine learning: new privacy preserving methods [J], 2015, arXiv:1508.06845.
[18] Dowlin, Nathan & Gilad-Bachrach, Ran & Laine, Kim & Lauter, Kristin & Naehrig, Michael & Wernsing, John, CryptoNets: Applying Neural Networks to Encrypted Data with High Throughput and Accuracy, [TR],2016. MSR-TR-2016-3,1-12.
[19] Finn, Chelsea & Abbeel, Pieter & Levine, Sergey, Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, [J],2017, arXiv:1703.03400
[20] Shreya Sharma,Chaoping Xing,Yang Liu,Yan Kang: Secure and Efficient Federated Transfer Learning,[C],BigData 2019: 2569-2576
[21] Hinton, Geoffrey & Dean, Jeff & Vinyals, Oriol. Distilling the Knowledge in a Neural Network, [C], 2014.NIPS,1-9.
[22] Liwei Chen, Yansong Feng, Songfang Huang, Bingfeng Luo, Dongyan Zhao: Encoding implicit relation requirements for relation extraction: A joint inference approach. Artif. Intell. 265: 45-66 (2018)