近日,同盾科技人工智慧研究院深度學習首席專家李宏宇做客雷鋒網公開課,以《知識聯邦:開創數據「可用不可見」新局面》為題進行分享。
此前同盾在數據聯邦、聯邦學習和安全多方計算的基礎上演化出統一框架體系「知識聯邦」,並基於知識聯邦體系發布了國產原創、自主可控的智邦平臺(iBond)及《知識聯邦白皮書》。
本次課程中,李宏宇詳細講述了知識聯邦的技術細節,以及信用分評估、多頭共債風險、用戶體驗A/B test等多個典型場景的聯邦學習應用案例。
以下為李宏宇課程全場和互動問答精選,雷鋒網AI金融評論做了不影響原意的編輯:
天平兩端:數據隱私性和便利性
兩年前,我們接觸到區塊鏈和聯合建模中數據安全需求,就已在探索聯邦學習應用。
近年來聯邦學習熱度變高,一個主要原因還是數據孤島現象,不僅僅有邏輯上的存在,也有物理上的。不止特徵變量是孤島,也可能是更關鍵的學習當中的標籤,形成了割裂的形象。
在機構間,尤其政府部門,很多數據沒有充分共享。又比如醫療,保險公司希望用醫院的數據做健康險或壽險的風險評估。銀行和稅務,也希望通過銀稅合作來獲取客戶的風險評估信息。
企業內部也如此:集團化的企業公司越來越大,子公司、分公司,就連部門內部的系統,都可能是自己分別開發的,數據之間完全孤立。
再微觀一點,每個用戶的數據都有很大的價值,想要生成一組通用的用戶畫像,要獲取到足夠多的用戶數據非常困難。
消除行業數據孤島現象,讓數據相互之間協作起來,必然是未來發展趨勢。
另一種現象,就是隱私換便利,數據不斷地洩露導致詐騙。
為什麼會不斷洩露?很大的一個原因,現在免費使用一些APP時,使用前都要用戶授權,獲取相關數據。這些其實都是你的個人隱私,個別內部人員可能會拿著你的數據對外變現,產生詐騙行為。
用戶隱私都赤裸裸暴露在網絡的服務提供者面前,個人隱私當成商品買賣已經是非常普遍的現象。有調研顯示,70%以上的社會公眾對於當前他們的個人信息是沒有安全感的。
近期也有傳聞說國外黑客論壇在出售中國很多金融機構的信息。不一定真實,但很多人心裡也會緊張。
現在國際上和國內上的立法慢慢出現,這兩年中國在數據安全和隱私保護相關已經做了很大的工作。
2019年有數據安全管理辦法,這也可能會是未來數據安全法的早期版本;數據交易服務安全要求也做了一些相應的新規定。今年3月份有個人金融信息保護技術的規範。
想要這些數據完全閉塞,不共享數據,這不現實,要把這些有經濟價值的數據充分利用起來。這就要在數據的隱私性和便利性之間尋求平衡。也正是這樣隱私保護的需求,未來會出現一系列新的技術浪潮。
有很多人對數據安全沒有非常清晰的認識。這裡我借用數據安全能力成熟度模型的定義來分享。
數據安全的核心,其實是以數據為中心的安全,它的目的仍然是保護數據的可用性、完整性和機密性。數據在安全的同時,要保證它可用。
合法合規的情況下,怎樣做數據交易?它的定義是,在數據供需雙方以數據商品作為交易對象。
這裡的重點就是:數據商品是什麼?直接拿原始數據買賣,屬於數據商品,而對原始數據加工處理後的一些數據衍生產品也屬於數據商品。
另外一個更被大家關心的,就是隱私保護,在國內更多時候會稱之為個人信息。
什麼是個人信息?所有能夠單獨或結合識別特定自然人身份的那些信息,甚至是反映活動情況的信息,都叫個人信息。
什麼是共享?如果你是信息的控制者,你將信息共享給對方,就讓對方擁有了控制權,在這之後你可能就沒有撤回或是拒絕的權利了。
這是共享最大的一個痛點,新版的個人信息安全規範裡面會看到很多關於信息共享的要求。
有用性,這是數據的一個非常重要的特點,就是數據對於應用一定要有具體的含義,要不然這個數據就沒有價值了。
為打破數據割裂和避免隱私洩露,數據可用不可見就成為一個重要的目標。數據可用不可見,即充分利用對各方的數據,讓數據保持對外開放,同時能夠讓數據不直接共享,不離開機構或個人。
在楊強老師的課程裡有提到過,數據不動模型動,這是能夠解決數據可用不可見的一種方式。但它的核心是要去訓練一個模型。而數據可用不可見,不一定需要做建模這件事。
還有很多時候可能只是想做計算,這就不再是訓練模型的事情,而是開放和不共享的問題。
開放不共享,就像國家之間在能源材料的合作中,每個國家有一些核心資源如鐵礦石,類似於機構的基本生產數據。
很多國家禁止出口這種核心的資源,相當於是不能直接共享。但對於鐵礦石加工後的鋼鐵製品,他們卻開放出口的。
也就是說,數據經過加工之後,形成了一種半成品的形態,它是可以開放出去使用的,而不是用一種直接共享或直接訪問原始數據的方式。
這樣看來,我們其實可以也做到數據可用,但又不可見。換句話說就是,「懂你不認識你」。
「懂你不認識你」主要針對個人用戶。舉個例子,很多人的瀏覽習慣或行為會涉及到個人隱私,這些數據是不希望直接對外共享的。
但是我們又很希望能夠獲取到很多便利服務,讓手機更懂自己,在需要的時候能夠提供相應的推薦,讓軟體做得很智能、很貼心。這時就可以採用數據可用不可見的形式。
為了實現數據可用不可見這個目標,傳統的中心化計算模式,也就是大數據經常會做的中心化聚集,把數據存儲聚集再學習訓練,已經不能滿足要求。
中心化不可行,那就讓數據分散在各個機構形成,依然保留著所謂的小數據模式——相對來講是小數據,當然也有很多機構的數據量已經很大——採用分布式或去中心化方式計算或學習。
原始數據直接共享不可行,我們可以採用兩種方式,一是對數據進行加密,加密後也不破壞原始數據的統計特性。
第二種方式,可以將數據知識化,也就是說將數據轉化成為一種模型策略的知識,然後再把這些分散的知識聚合在一起,實現數據的可用。這就是知識聯邦的大致構想。
知識聯邦全景圖
知識聯邦從名字上看,有清晰的兩個主題:知識和聯邦。
什麼是知識?這個概念源自於我們談論數據和信息。
數據一般被認為是原始素材,客觀描述客觀事物的數量、屬性、位置等關係。
信息則是經過加工處理之後、具有邏輯關係的數據,通常會是對決策有價值。
知識,更多是在信息層上再進一步地歸納演繹之後,沉澱下來的有價值的信息。通常情況下,知識被認為是與決策有關的。
智慧是有了知識之後,才能進一步預測和判斷未來,這可能是未來智慧城市或智慧決策的目標。
數據、信息和知識經常被混用,三者的界定和使用者有很大關係。
比如某個經過加工的數據,它可能對某人而言是一種信息,但對另外一個人來說可能只是一個數據。
在某種語境下產生的一個知識,在另外的語境裡可能就是信息,甚至是根本沒有任何意義的數據。
從知識再跳到聯邦,其實聯邦才是我們的重心,其實想做的事情,最終是希望通過一種安全的方式解決數據孤島現象。
在知識聯邦裡,聯邦本質其實是一種數據的安全交換協議。
之前還有數據聯邦,其實它跟知識聯邦差別很大。數據聯邦更多是一種數據集成方法,它實際上就是聯邦資料庫系統,將不同來源的資料庫集成之後方便查詢。關鍵是它不涉及到隱私保護的機制。
知識聯邦其實是一套理論框架體系,目的是將數據聯合起來,轉換成為有價值的知識,同時在聯合的過程當中採用一些安全的數據交換協議。目的是有效利用各參與方的數據來進行知識的共創、共享和推理。
聯邦學習更強調怎樣訓練、學習、建模,創造知識。但事實上還有很多常識、先驗知識或領域知識不需要讓機器學習就可以去共享的,比如多源知識推理,這也屬於數據可用不可見。
在真正的實踐中,我們採用一種弱中心化方式。過去強中心化大數據集成方式是不可行的,主要是安全存在很大隱患。
但完全的去中心化,也很難兼顧效率。尤其是在進行共識計算的時候,效率非常低。弱中心化方式更多是一種強中心化和去中心化的折衷,在中心節點只進行計算,不對數據集成存儲,可以達到安全和效率的兼顧。
在知識聯邦的框架體系裡,我們不僅僅可以進行聯邦學習,同時也可以進行安全多方計算,也可以進行安全多方共享和安全多方推理。
事實上整個知識聯邦,與很多技術有一定關係,比如可執行環境和隱私計算。前者依託硬體,可以成為知識聯邦的一種硬體化實現方式。
隱私計算更關注的,是隱私數據從產生、收集、保存,甚至到銷毀,所有環節中保護(隱私數據)的方法。但在使用中,它偏於計算,而不包含學習的一些過程。
知識聯邦可以根據不同方式進行分類。
根據數據的特點分類分成跨樣本的聯邦、跨特徵的聯邦,甚至還有同時基於這兩種形式的複合型聯邦。
跨樣本的聯邦更多是同構的數據,數據特徵一致,但數據擁有方式不同。跨特徵的聯邦,更多會存在不同的機構間。當然這還是要有相同的、有交集的用戶才能進行跨特徵的聯邦。
除了這兩種形式之外,更複雜的是既要跨樣本又要跨特徵複合型聯邦。
根據聯邦應用目的分類可以分為聯邦計算、聯邦學習、聯邦推理等。剛才提到聯邦學習包含的主要是訓練和預測兩個階段。
最早谷歌做聯邦學習,更強調訓練。訓練結束後,模型預測直接發送到各個客戶端的手機,用戶自行預測。但在跨特徵聯邦,聯邦訓練和聯邦預測都會遇到非常複雜的問題。
聯邦計算,類似於安全多方計算。
聯邦推理,更多是知識層上的推理過程。
比如疫情期間,為了調查患者周圍的可疑人群,會涉及到很多數據,包括行為軌跡、社交網絡、住宿交通等等。
但這些放在一起不是單純再訓練,是想把已有的知識做更多的知識演繹,推理出來新的知識,最終鎖定嫌疑人群。
根據對象類型知識聯邦也可以分為是個體間、機構內和機構間的聯邦。機構間的聯邦大家都比較熟悉了,機構內部的聯邦其實也非常多。
比如大型跨國機構希望把在中國境內獲取到的數據,能夠幫助他們在東南亞、甚至是其他國家能夠有更大的幫助,但會涉及跨境數據交換的問題,此時機構內的聯邦就發生了。
根據聯邦階段分類分為信息層、模型層、認知層,和知識層聯邦。
信息層:主要發生在聯邦的數據轉到第三方的伺服器之前,需要先把所有數據加密,或通過某種形式轉換成為有價值的信息。
模型層:發生在模型訓練過程中,跟之前提到的聯邦訓練的過程實際上是一致的。
認知層:也發生在模型訓練過程中,但並不把模型參數聚集在一起聯動,而是把局部訓練之後產生的粗淺認知進行聯邦,變得更合理。
知識層:前面形成很多認知結果之後,把它存成知識庫。這種知識庫其實每一家機構都有,能夠組成一個知識網絡。如果在知識網絡上不斷推理和演繹,挖掘出更有價值的知識,能提前預判事情的發生,最終形成合理決策。
比如疫情爆發最終導致全球股票、期貨大跌; 比如黑龍江等地成為二次爆發疫情的高風險區,其實這些都是知識推理的過程。
具體來看,信息層聯邦在隱私保護方面,對加密技術要求更高。加密技術沒有到位,就無法很好保護參與方數據。所以信息層的聯邦一般要求數據脫敏加密之後,一定是以密文形式在第三方伺服器上計算。
信息層更多應用在聯邦計算的過程當中,比如金融經常出現的多頭共債問題。在大產品的運維和升級過程中,經常會做的比如A/B test,這些都可以在信息層完成。
信息層也可以做聯邦學習的工作,但它不是在每一個參與方向去做訓練學習,而是把所有的密文數據直接放在第三方伺服器上,再在密文上訓練學習。
除此之外,還可以在信息層上做聯邦檢索。比如失信人員黑名單的查詢,這也是一個普遍存在的需求。
跨特徵聯邦時,需要做的用戶對齊可以在信息層上完成。
模型層,是用本地數據訓練本地模型,把模型參數變化加密之後,傳送到第三方進行聚合。
認知層,是在每一個參與方訓練本地的數據,提取本地的模型的特徵表達,加密之後上傳到第三方伺服器,實現集成。
這種應用主要出現在多模態智能信貸、智能身份認證。
在跨樣本聯邦中,認知層有點類似於機器學習裡的集成學習,不過聯邦會更關心數據隱私保護。
關於知識聯邦的更多技術細節,可以查看我們近期發布的白皮書。
何為工業級應用產品智邦平臺?
智邦平臺的核心有四大模塊,第一是任務場景。
現在平臺中的任務場景還需要定製開發,一個場景需要定製一個模型。一個常見問題是,以前有很多面向不同任務場景已經建成的模型,現在還沒有辦法快速聯邦化。
第二個模塊是功能服務。智邦平臺解決的是真實應用中會遇到的問題,比如模型發布,參與方之間的數據貢獻怎麼衡量?費用怎麼統計?
第三個模塊是開放計算平臺。平臺會模塊化,並支持開放式、自動化建模,方便快速建模的操作。
第四個模塊是基礎設施。基礎設施更多是一些通用組件,提供底層服務。計算平臺和相關依賴採用容器化方式,能讓部署更方便快速。
除了四個核心模塊這裡有兩個關鍵的中間件,一是通信設施,二是數據交換沙箱。
跨樣本聯邦相對來講比較容易落地,但跨特徵聯邦必須要有這麼一個多元異構數據的交換沙箱才能夠完成,尤其是在內網外網的通訊。這裡涉及到的更多工作就不再展開了。
跨樣本時,有很多深度模型、樹模型都可以直接採用,但跨特徵聯邦很多模型需要定製。
尤其是在金融行業,大家更關心模型的可解釋性,所以很多時候都不用深度模型,而會選擇樹模型。智邦平臺就提供了包括深度模型、樹模型在內的一些聯邦算法可供用戶選擇
跨樣本聯邦中還有一個常見問題是,用戶數據太少,也就是小樣本的問題。平臺中也提供了基於小樣本進行聯邦(學習)的方案。
簡單來講,平臺三大亮點是:安全、智能和實用。平臺通過聯邦的數據交換沙箱和安全交換協議來解決安全性問題;平臺提供多種智能模型供大家自由選擇;同時從貢獻的評估到計費,平臺提供了一系列功能解決實際應用問題。
在網絡安全方面,將網絡安全域劃分成參與方的私有域、交換域和聯邦域三部分,數據交換發展在交換域,聯邦集成是在聯邦域完成。
在數據安全和隱私保護方面,從隱私數據處理到模型數據的傳輸,平臺提供了多種安全加密方式,保證不同機構間交集外所有用戶數據的安全性。
不過對於聯邦平臺的安全性和隱私保護等級,目前為止還沒有一個類似等保的標準,能對平臺工具進行等級認證。
事實上,對於數據安全,應該要從數據流通的全過程進行評估。對每一個涉及到數據隱私的地方,都要衡量採用的隱私技術所能達到的隱私保護等級。我們也在聯合多家單位一起推動相關等級認證標準的確立。
在金融行業應用中,很多時候大家弄不清楚哪些數據屬於隱私、敏感程度達到什麼程度。今年3月,央行出臺的個人金融信息保護技術規範,把很多金融信息分成了 C1、C2、C3的等級。根據敏感等級,可以採用不同的技術手段進行數據去標識化和脫敏。
在聯邦應用中,經常會涉及到的主要還是C2級數據。C1級敏感數據,更多是標記信息。不過C1、C2、C3的劃分也具有相對性,當相同的信息組合在一起,敏感度也會升級。所以考慮數據隱私保護,必須要在一開始就要做數據分級完整規劃。
總的來說,智邦平臺是參照知識聯邦體系打造出來的一站式聯邦平臺。平臺在算法能力方面,不僅支持聯邦學習,還支持安全多方計算;也提供了非常樸實有效的一些算法;同時提供了聯邦特徵選擇方法,來保證參與方的數據質量。
在安全機制方面,平臺提供了多種加密算法,比如在數據安全對齊中,平臺可以保證參與方交集外數據不會洩露。同時保證,標籤信息在訓練中不會參與傳輸。
而平臺最核心的聯邦數據安全交換沙箱則可以實現對數據標準化和脫敏處理,同時封裝了一系列數據安全交換協議,供聯邦使用。
在實施應用方面,平臺在本地計算可以採用Spark計算方式,效率高,也方便和現有的機構大數據生態打通。同時系統採用容器化方式,方便部署實施。
五大應用場景詳解
智能金融風控統建模方式裡,運營商如果沒有y數據,無法單獨建模;雙方又都不可能暴露自己隱私數據。
智邦平臺中會先由中間方協調者分發一個模型,然後分別基於本地的數據計算梯度。
儘管運營商沒有標籤信息,但平臺在這裡採用了計算換安全的方式,也是基於不經意傳輸(OT)方法,把所有可能梯度都匯集到有標籤的一方,讓它篩選和聚合。這時可以在y標籤沒有被傳輸的情況下,快速完成模型迭代。
當然,這可能會讓計算成本高一點,但聯邦建模的隱私性肯定是要遠遠大於傳統聯合建模。如果不考慮通信問題,這兩種建模方式的收斂速度基本上一致。準確性也差不多。
小微企業信貸智能信審企業信審相對更複雜,會有公開數據、自有數據或是第三方數據,各方數據匯集在一起,形成完整信息模型,這是很大的工作量,於是我們有了這樣一個信審模型。
不過如果能利用調查、工商、司法等信息,可以進一步做聯邦推理,這時的信審才能算是完整的。
用戶行為聯合建模這是典型的跨樣本應用場景,要做的是無感認證。
簡單說,輸入密碼的時候,我們每個人都有一些固定的輸入行為習慣,這些行為習慣能通過學習方法提取出相應特徵。
這就可以在密碼保護的同時,加一層無感認證,在輸密碼的時候自動判斷用戶行為,判斷輸密碼的是否為用戶本人。
但是每個用戶端不可能暴露自己的數據,同時也很難採集到每個用戶很多行為數據,這就要用到基於小樣本的聯邦元學習。
聯邦元學習的隱私性肯定會要大於非聯邦方式;準確率也會比非元學習高很多。
多頭共債累積風險聯邦計算很多機構都借貸評估時都會面臨一個問題:這個用戶有沒有在其他家做過貸款?他的風險是不是已經透支得差不多了?
這時就希望能得到很多其他機構的數據,這個過程通常不需要去訓練學習,而是會利用一些簡單的知識進行判斷。
累計借貸風險可以通過安全的統計計算方式,在保證各家數據隱私不會洩露的前提下,匯總計算出該用戶的累計借貸風險。
用戶體驗A/B test在自動化大運維平臺體系做A/B test,我們通常會分流出來一批用戶,然後判斷軟體上的某些改變會否讓他們的瀏覽行為習慣發生變化,是否會對他們有偏好上的影響。
我們可以統計用戶的信息,但不是直接收集用戶操作行為數據,而是分別在用戶端對他們的行為習慣進行統計計算,最終形成整體的統計特徵作為統籌決策的依據。
現實應用中,我們會面對很多分散的小數據,知識聯邦的目標是通過安全多方計算和學習,做到數據可用不可見,同時知識共建可共享。
智邦平臺作為知識聯邦參照實現的聯邦平臺,會逐漸形成一套開放的作業系統,用戶可以組建和參與不同的任務聯盟,或者從模型商店中選用不同的模型。系統逐步開放開源給大家,讓更多用戶參與其中,這也是我們整個智能開放作業系統的願景。
智邦平臺對銀行消金非常有價值,可以持續提升其核心競爭力,並提高其風控質量,讓其數據價值變現。同時,也可以幫助相應機構提升行業影響力,並滿足監管對於數據安全和隱私保護的要求。
總結一下,知識聯邦的落地實施有三個重點:
首先是連接,也就是連接多方,讓多方參與進來,才會有聯邦數據安全交換的問題。其次是智能,安全多方應用最終目的還是智能化應用,從多方數據中安全的提取和利用智能知識才是關鍵。最後是開放,一個體系框架的發展和落地應用需要大家廣泛的參與。
知識聯邦是一個開放的體系,智邦平臺也是一個開放的平臺,未來會逐漸開放出去,和大家合作共贏。
互動問答精選
問:一個子模型被攻擊,在模型聯盟過程當中會造成怎樣的安全風險?是否存在較完善的防禦策略?
李宏宇:其實模型攻防策略,不只是在聯邦過程產生,現在很多模型訓練都會遇到,這些策略都可以在聯邦中使用。如果子模型只是被幾次攻擊,而整體數據量比較大的話,在長時間的訓練過程中,攻擊的影響會逐漸退化掉。
另外,如果其他參與方很多且數據量非常大的時候,一個參與方的模型被攻擊,相對影響還是會有,但不會那麼明顯。
問:怎麼分配利益?如何衡量各方的貢獻?
李宏宇:智邦平臺提供了聯邦特徵選擇的方法,來保證用戶數據質量,遴選那些對於整個模型精度有提升、有幫助的特徵。模型精度提升的效果就是衡量貢獻並進行利益分配的一個標準。貢獻度評估方法其實有很多種,但在聯邦應用中落地實施還需要進一步技術突破。
問:聯邦學習或知識聯盟是否只是大廠的機會?
李宏宇:倒不一定。聯合建模也好,做聯邦也好,這都是應用導向的。但現在最困難的一個問題是,怎樣把這機構間多元異構數據給標準化和統一化,這才是最大的痛點,大廠也不一定能解決這個問題。
現在的關鍵是誰能把這個問題解決掉,其它建模或計算就都可以在這樣的基礎平臺上去完成,並創造價值。各種企業都有機會。
問:準確性提升算誰的?
李宏宇:在整個聯邦過程中,模型提升通常有一定的應用目的。通常會有一家模型需求方,用自有的數據訓練出的準確度不高,但是如果引入其它聯邦方的數據時,精度就會大大提升。這個時候準確性提升的功勞是誰的?這個問題顯而易見,難的是如何量化這種貢獻。
問:樣本對齊和加密模型訓練與對策,區別在哪裡?
李宏宇:樣本對齊是發生在模型聯邦訓練之前的一個工作,主要是尋找參與方之間的共同用戶(交集)。樣本對齊面臨最多的問題是,參與方都不希望交集外的數據還被洩露出去。現在智邦平臺做到已經達成了這個目標。
樣本對齊要想做到充分安全,也就是交集內用戶也不對外可見,還是有很大挑戰的,這需要與訓練過程結合在一起才能實現。
後臺回復「知識聯邦」 ,即可獲得完整版《知識聯邦白皮書》。
雷鋒網雷鋒網雷鋒網