數字經濟時代,我們一邊享受著數據爆發式增長帶來的便利,一邊也困在數據安全中難以自拔。小到詐騙簡訊、快遞信息,大到財務狀況、健康狀況、網絡足跡,我們的個人隱私數據面臨著前所未有的挑戰。
而對於銀行來說,數據安全更是一條「生命線」。一次事故的發生,可能造成億萬級的損失,數億家庭將受到影響。
值此跨年之際,雷鋒網以「線上雲峰會」的形式,邀請數位化風控、數位化營銷、數位化客服、數據平臺、數據中臺、數據安全、資料庫、銀行雲、銀行RPA、銀行業務系統,十大銀行賽道裡的科技專家,分享他們對於銀行科技的理解。
在「數據安全」這一賽道,我們邀請到微眾銀行區塊鏈安全科學家嚴強博士,他將從技術、業務、合規等角度,分享他對於銀行「數據隱私」的理解。
核心觀點:
以下為嚴強博士的演講內容,雷鋒網(公眾號:雷鋒網)AI金融評論作了不改變原意的編輯:
大家好,我是來自微眾銀行區塊鏈的嚴強,今天很榮幸受到雷鋒網的邀請,在此和大家分享數字經濟中關於數據隱私的一些思考。
數字經濟中最核心的要素就是數據,對於很多業務而言,要獲取高質量的數據是首要要務,近幾年的趨勢是,對於數據隱私的立法正在不斷的細化、完善。
而此時傳統的數據業務,在這個過程中就可能不太適用。
新數字經濟時代的數據之道,在新的數據隱私合規框架下勢必將發生顯著變化,這些變化對實際的行業有哪些影響、有哪些具體改變?以及為了應對這樣的改變,有哪些技術手段可以更好地調節自身?
新數字經濟時代的數據之道首先,本次分享的第一部分——新的數據之道。
本次雲峰會的主題是AI,眾所周知,AI在很大程度上依賴於數據,對於數據本身,根據業務形態的不同,歷史上也出現了多種提法,包括了大數據、小數據、暗數據、還有弱數據,現在還有另類數據,指的是像衛星地圖或者其他的一些傳感器的數據。
顯而易見,作為我們在信息化、設計智能化的過程中必要的燃料,如果沒有數據,很多業務將無法得以開展。
同時,我們也注意到,AI算法或者其他大數據算法發展至今,相對而言還是比較成熟的。所以,對於行業中的參與者來講,很多時候核心競爭力就體現在於掌控數據量的多寡。
也正因為如此,新的立法也對獲得數據和使用數據進行價值發掘的過程產生了顯著影響。數據不再是純粹的一種信息表達,因為新的立法框架引入了一個新的概念——數據權益。
雖然目前數據安全法還只是處於草案的狀態,但是草案明確提出要關注數據本身的使用,需要在保護公民組織、相關權益的前提下,促進數據為關鍵要素的經濟發展,以此增進民眾福祉。
同時,反觀國際社會的《GDPR》,它對數據的使用,尤其在數據在商用領域的使用提出了一個非常嚴格的要求,其中的一點,就是懲罰特別高,可能是4%的集團前一年的全球總收入,或者2000萬元兩者取其大,所以數據隱私的違規成本十分高昂。
數據權益代表了數據的權利和利益,對傳統業務影響特別大的一點,就是這裡的數據權益不僅僅是作用在數據的收集階段,還貫穿在數據流轉的整個生命周期,包括數據的使用、存儲、數據的遺忘。
這些改變顯然會對現在的行業產生很大的影響,尤其是數據已成為一個不可或缺的生產要素,在大數據、人工智慧算法都很成熟的條件下,是智能化進展的必不可缺的一個手段,但是如果缺乏數據應該怎麼辦呢?
在回答這個問題之前,我們必須要釐清一個關係,在新的數據之道中,數據生產者跟數據消費者之間的合作關係發生了一個本質性的變化。
在立法之前,二者之間很多時候是買賣關係,在獲得數據之後,就可以對其進行加工、利用,或者是提供服務,獲得完整的收益。
對數據生產者或者是用戶以及其他的供數機構而言,在數據授權或者數據公布之後,它很多時候並沒有權利對後續的數據使用直接進行幹涉,這個權利之前是不受法律保護的。
而在新的立法框架中,兩者之間已經從買賣關係轉變成了租賃關係。
這就意味著,作為數據生產者,從來沒有放棄對自己數據的權利,哪怕在對方的平臺上使用了對方的服務,在這部分產生的數據僅僅是以租賃的方式提供給對方。
目前很多APP都完善了隱私政策,披露並承諾了數據的使用方式,這也是數據使用租賃關係的一種體現。
平臺或服務方不再擁有數據的所有權,而是需要跟數據的生產方協定如何使用數據,包括收益權怎麼進行分配。
除了分配的問題之外,最重要的一點——作為數據生產方,它實際上有權幹涉或禁止自己數據的使用方式,以控制自身的隱私風險、拒絕不公平的利益分配方式,這就是對業務或行業而言,一個最大的改變。
在新的法規下,具體要達到一個什麼樣的要求?為什麼這個要求很多時候會引起熱議?
《個人金融信息保護技術規範》中,對隱私數據生命周期的6個階段進行了描述,從收集、傳輸、存儲、使用、刪除到銷毀,每個階段都會有不同的數據權益保護的要求,其中也會涉及到一些不同的技術規範。
同時,換個角度,整個隱私合規範疇下的數據權益可以被分成兩類,除了對傳統目標——數據內容的保護,還增加了一類是對數據權利的保障。
正是後者,可能會對於業務產生較大的影響,具體包括數據遺忘權、限制使用權等等。
由此就帶來一個焦點問題——業務創新和隱私保護如何兼顧,仔細分析之後,也許他倆之間並不是一對不可調和的矛盾。
在新的法規生效之前,假定業務所用的數據是一個餅,在法規生效了之後,這張餅變小了,因為用戶本身已經不是原來的買賣關係,演變成為租賃關係,有些用戶可能行使了權利,或因數據收益和隱私風險不對等,不願意再貢獻出數據。
此時,對應業務的可用數據量變小了,數據價值隨之變小。這裡就可能出現為保障數據權益,影響了業務規模的零和博弈困局。
但是,如果我們提升一個層面,在行業的角度上來看,這裡的零和博弈並不是絕對的。
縱觀這個行業,在法律法規生效之前,實際上已經出現了數據區域化導致的「數據荒」。大量的數據可能已經在一些大機構中匯集,而對於中小企業來講,想要獲得數據是非常困難的。
一個典型的例子,就是對網絡爬蟲的限制。
在那些有利益衝突的大機構之間,他們開放數據訪問的意願很低,而對於整個數字經濟而言,數據的流通本身就已經處於一定程度的受限狀態。
如果能夠盤活所有的存量數據,打通在大機構或者在更大範圍裡的數據源,讓其更好地流通起來,就能把餅做大,產生更大的價值。而實現這一目標的關鍵在於引入技術手段,有效保障隱私數據的權利。
具體到AI和大數據,就需要從傳統的集中式算法系統升級到隱私計算,在新的數據之道中,打消數據協作參與者的隱私顧慮。
數據隱私驅動的行業巨變隱私立法的完善和用戶隱私意識的覺醒造成了深遠的影響,不僅改變了原有的數據之道,對數據業務帶來不同層面的變化。
先說技術面,早期在談到隱私保護時,很多時候僅僅是加密,對數據進行脫敏,在數據處理階段做了一些工作,就被看成是對數據有非常強的隱私保護了,但是,放在AI或者隱私計算大的環境裡來看,實際上是不完善的。所以,在技術層面上,我們如果真的要去落實,實際上需要引入更多的前沿技術。
業務層面,現在越來越多的用戶意識到數據本身是有價值的。對於隱私而言,他對自己個人的風險的認識也越來越全面,這些因素勢必也會影響用戶的行為,對基於數據的AI的業務產生影響。
合規層面,合規主要是指新的合規業務,尤其是全生命周期的合規要求,需要對現有業務模式進行一些改變,否則一旦涉足海外市場,難免會遇到合規風險。
以下,在第二部分,將分技術、業務、合規三個層面進行具體展開。
先看技術層面,這裡非常重要的一點就是信息化技術發展得很快,產生的數據會越來越多,尤其是現在大家都在談5G、物聯網。
什麼概念?目前,現在很多的數據都是以人為單位,每個人會產生很多數據,但是,在5G、物聯網普及的時候,很多時候數據產生的單位是以物品為概念的,不再受限於70億人口數量的限制,上萬億的各種智能設備,其中必然會產生海量的數據,並具有不同的權屬。
對應地,便引出了「數據孤島」問題。一些看法認為,因為有合規要求,所以才會產生孤島。因為合規需要對這些數據進行保護,我們不能讓它互通,但實際上這個說法並不那麼確切,既然承認數據有價值,也應該承認「數據孤島」是原生態。
舉個例子,比如資產是有價值的,不會隨隨便便要求大家把自己的資產共享出來,雖然在學術論文中也有資產孤島的提法。所以很多時候我們需要尊重這些「孤島」的存在。
從技術層面上需要怎麼做呢?這裡有幾個關鍵詞——多方、海量、高維、異構。
對於後三者,大數據、傳統AI發展了這麼多年,都有比較好的解決方案,但是,唯獨多方目前還有很多挑戰。
為什麼?不妨看看多方隱私大數據需要實現的效果。
最典型的效果之一,便是數據不出庫,這是一個非常形象的說法,但其本身並不確切,因為數據不出庫並不代表隱私信息不出庫,不代表敏感信息不出庫。
打個比方,在一個發布會上答記者問,提問某某是否為敏感人群或敏感事件,主辦方回復「對此我方無法進行評價」,很多時候提問者可以依據回答的語氣和用詞可以做出一個主觀的判斷——大概率還是敏感。
數據業務也是如此。
數據不出庫,字面意義就是數據明文不出庫,傳統的幾個方案包括數據哈希出庫、數據加密出庫、數據脫敏出庫,在AI領域,模型梯度出庫,這些方式是否真的安全?
更傳統的方式如內容打碼 、K匿名、差分隱私都可以用上。這裡強調一點,每一種方法的能力都是有邊界的,實際上都需要一些配套的安全假設。
舉個差分隱私的例子,在2013年和2018年計算理論頂會上,分別有一篇論文分析了差分隱私在處理高維大數據上的理論局限性。標題是如果我們要處理高維大數據,這是一個計算困難性問題,計算困難性問題意味著很多時候難以實現,所以差分隱私也是有能力邊界的,我們需要根據實際的業務場景選擇是否適用。
數據不出庫只是一類手段,我們最終的目標效果是什麼?可用不可見?
值得注意的是,「可用不可見」只是一個小目標,還有很多問題沒有得到妥善解答,比如誰可用誰不可見,限定用途的使用次數、使用方式有沒有限制,對於數據的主體,能不能對可用不可見的方式進行控制。
很多時候在數據協作時,尤其是在AI的學習中,結果正確性如何驗證也是一個非常重要的考量點。現在很多智能化的業務也涉及到一些相對而言比較敏感的服務,會導致比較敏感的後果,如果誤判了怎麼辦?如果進行多方協作的結果不正確,如何找出惡意的參與方?這些問題「可用不可見」都沒有直接回答,所以它只是一個小目標。
為了實現我們的大目標,剛才提到的哪些額外的數據隱私保護點:不僅僅是需要一類技術,還可能需要融合多類技術,並針對不同場景進行優化。
三個主要的技術路線如下:
TEE可信計算。TEE的優點是它本身是個硬體加速的隔離環境,在計算上沒有任何限制,什麼業務都能跑,而且開發很友好。但是從設計上需要一個中心化的部署方,它只能有一個可信根。而且目前主流的雲廠商並不支持TEE的雲部署。
所以大家在實際部署上會不可避免的回到物理部署的範疇,在實際的使用中會有一些阻礙。
相對於可信計算而言,聯邦學習和安全多方計算對硬體的依賴則小很多,但同時也有一定的取捨。
聯邦學習,擅長各類模型的聯合訓練跟推演,與現有數據業務協作模式十分貼合。
安全多方計算,是一個相對歷史悠久的技術,近五六年來有很多比較成熟的工業方案出現,尤其在學術界,目前更關注的可用性問題也得到了很大的提升,同時支持各類通用計算和各類安全模型,比較獨特的優勢是它可以支持惡意模型。
什麼是惡意模型?如果有多個參與方一起去做模型訓練或聯合推演,只要有一個人做惡,就一定能在第一時間或者在最後結果產生之前終止運算,由此避免做惡方影響最後結果的正確性。
在關鍵的業務場景中,這是非常有必要的,作為取捨,其性能相對會低一些。
回到隱私大數據,海量、高維、異構、多方,如何很好的支持它們?如果出現爭議,尤其是在關鍵業務中出現爭議,怎麼高效識別作惡的計算參與方,這些都是需要我們在技術上應對的挑戰。
下一個就是業務層面的挑戰,如果一個業務要採用機器學習,隱私計算,以及相對而言比較智能的數據驅動方案,這裡有一些重要的考量點。
如果是諮詢公司給的報告,一般有兩個維度,一個是商業價值,另外就是成熟度或者可信度。
特別推薦大家關注的一個新維度,就是數據隱私相關風險。
如果設計一個多方協作,在整個協作過程中會不會產生嚴重的隱私風險?或者不只是模型訓練,我們使用的模型推演或者其他的通過隱私計算產生報表類的一些功能。如果因為有一方作惡,產生了一些錯誤的結果,後果的嚴重性如何?
這一新維度會直接影響用戶體驗,如果是應用在民生領域或者金融領域,有些服務非常敏感,如果機器誤判,後果對於當事人而言可能是相當嚴重的。
這也帶來一個重要的關聯問題。如果用戶或合作機構有隱私顧慮,是否存在技術手段影響現有的業務系統,造成額外的隱私風險。
這裡具體列舉了幾類風險。
如何利用一些攻擊的手段,針對現在一些聯合的學習的訓練或者推演,如果攻擊者在聯合模型訓練時,它是否能夠推測出合作方的隱私樣本數據,或者在訓練過程中是否能夠注入對己方有利的偏見。
同時,不僅是針對訓練,我沒有參與的推演,訓練我能不能在推演的時候去提取出你相對訓練的隱私數據,或者推演我能否操作你推薦的結果。
從數據安全角度而言,這些都是很關鍵的問題,普通人很多時候可能是難以實施的,因為機器學習也好,隱私就本身就是一個相對比較前沿複雜的技術,所以——對抗魔法需要使用魔法。
風險一:這是一篇 CCS發表於2017年的論文,這些攻擊本身可能是一個實驗性質的,但具有一定的借鑑意義。
這篇論文的結論:只要是聯合訓練,如果能夠得到明文梯度,就一定能夠或者有一個極大的概率可以獲得合作方的隱私數據。
原本可能認為通過聯合訓練出去的只是模型梯度,並不直接包含隱私數據,但是由於攻擊方也使用了機器學習的算法,用了一個生成對抗網絡的GAN的技術,從梯度信息還原出合作方的訓練樣本。這個實驗中主要針對深度神經網絡學習,實驗中展示的還原成功率還是相當高的。
論文同時也指出,即便額外使用了全局差分隱私,對攻擊結果影響不大。
從PPT截圖中,可以看到作者從梯度還原出了對方的訓練樣本照片,而且在使用差分隱私之後,還原出的照片跟原本的照片實際上差距也不是特別大。所以從業務層面來說,這還是一個比較顯著的風險,大家需要警惕。
風險二:如果共同參與一個聯合模型訓練,是不是有可能注入偏見?答案是肯定的,但是需要多大的代價?
這是2018年一篇發表在S&P上的頂會論文,指出在某些線性回歸模型中,線性回歸模型在很多風控或者類似的一種預測模型中還是用得比較廣泛的,因為具備良好的解釋性。作者展示了,只需要12%的惡意樣本,就可以引起顯著的預測偏見。
跟直覺上可能需要50~ 60%或者過半的樣本非常不一樣。
這裡採用的也是魔法對抗,但並不是隨機注入樣本,因為參與聯合訓練時,參與者對模型本身是有認知的,所以涉及到一個優化問題,通過優化儘量減少產生偏見所需要的樣本比例。
因此,我們在做聯合訓練的時候,也要將其考慮進去。有沒有可能有一個參與方只貢獻12%或者更低的數據,但他試圖導致偏移整個模型的效果?在沒有動機時的風險比較低,但是如果有動機我們則需要加倍小心。
風險三:沒有參加模型訓練,只是使用API,能不能猜出對應的隱私數據?作者提出了一個很重要的點,答案是有可能。
論文中的實驗展示了,在一個神經網絡中,只要拿到輸出的標籤,很多時候就能預測的結果,結合它的置信度和網絡的結構,就能夠推測還原出訓練對應標籤的樣本。
比如得到的標籤是張三和置信度,很多置信度是有小數點的,例如0.837,然後我就通過它的一個類似的優化算法,做一個還原重建,最後能夠相對好的還原出這個樣本。
跟之前相比,因為之前是直接拿到梯度的,而現在沒有拿到訓練的梯度,效果稍差一點,但是也可以很容易識別出左邊跟右邊的照片是屬於同一個人。
作者做了兩組實驗,一組是對於神經網絡的,另外一組是對於決策樹的,決策樹在很多風控模型中也有。很有意思的一點,就是拿決策樹做風控模型會不會被別人反推出我們的訓練樣本?
如果給出來的置信區間的精度足夠高,還是有很大的概率可以推測出來,決策樹在論文中甚至實現了一個黑盒的效果。
什麼是黑盒效果?我不知道你的決策樹的樣子,只知道你的最後的結果跟輸出的置信度。我通過不斷的查詢,最後反推出你實際的樣本。但我們也具體應對方式,對模型API進行安全加固。
風險四:不再是想推測出訓練樣本,但是想操縱最後的推演結果,可不可行?可行!
這篇論文講的是,如果要在人臉識別系統中假扮另外一個人,最少需要什麼?答案是需要這樣一副眼鏡,這副眼鏡不是隨便產生的,它是通過類似的機器學習算法,一個比較偏統計的黑盒優化算法得出來的。
對於同一個人,查詢API 25次,通過其返回值,做一個黑盒的優化,逼近其特徵值,在原有的臉部的圖像做一個修正,最後就產生了這副眼鏡上五彩斑斕的樣式,在作者的實驗中實現了100%的偽裝率,只要戴一副眼鏡,可能被識別成另外一個人。
同時,只要戴一副眼鏡,基於機器學習的人臉檢測就可能失效。
由此可見,這些風險是客觀存在的,所以我們不僅要考慮算法的智能性,很多時候還是要全面考量安全加固措施,否則就有可能引入意料之外的業務風險。
最後一個層面——合規面,合規面相對而言還是一個比較新的概念,一年前,大家還在爭論通訊錄、頭像數據的歸屬,現在明確都是屬於用戶的。
不僅如此,用戶在使用的過程中有很多環節,有些特殊環境有特殊的合規要求。
其中特別想談的兩點,就是限定數據用途跟數據被遺忘權,限定數據用途就是我給到你一個數據,只能用於廣告推薦,你如何保證只能用於廣告推薦,要在合規的框架下,不是用戶來自證,而是企業來自證,這對整個技術方案或者基礎設施是有要求的。
因為企業沒法自證,在用到數據時要告訴用戶,具體算法和系統在設計上的用途。
另外就是數據被遺忘權,現在分別來看二者的影響。
限定數據用途,是一個大改變。我們原來很多系統平臺都是明文學習的,現在很可能要轉向密文學習。這裡有一些過渡方案:
比如可信計算,相對而言改造成本比較低。因為它是一個容器化的隔離計算的方案,一個項目被稱作閱後即焚,90%以上就是可信計算。
這裡也有個問題,我們需要找到一個可信的第三方,因為這個容器本身的真實性、可靠性或者它的隱私性,需要一個中心化的可信機來保證,然而它是一個單點的,很難做到多點,如果我們多方協作中找不到可信的第三方,整個業務就會很難推進。
所以,在多數情況下,我們會更傾向於聯邦學習和安全多方計算。
第二點,被遺忘權,這也是因為合規產生的一個新需求。什麼是被遺忘權?
很多時候用戶是流動的,例如用戶今天在平臺上註冊,但是過一段時間後因為種種原因而註銷了帳戶,這是一個非常關鍵的點。
用戶一旦註銷,作為企業方,就需要刪除用戶數據對現有業務模型的影響。
但很多時候這模型都是一個非常複雜的過程,一個用戶的數據可能會涉及到模型的很多方面,想完全的消除特定用戶數據的影響是很難的。
目前非常確定的合規的解決手段就是重建,我們把原來的數據、原來模型推倒重來,這樣就會保證沒有用到被刪除用戶的數據,但是對業務的影響也很大。
這裡還有一些其它的思路,我們能否去將模型進行模塊化,每次儘量只更新用戶相關的一些數據,然後再引入遷移學習等手段來試圖減少模型重新訓練的成本。
目前來講,這還是一個開放性的問題,需要大家獻計獻策。
合規方面最後一點,不得不提的就是監管審計,我們為了限制用途,很多時候會需要使用密文訓練,或者用密文進行推演或者進行一些計算。
在強監管的要求下,這個過程也會對監管帶來一些新的需求。但是如果我們要實現跨域監管,比如跨境或者更大範圍內的數據互通,挑戰性還是存在的。
以一帶一路為例,其中涉及到很多國家,比如義大利,就是一個歐盟國家。
如何更好的支持監管,尤其是對隱私大數據,怎麼更好的處理、實現,無需參與方配合,無需給到解密的密鑰,監管方怎麼能夠自主查驗所需要的內容,同時,作為配合方,如何最小化信息的披露,實現分布式的信任,這裡就需要用到區塊鏈相關技術了。
微眾銀行在數據隱私領域的前沿探索談完了以上方面,在應對數據隱私驅動行業巨變的同時,我們需要一套完整的方案,在最後一部分,就不得不提「數據新基建」。
談到數據新基建,需要回歸到我們的原點——數據本身。
數據要產生自己的價值。除了那幾個關鍵詞——多方、海量、高維、異構,實際上還有一些其他特性,比如易複製性、非排他性、非競爭性,既別人拿到數據後,用100遍可能跟自身用一遍,沒有什麼差別。
而分散性就是有很多孤島,我們要尊重這些孤島,如何將它們連接起來,以及多樣性、價值聚合性、價值認知多樣性。
價值認知多樣性在國際社會上是一個比較重要的話題,對於一次隱私信息洩露,如果當事人覺得嚴重侵害了其隱私,可以要求巨額罰款。
我們很多時候也會有一種觀點,認為數據只有聚合才有價值,聚合是對公司有價值,但是單個數據是對個人是有價值的。
有些東西洩露後就會對個人的生活造成影響,比如醫療數據,這些都是切切實實的問題,但其認知性實際上是多樣性的,如何照顧好每一個個體,尤其是實現數據的生產要素化,需要提供一系列技術保障。
若要實現數據生產要素化,我們要構建一整套的方案以達成效果,我們要界定其產權,儲存和評估其價值,與最後的價值可流通。大方向都是圍繞價值而言,要確定數據的收益。
同時,我們也要控制數據的風險,風險來自隱私跟安全。為此,釋放數據要素生產力需要解決三大核心問題:安全存儲、可信傳輸以及協同生產。
最後,為了發展健康的數據產業生態,我們需要打通隱私數據協同生產的雙循環。
第一個循環指個人數據應用,即個人跟企業之間的數據互通,他們之間實際上是一個反饋關係。數據也不僅僅是停留在單個企業的,還可以在企業之間相互流轉,於是便引入了第二個循環,這裡會需要引入不同的技術能力來滿足、實現協同生產的效果。
在理想的情況下,這兩個循環之間還會進一步互惠互補,產生正向反饋,構成多方隱私大數據價值融合的良性大循環,顯著提升用戶體驗和企業效能。
為此,我們也做了一定的實踐並整理了一些案例,我們最近發布了一個白皮書,結合了多方面的技術以提升我們關鍵業務應用的隱私保障。
幾個比較典型的事例:
第一,粵澳健康碼互轉互認,就是在跨境時,數據如何在隱私合規的情況下進行可信轉化,以及在後臺數據不連通的情況下如何實現互通。
第二,醫療處方線上流轉,醫療處方本身涉及很多類別的隱私數據,而不僅僅是數字籤名和數據加密那麼簡單。
第三,綠色出行普惠平臺,這個項目結合了物聯網的能力,因為綠色普惠很多時候與跟車輛有關,如何將物聯網的數據以一種安全隱私的方式接入到平臺,完成對應的計算評分,也涉及到很多數據隱私的問題。
第四,聯合營銷,效果非常明顯,相比傳統方式,可以提升20%以上的廣告轉化率。
之前分享中,提到在使用聯合學習中可能存在的風險,但在實際部署中,我們會對方案進行一些隱私和安全的加強,值得一提的就是,我們不能夠簡單地相信一個方案所具有的能力而完全不提它的風險,還需要對其進行全方位的考量和評測。
長遠來看,希望數據新基建能夠採用相對可以管控的底層技術,更安全可控。
另外,可驗證的隱私性、安全性,而不只是貼上一個技術標籤,整體方案需要提供技術手段,允許用戶直接參與到數據授權和限定使用的過程中來。
最後,就是高效率的計算能力,因為每類技術各有所長,很多時候特別安全的技術,其計算能力可能沒有那麼強,所以我們需要做一些融合以找到一個最優的解決方案。
這裡和大家分享一組數字,對於千萬級的大數據隱私求交,目前可以做到三分鐘以內完成,萬次聯合的多方乘法計算,可以做到三毫秒以內,對於同時參與隱私計算的機構數則沒有限制。
回顧剛才的幾個關鍵詞,多方、海量、高維。
多方,不少傳統的方案都是一個兩方或三方的架構,既如果有第4個和第5個參與方同時參與隱私計算,要麼就是引入一個中心的協調方,中心協調方本身可能會洩密,這時的合作就很難進行了,但我們這邊沒有限制能夠在很安全的條件下實現這類需求。
大數據也是同樣的,實際上現在的隱私數據,包括政務部門,無論是人口或者其他方面的數據,千萬級別都算是偏小的,實際上也有很多上億的數據。如果不能夠很好的處理存儲量,很多應用難以得到使用。
最近央行頒發的一項相關技術標準,目前我們的所有的指標都是滿足這個標準,而且更有效。
這裡展示了我們主要的一個開源矩陣,以此構建我們的「數據新基建」的解決方案。
除了人工智慧之外,區塊鏈是承載數據信任和價值的最佳技術,對於隱私計算和AI應用中常見的數據品質、作惡溯源等難題,都可以通過區塊鏈進行互補或提升效果。
具體來看,區塊鏈板塊裡涵蓋了微眾銀行牽頭金鍊盟開源工作組開源的底層平臺——FISCO BCOS,還有消息協作平臺——WeEvent,分布式數字身份——WeIdentity,這些都是可以跟機器學習做密切的結合的,包括可視化的中間件——WeBASE,將數據連起來的跨鏈協作平臺——WeCross,聚焦數據隱私保護的場景式解決方案集——WeDPR。
我們努力的終極目標只有一個,希望構建一個這樣的基礎設施,以化解大家在數據行業中的技術難點、業務痛點,然後更好地在上面去開發應用、發展生態、全面釋放數據生產力。
這裡的矩陣結合了各方面的能力,最後實現了這樣的一個效果。當然很多具體的技術領域也是在積極探索中,也誠邀合作夥伴,與我們攜手共創更好的未來。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。