隱私計算+區塊鏈:一次具體場景下的詳細應用

2020-12-16 火星財經

免責聲明:本文旨在傳遞更多市場信息,不構成任何投資建議。文章僅代表作者觀點,不代表火星財經官方立場。

小編:記得關注哦

來源:碳鏈價值

原文標題:隱私計算+區塊鏈:一次具體場景下的詳細應用

在本文中,我們假設了一個非常具體的業務場景,在這個場景中說明應用隱私計算的詳細過程,以及區塊鏈在其中扮演的作用。

編者按:本文轉自公眾號「一個洋蔥」

作者:繆弘、毛葦

目前的人工智慧模型大多依賴海量數據的訓練,對於海量數據的需求導致了數據隱私問題的泛濫。而隱私計算可以實現在不聚合海量數據的前提下利用分散在多方的數據完成聚合計算和模型訓練,保證整個過程中每一方的數據都不會暴露出來,是大數據時代解決隱私問題的關鍵。在本文中,我們假設了一個非常具體的業務場景,在這個場景中說明應用隱私計算的詳細過程,以及區塊鏈在其中扮演的作用。

隱私計算是一類技術的統稱,其中包括安全多方計算、零知識證明、聯邦學習等。近年來,學術界對於隱私計算相關算法的研究有了長足的進步,也發展出了許多成熟的、高效的改進模型。我們研究了其中的一些模型框架,並且將這些框架嘗試應用於企業信息整合方面的實踐。

場景假設

我們假設這樣一個場景:每個企業有一個本地部署的信息中心。信息中心存儲了企業內部文檔、企業從外部獲取的市場信息、團隊成員之間的交流討論等數據。信息中心還集成了一個區塊鏈的節點,通過區塊鏈網絡實現受控的跨企業信息分享和協作。

在這樣的場景下,我們可以通過信息中心的數據計算出企業內部的最熱話題,代表著這家企業當下所關注的重點領域、新技術、發展趨勢等等。信息中心的數據涉及到企業的隱私,絕對不能對外洩露。而另一方面,同一個行業的企業都想知道整個行業的大趨勢,大家都在關注哪些事情,有什麼熱點事件,哪個技術現在大家應用的最多,等等。

這裡就有了隱私計算發揮作用的地方,在保證企業內部信息不外露的情況下,聯合所有企業的信息中心,通過區塊鏈網絡協調,完成全局的熱點話題計算,並將計算結果公開給參與計算的企業使用。

舉一個具體的例子:每個企業節點已經計算出了企業內部的最熱話題排行,和每個話題的熱度評分,我們需要在不暴露每個企業內部的最熱話題和評分的情況下,對多個企業的話題評分進行累加,最後得到全局的話題熱度排行。

比如,有三家企業部署了信息中心,在企業內部計算得到的熱點話題和熱度評分如下:

企業A:人工智慧(90),大數據(45),健康(21),金融(10)

企業B:大數據(87),數據分析(55),交易(32),新聞(21)

企業C:PHP(80),Java(70),大數據(54),人工智慧(31)

我們要基於上面的數據進行累加,得到全局的熱點話題排行榜:

大數據(186),人工智慧(121),PHP(80),Java(70)

並且最重要的是,在整個計算過程中,要保證企業A、B、C各自的熱點話題和評分不對外暴露。

簡化的問題:多節點安全數字求和

我們先考慮一個簡化的問題:多節點安全數字求和。假設有N(N>2)個節點,各個節點都知道彼此的存在,且可以互相通信;每個節點都持有一個隱私的數字,這N個節點想要求得這些隱私的數字的和,同時不希望暴露自己持有的隱私數字。

這個簡化的場景相對與原始場景,不需要考慮節點之間的通信問題,且每個節點只持有一個數,不需要考慮多個熱門話題的對齊問題,問題簡化為,如何在不洩露隱私數據的前提下,得到所有節點的持有數字之和的問題。

我們使用安全多方計算(MPC)的方法來解決這個問題。在使用安全三方計算協議(例如ABY3、SecureNN等)的情況下,如果只有3個節點(N=3),那麼能直接通過安全三方計算協議得到所有節點持有數字之和。但是,當節點數大於3個時(N>3),我們就無法直接通過安全三方計算協議得到最後的結果了,需要在安全三方計算協議的基礎上,進行進一步的算法設計(最新的研究已經有了支持任意多方安全計算的協議,比如SPDZ,但是出於工程化和方便使用的角度,我們採用了三方協議來實現這個功能)。

算法的具體步驟如下:

該算法的正確性是顯然的,現在我們要確保的是算法的安全性,即算法中各個節點間的隱私數據沒有被洩露:

算法第3步中,使用安全三方計算協議,保證了兩個節點進行求和的數字沒有洩露到外部,只有最後求和的結果暴露到了外部算法第3步中進行求和的數,只是原始隱私數字的一個拆分,進行求和計算的配對方也只能反推出這個拆分,無法得到原始的隱私數字算法第4步中,第3步的N個求和結果都暴露了出來,可以得到N條方程,共2N個未知數。每個節點只知道自身的兩個拆分數,所以對每個節點來說,共有2N-2個未知數。當2N-2>N,即N>2時,方程組沒有確定解,所以各個節點的隱私數字也沒有洩露更進一步:多節點安全的熱門話題聚合

現在我們考慮一個更複雜一點的問題,將上一小節中的計算單個數字的和,變為計算多個節點的熱門話題的聚合。熱門話題的聚合相比於計算單個數字的和,每個節點可以有多個話題,且每個節點之間的話題可以不相同。例如,節點A有熱門話題1、2,節點B有熱門話題2,3,節點C有熱門話題1、3、4,現在需要得到這三個節點上熱門話題1、2、3、4、5 的熱度值。

由於每個節點持有的話題並不相同,想要進行多方的熱門話題聚合,首先需要對話題進行同步。對話題進行同步,最簡單的就是各個節點將自身的熱門話題公開出來,但是處於隱私保護的考慮,各個節點不想公開自己有哪些熱門話題。這種情況下,我們需要另一種方法,在不洩露各個節點的熱門話題情況下,完成熱門話題的同步。

對於這種情況,我們可以使用這種方法:

各個節點使用同一種方法,將熱門話題映射到一個整數域[0, Z]上各個節點將熱門話題的熱度值,填到話題對應的維度上,得到一個長度為Z的話題熱度向量各個節點無需將各自的熱門話題公布出來,只需要對話題熱度向量,按照上一小節的算法,進行安全多方計算即可上述這種方法,將在節點間同步各自持有的熱門話題,改為了在節點間同步一個熱門話題到整數的映射函數。可以將這個熱門話題到證書的映射函數看作是一種加密方法,各個節點之間只暴露加密過的熱門話題,只要這個映射函數是不可逆的,就能避免明文暴露自己的話題。

在這個問題中,我們可以選用一種哈希函數,將熱門話題映射為一個整數。同時,將整數的範圍設定的比較大,防止不同節點間產生哈希碰撞。各個節點同步完哈希函數之後,可以將自己持有的多個話題的熱度轉化為一個定長的話題熱度向量,各個節點的話題向量長度一致,可以按照上一小節的算法,進行安全多方計算。

在各個節點安全多方計算、得到話題向量的和之後,就可以得到最熱門的幾個話題的維度和熱度值了。這時我們需要從熱門話題的維度,得到對應的熱門話題。因為哈希函數是不可逆的,所以需要各個節點將它們知道的熱門話題公開出來,這樣所有節點就都能知道完整的熱門話題了。同時,每個節點只公開了自己持有的熱門話題,並不會暴露其他非熱門的話題,保證了數據的隱私。

實際場景

現在我們考慮實際的場景。在上一小節的場景中,我們假設各個節點之間是互相知道彼此的,可以互相通信。同時之前的算法還蘊含了一個假設,即存在一個各個節點都信任的第三方,幫助節點間實現配對、哈希函數的同步、最後熱門話題的公開等操作。但是在實際的場景下,並不滿足這些條件,各個節點間可能並不知道彼此,也不存在一個各個節點都信任的第三方。這時想要實現多節點的熱門話題聚合,需要藉助區塊鏈,來在多個節點間進行協調。

通過之前的算法,我們可以看出,區塊鏈需要幫助實現以下的功能:

各個節點間的互相發現節點間計算配對的協調節點使用的哈希函數的協調各個節點計算結果的公開我們可以通過智能合約,在區塊鏈上實現這些功能:

在區塊鏈上部署一個智能合約,各個節點都可以執行這個合約的方法合約提供一個上報節點信息的方法,節點將自身的通訊地址、名字、等信息上報上去合約提供一個上報哈希函數的方法,節點將自己支持的哈希函數通過該方法上報到鏈上合約提供一個開始方法,當開始方法被調用時,會觸發一個計算開始的事件,各個節點可以監聽這個事件合約提供一個獲取配對節點的方法,當計算開始後,節點可以通過這個方法,請求得到其配對的節點信息合約提供一個獲取哈希函數的方法,節點可以通過這個方法,得到其需要使用的哈希函數合約提供一個提交計算結果的方法,各個節點完成自己的計算後,可以通過這個方法,將結果上傳上鏈當所有節點都提交其計算結果後,合約會觸發一個計算結束的事件,各個節點可以監聽這個事件合約提供一個獲取當前輪次全部計算結果的數據,當計算結束後,節點可以通過該方法獲得所有的計算結果合約提供一個上傳熱門話題對應關係的方法,節點可以在得到最終的熱門話題後,通過該方法將自身的已知的熱門話題上傳上鏈合約提供一個查詢熱門話題對應關係的方法,可以查詢得到其未知的熱門話題(前提是別的節點上傳過了)由此,我們通過結合區塊鏈與安全多方計算,就可以在實際場景下,實現多個企業平臺的安全的熱門話題聚合了。整體流程如下:

首先由一個節點在鏈上部署智能合約,實現上述的功能參與的節點調用合約的方法,上報自己的節點信息、支持的哈希函數,並開始監聽計算開始與計算結束事件某一個節點可以調用合約的開始方法,開始一輪計算各個節點收到計算開始事件後,向合約請求統一的哈希方法,並用得到的哈希方法,將自身的熱門話題與熱度轉換為熱門話題向量,並將熱門話題向量拆分為兩個子向量各個節點向合約請求這輪計算中與其配對的節點信息,根據配對的信息配置,啟動對應的計算節點。例如:4個節點A、B、C、D,節點A會收到3個配對信息,分別為(A,B)和輔助節點C,(C,D)和輔助節點A,以及(D,A)和輔助節點B;節點A則啟動兩個計算節點,一個輔助節點,兩個計算節點分別持有兩個拆分的熱門話題向量,與配對的節點進行通信,完成計算節點的計算完成後,將得到結果通過合約提供的方法提交上去。為了防止計算結果的重複提交,我們可以在上一步的配置中約定好提交的節點。例如,配對(A,B)中,A提交計算結果,配對(D,A)中,D提交計算結果當所有節點都提交了計算結果後,智能合約會發布計算結束事件。節點監聽到計算結束事件後,從合約中獲取這一輪計算的全部結果,本地進行聚合,得到最終的熱門話題向量各個節點將自己已知的最熱門話題上報給合約,同時查詢未知的話題,就能得到最終的熱門話題及熱度了總結

我們通過區塊鏈和安全多方計算技術實現了多個企業節點數據不公開的前提下計算全局的最熱話題排行。安全多方計算技術提供了多個節點間進行數據聚合計算的功能,而區塊鏈在其中起到了計算協調和部分可信性保證的作用。

說到計算過程的可信性保證,仍然是目前的一個開放問題。用我們的全局最熱話題功能來舉例:由於最熱話題的來源是企業內部未公開的文章、討論等內容,並且我們無法看到最原始的文章、討論等數據,那我們如何相信最後拿到的全局熱度排行是可信的?

如果有一個節點在參與計算的過程中,不斷的上報錯誤數據幹擾計算結果怎麼辦?甚至是說,企業可以在信息中心內不斷提交隨機的文章和評論,來幹擾計算結果。這樣的情況下,我們如何相信最後的熱度排行的正確性?

上述的兩種情況,可以被總結成兩個可信性問題:

數據來源可信計算過程可信對於第2個問題,我們可以在計算過程中嵌入零知識證明,來保證節點在計算過程中無法篡改數據。而第1個問題,目前似乎也沒有完美的解法,針對信息中心的場景,我們只能要求企業不斷在區塊鏈上提交內容存證,然後在計算時證明自己使用的數據是之前存證的數據,這種方法可以提高企業的作惡成本,在一定程度上解決這個問題。

在整個功能的實現過程中,我們測試了多個國內外的MPC的開源框架,比如PySyft、百度的Paddle-FL、微眾的FATE、矩陣元的Rosetta等,最終使用矩陣元的Rosetta完成了MPC部分的開發,在這裡我們對各位隱私計算開源貢獻者表示感謝:

https://github.com/LatticeX-Foundation/Rosetta

對於MPC相關模型和工具的介紹,我們推薦下面這個repo:

https://github.com/mpc-sok/frameworks/wiki

相關焦點

  • 強強聯手 中嘉博創與洞見智慧科技攜手打造區塊鏈與隱私計算行業生態
    來源:挖貝網近兩年來,"隱私計算"作為熱門詞彙被頻頻提及,隱私計算技術在滿足數據安全與隱私保護的前提下能夠充分利用數據價值產生全局智能,因而網際網路巨頭、數據服務商、初創企業等紛紛加入行業賽道,國內隱私計算產業呈現迸髮式增長態勢。
  • 支付寶推安全計算平臺「摩斯」,用區塊鏈等技術解決隱私保護問題
    首頁 > 見聞 > 關鍵詞 > 支付寶最新資訊 > 正文 支付寶推安全計算平臺「摩斯」,用區塊鏈等技術解決隱私保護問題
  • 簡蘇區塊鏈非交互式隱私保護方案,安全高效開銷小!
    區塊鏈隱私保護是一個寬泛的概念,具體可分為:金額隱藏、地址匿名、數據加密。其中尤為重要也尤為困難的就是金額隱藏。以供應鏈金融為例,鏈上的往來帳目都以明文計算和顯示,數據將對鏈上任何實體都是可見狀態,如果鏈上的一個企業的某個零部件存在多個供應商,那麼供應商之間就可以通過鏈上帳目推測競爭對手的許多商業機密。
  • 騰訊雲發布區塊鏈TBaaS白皮書 加速區塊鏈技術落地行業場景
    該平臺採用聯盟鏈的方式,開創性地拋棄了數字貨幣、工作量證明等部分原生區塊鏈的技術特性,保留並發展了分布式帳簿、交易共識、數據防篡改等關鍵功能,並針對用戶場景需求增強了權限管理、安全控制、隱私保護、監督管理等能力,讓任何企業都可以在TBaaS平臺上輕鬆構建金融級別的高安全、高可信聯盟區塊鏈服務。
  • 深耕區塊鏈可信計算網絡,衝量網絡搶灘新基建「風口」
    此前,數據隱私、數據孤島問題作為網際網路時代下避免不了、客觀存在的問題,可以通過區塊鏈技術來解決。此外,此次疫情爆發,如何通過區塊鏈技術更好實現信息精準對接,更好實現「數字抗疫」,也成為業界深思問題。在這樣的背景下,可信計算加區塊鏈,也成為未來解決數據流通的問題、解決數據的可用不可見的重點投入方向。
  • 跟蹤| 獲得1.5億區塊鏈投資後,矩陣元怎麼做區塊鏈?
    矩陣元創始人兼CEO孫立林表示,基於這四大最新進展,矩陣元與其他區塊鏈平臺形成了「具備安全的企業級商用能力」的本質差異。那麼,這三大技術進展,究竟有何來頭呢?三大技術進展,區塊鏈落地障礙逐個進擊安全多方計算(MPC)企業級應用平臺隱私問題一直是區塊鏈落地的阻礙之一。
  • 「隱私計算+區塊鏈」在信用卡發卡審批業務中的落地構想
    文|行動支付網 潘思宇隱私計算(Privacy Computing)是通過密碼學或可信硬體,在保護數據本身不對外洩露的前提下建立安全的數據交換應用鏈及應用具備代表性的隱私計算技術有「安全多方計算(MPC)」、「聯邦學習」、「可信硬體技術」等。其中,結合MPC技術及分布式計算的「聯邦學習」平臺最契合現實中的各類業務場景。(聯邦機器學習又名聯邦學習,聯合學習,聯盟學習。是一個分布式機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。「)。
  • 區塊鏈可信計算的「拓荒者」:衝量網絡初長成
    如何在未來深化醫療大數據應用將我國醫療水平再度推升一個檔次,將成為下一時期行業乃至社會的焦點之一。在突發的疫情面前,區塊鏈似乎又重新看了其存在的價值。依託區塊鏈技術,進行跨機構的數據聯合隱私計算,打通各大平臺的醫療數據互通與協作,顯得尤為關鍵。這更加鼓舞了衝量網絡創始團隊重燃區塊鏈之火、構建下一代網際網路的信心。
  • 獨家| ChinaLedger白碩:區塊鏈中的隱私保護
    雷鋒網AI金融評論報導,在5月11日由北京國家會計學院主辦,區塊鏈初創公司靈鈦科技,能源區塊鏈實驗室,眾安科技、新加坡第三方支付公司Omise協辦的 「區塊鏈在中國的應用與產業發展主題論壇」 上,Chinaledger技術委員會主任白碩老師圍繞「區塊鏈中的隱私保護」的主題進行了講述。
  • 低調入局,華為的區塊鏈不止BCS丨區塊鏈企業案例研究
    區塊鏈服務BCS產品架構包括基礎設施層、區塊鏈平臺、業務應用層和安全管理四個方面。基礎設施層是創建區塊鏈網絡需要使用的底層資源,包括節點計算資源、存儲資源等,用於網絡中數據計算及存儲。安全管理由華為雲平臺安全體系、Hyperledger Fabric框架安全及創新的加密算法組成,為區塊鏈節點、帳本、智能合約以及上層應用提供安全保障。對於區塊鏈的具體應用場景,華為主要關注數據場景應用以及IOT、電信、金融等三個行業應用。
  • 萬向區塊鏈用20個關鍵詞帶你回顧區塊鏈的2020
    這是我對2020年「跨鏈」一詞延伸出來的想法,還是需求推動,未來一段時間內,圍繞這個主題,大家會做繼續非常多的開拓性的工作,讓「跨鏈」從概念到真實落地。可以預見,在具體場景、具體需求下,會出現非常多的落地案例,隨著技術積累、技術提升,可以把初期「腳手架式」的跨鏈方案做得更性感。
  • 網易區塊鏈打造可信數字身份認證應用新場景,賦能科技峰會
    區塊鏈構建安全可信的數字身份依託區塊鏈技術的「未來通行證」,是數字身份從中心化邁向去中心化的一次全新探索。移動網際網路時代,絕大多數網絡行為建立在真實有效的數字身份基礎上。區塊鏈技術賦能下,用戶能夠輕鬆控制、管理和維護自己的數字身份,且可以根據不同的應用場景,選擇相應的數據進行授權。比如,無需透露完整的身份證件信息,就可以快捷安全登錄網站或應用,大幅降低了隱私洩露風險。
  • 用區塊鏈來保護隱私是天方夜譚嗎?
    當前人們在享受網際網路時代便利的同時,常常會感慨這是一個沒有隱私的年代。網絡爬蟲、人肉搜索等手段的問世,將人們的生活置於各種顯微鏡下;各種促銷或騷擾電話讓人不勝其煩;因信息洩露遭遇經濟詐騙的報導也屢見不鮮。如何保護個人隱私成為公眾最為關注的話題之一。近兩年來,隨著區塊鏈走入各行各業,用區塊鏈實現隱私保護成為各類應用的重要賣點之一。
  • 區塊鏈:大量無意義的計算,區塊鏈帶來的是革新還是能耗?
    按照工信部指導發布的《中國區塊鏈技術和應用發展白皮書2016》的解釋,廣義區塊鏈是指利用塊鏈式數據結構來驗證與存儲數據、利用分布式節點共識算法來生成和更新數據、利用密碼學的方式保證數據傳輸和訪問的安全、利用由自動化腳本代碼組成的智能合約來編程和操作數據的一種全新的分布式基礎架構與計算範式。
  • 區塊鏈去中心化的具體含義是什麼
    從區塊鏈誕生以來,去中心化一直被業界作為區塊鏈的核心屬性之一。但最近一段時間以來,國內一些業界大佬紛紛開始否認這一點,甚至有人聲稱去中心化這個詞是區塊鏈行業翻譯產生的重大誤導,呼籲翻譯成「點對點」,任何區塊鏈應用的規則制定者就是根本的中心。這是一種極其錯誤的傾向,可能會誤導很多區塊鏈創業者,使其在探索區塊鏈應用落地的過程中走彎路。
  • 萬向區塊鏈郝玉琨:從20個關鍵詞回顧區塊鏈行業的2020
    這是我對2020年「跨鏈」一詞延伸出來的想法,還是需求推動,未來一段時間內,圍繞這個主題,大家會做繼續非常多的開拓性的工作,讓「跨鏈」從概念到真實落地。可以預見,在具體場景、具體需求下,會出現非常多的落地案例,隨著技術積累、技術提升,可以把初期「腳手架式」的跨鏈方案做得更性感。
  • 區塊鏈技術前沿報告2020
    當前有一種區塊鏈發展的阻礙是來自「量子計算將顛覆區塊鏈技術」的焦慮,「量子計算機的強大力量將很容易破解區塊鏈系統」。面對包括量子計算在內的諸多挑戰,我國北京航空航天大學牽頭的研發團隊已研發出新型密碼算法庫 SMPQLIB,這是全球首個融合國密全體系、抗量子計算密碼以及隱私保護密碼工具的實用算法庫,屬於世界領先的第四代抗量子計算安全的公鑰密碼體系。
  • 國盛區塊鏈:巨頭動作頻頻,創新再造繁榮
    在溯源、電商、金融、供應鏈、監管等多個應用場景,區塊鏈將推動行業應用的深刻變革,建立數字經濟的新模式。目前,針對多個行業應用多個業務場景間不同的基礎區塊鏈,鏈與鏈之間的互操作、數據的可信計算成為區塊鏈基礎設施亟待解決的難點。顯然,現實應用諸多場景會運行在多條鏈上,不同鏈之間的數據如何進行交互?
  • 「5G+區塊鏈技術應用交流會」昨在華為南京研究所舉行
    華為雲江蘇行業拓展總經理曹勁致開場辭   戚湧教授帶來主題為《區塊鏈在智慧交通領域的應用》的主題報告,他在報告中指出,隨著可擴展性和效率的提高,區塊鏈技術在社會各個領域中落地應用場景《區塊鏈實現政務業務高效協同》《5G加速,中國經濟新動能》《區塊鏈+城市建設供應鏈金融》的技術應用交流分享。
  • 廣州舉辦「區塊鏈技術應用高峰論壇」探索區塊鏈發展新機遇
    國際在線消息(駐廣州記者 朱子榮):以「探索與分享」為主題的「區塊鏈技術應用高峰論壇」25日在廣州蘿崗會議中心舉行。