在長達數千年的農業社會,經濟發展的決定因素是土地和勞動。進入工業時代,資本和技術等要素逐漸成為更重要的社會資源。而當數字經濟時代到來,大數據人工智慧等前沿科技不斷湧現,全球數據呈現爆發性增長的趨勢,海量數據在AI、金融、醫療等領域的價值已經成為各方共識,數據儼然正成為這個時代最核心的生產要素,驅動人類社會邁向更高發展階段。
然而,不同於土地、資本和技術等生產要素,數據一旦「被看見」就會洩露具體信息,難以限制用途和用量,使得各方的數據都不願不敢共享,當下數據割裂、數據壁壘和數據孤島現象嚴重。同時,數據極易被無限複製的特性也使得價值難以衡量,無法通過市場供需進行定價或者交易,阻礙了數據作為生產要素在市場上的大規模有序流通。
具體到現實生活中,數據已經被各行各業視為一種「隱形資產」,許多企業都在積極探索如何通過技術手段來解決數據流通和隱私數據保護之間的的矛盾,從而能夠使手中的數據能夠真正成為一種「隱形資產」進行增值。目前業內摸索出的解法是通過隱私計算的方式,幫助各方在使用數據時只獲取數據價值,避免暴露原始數據,使數據「可用不可見」。據36氪了解,自2018年起,提供隱私計算解決方案的公司逐步增多,資本市場的關注度也隨著市場趨勢提高。
華控清交信息科技(北京)有限公司(以下簡稱華控清交)是該行業的知名公司之一。該公司是由清華大學於2018年6月發起的信息技術公司,專注於研究、開發和建設基於現代密碼學和博弈論的大數據安全融合技術、標準和基礎設施。前高盛全球合伙人張旭東先生出任CEO,清華大學徐葳教授擔任首席科學家。
目前華控清交員工團隊近百人,其中75%以上擁有博士和碩士學位,員工來自華為、阿里、百度、IBM、谷歌、甲骨文和湯森路透等科技行業頭部公司。公司的主要股東包括清華大學、中國網際網路金融協會、北京市海澱區創業扶持基金、香港交易及結算所有限公司(港交所)、聯想集團和高榕資本。
在產品端,該公司目前已自主開發並推出了基於多方安全計算(MPC)的數據安全融合平臺,可以使多個非互信資料庫在數據相互保密的前提下進行高效數據融合計算。該平臺運用嚴格數學證明的密碼學理論,在計算機指令集和編譯器層面用密文計算替代明文計算,數據提供方和數據使用方之間的基於計算合約來調配算力執行隱私計算服務,並把計算結果給到合約指定的結果獲得方,從而真正實現了「數據可用不可見」同時「規定數據的用途和用量」(「計算合約」)。
並且,華控清交開發的數據融合平臺是一個擁有企業級部署、開發便利、承載技術和計算擴展性的通用性平臺。同時還可以提供靈活組合的多層次產品和服務。
華控清交的的數據融合平臺
事實上,早在上個世紀八十年代,圖靈獎得主姚期智院士就用數學理論證明了凡是可以在數據明文上進行的計算理論上都可以在密文上直接進行計算並得出與明文計算完全一致的結果,從而創立了多方安全計算理論。
然而往往理論到現實之間常常有著難以逾越的鴻溝。在日前的一次直播分享中,華控清交CEO張旭東介紹說,多方安全計算的安全性雖然很早就得到數學理論驗證,但是和明文計算相比,全密文的計算對於算力和性能的要求也要多出百萬倍以上。如何實現多方安全計算密碼學理論到隱私計算技術的跨越在全球範圍都是一個巨大的挑戰。
據他介紹,華控清交已經通過一系列工程化研究的探索和實踐,以實現數據「可用不可見」的多方安全計算技術為基礎,結合聯邦學習、可信計算,數據脫敏和差分隱私等基於明文的數據隱私保護技術和區塊鏈存證技術,開發創建了一套基於多方安全計算的密文計算和明文計算相結合的隱私計算技術體系,實現了多方安全計算技術的實用化和產品化,使得密文計算的性能提升到可以滿足商業應用的水平。
張旭東認為,密文計算和明文計算並不是競爭關係,而是相輔相成的關係。在解決計算效率問題時,需要將明文計算和密文計算結合,前者保證效率,後者在最關鍵處保證數據的隱私安全。兩者靈活運用才能最大程度平衡計算的準確性、保密性和效率。
從密碼學理論到通用隱私保護計算技術體系
在「規定用途和用量」方面,張旭東進一步解釋,規定用途就是指定算法,規定用量就是限定使用的次數或頻率。數據計算過程中的數據使用方和數據提供方根據需求在發起計算任務前達成一個使用協議,按約定的協議進行計算,這也就是前文提到的「計算合約」。在合約的約束下完成計算任務,則數據提供方所共享的使數據的特定使用權,而不暴露任何明文信息。華控清交表示通過建立從密碼學理論到通用隱私保護計算體系,能夠為助力數據的要素化提供技術抓手,並為建設數據互聯、融合與流通的基礎設施奠定基礎。
據36氪了解,目前業內已有不少關於隱私計算技術手段的研究和探索,且各有優劣。在行業中也已有多家公司提供隱私計算相關解決方案,各公司由於背景和技術積澱差異性,對各技術路線的倚重也有所不同,不過各方都認為單獨一項技術手段難以滿足現實場景中數據安全融合的實際需求,切實可用的方案必然是結合多種技術的綜合性解決方案。
目前常用的隱私計算技術手段
36氪通過採訪發現,目前隱私計算的主流技術路線主要可分為多方安全計算(MPC)、可信執行環境(TEE)和聯邦學習等。華控清交目前可提供全面的隱私計算解決方案,廣泛適用於查詢、聯合統計、聯合建模等多種場景。業內其他相關公司還包括數牘科技、翼方健數、鍩崴科技等,BAT也有自身的方案提供。
在直播裡,華控清交CEO張旭東從行業趨勢出發,圍繞「數據成為生產要素」的原因、難點、如何做以及對未來的展望四個方面剖析了自己對數據生產要素化的理解,並通過對數據價值「波粒二象性」的重新定義,提出了如何在數據流通中通過採用數據安全融合的新方式,使用數據的計算價值,解決傳統信息共享的發展瓶頸。36氪也根據相關內容進行了整理。
數據成為生產要素的前提張旭東認為,隨著生產力發展水平,不同歷史時期有著不同的核心生產要素,農業社會是土地和勞動力,工業社會是資本、技術與管理,資訊時代是知識,而如今的數字經濟時代,數據是信息處理和計算的對象與結果載體,是對自然資源和社會資源在分配和使用時進行優化的決策依據,利用數據對社會資源和自然資源進行整體監測調控和局部優化分析,可以大幅度提高社會勞動生產率。這是數據「天然」是數字經濟的核心要素。
但是,數據不會「天然」成為生產要素,要解決兩個核心問題才會真正成為生產要素。一是流通,二是確權。
數據有著與其他生產要素的不同的特徵:複製成本低、可以無限地被複製、可以同時被多方使用、同時使用過程中還會生產出新的數據。傳統的信息基於明文數據分享,而明文數據一旦被看見就會洩露具體信息,難以限制其用途和用量,難以釐清「責、權、利」,這導致了明文數據難以通過供需關係定價,難以大規模市場流通。
針對這些,張旭東提出了數據的「波粒二象性」,即數據的價值一方面在於其可見的信息價值,類似於量子力學的「粒子」;另一方面在於其參與計算得出的結果價值,即其計算價值,類似於量子力學的「波」。
數據「可用不可見」和規定計算價值用途用量的意義在大數據、人工智慧得以廣泛應用的今天,數據的價值被更多的地體現在其計算價值上。將數據承載的信息價值和計算價值分開,使得數據「可用不可見」,才能避免明文數據因被看見導致的無限供應和使用。
同時需要規定數據計算價值的具體用途和用量,只有這樣才能實現對數據定性定量的供應。因此,通過市場進行定價並大規模進行流通的將不是數據本身,而是數據的特定使用權。數據「可用不可見」和「規定用途和用量」可以實現數據的歸屬權、使用權、受益權和處置權的分立,為數據真正成為生產要素奠定確權基礎。
張旭東也強調了「數據融合」的概念,即多種數據一起使用,可以疊加數據的內在維度,大幅提高(1+1>2)數據的計算價值。數據的計算價值是通過計算體現出來的,將多方的數據通過「可用不可見」的方式按規定用途進行計算,每一個算法產生的計算結果就是一個新的價值,而每次參與運算的數據就是一次對特定使用權的消費。「數據融合」可以有效解決之前數據「不能共享」、「不願共享」、「不敢共享」的流通難題。
數據實現生產要素化的展望在展望未來時,張旭東用「數據打電話」對數據實現生產要素化的藍圖進行了比喻。用「電話機」比喻客戶端數據服務(DS),DS將遍布每個提供或使用數據特定使用權的社會個體,用「程控交換機」比喻隱私計算服務,在「電話機」和「程控交換機」之間流動的是計算因子- 數據的密文碎片,本身不承載任何可以「看見」的信息。「程控交換機」和「程控交換機」之間還將連接成一張多維立體的國家數據網,可以連接每一個社會個體。
數據要素化基礎設施的基本模塊
整體來看,張旭東認為基於合約的隱私計算技術能夠有效地構建社會化數據閉環,真正打消數據價值鏈的不同環節對數據歸屬、數據安全和隱私保護的顧慮,為數據融合、為數據參與社會化大生產、為數據真正成為生產要素奠定技術基礎。