Ownership團隊憑藉自主研發的一站式區塊鏈數智協作平臺摘得2020萬向區塊鏈黑客馬拉松大賽桂冠。10月26日下午,北外灘金融科技(區塊鏈)產業發展研討會暨北外灘國際區塊鏈創新生態港揭牌儀式上,虹口區金融工作局李驥局長和虹口區科學技術委員會副主任劉長林為該團隊頒獎。
該團隊研發的區塊鏈數智平臺構建了一套應用層中間件,便於快速部署基於5G、物聯網技術形成的開放數據,並提供數據服務,為多方提供友好易用的數據協作軟體。10月27日,團隊代表李其柄在第六屆區塊鏈全球峰會上對項目進行了詳細介紹。
以下為演講全文:
能夠獲得2020年萬向區塊鏈黑客馬拉松大賽一等獎,我們感到非常高興。我們Ownership團隊是由來自清華大學和浙江大學的幾位同學組建而成的。針對此次大賽的主命題「區塊鏈技術在北外灘創新生態港建設中的應用」,我們設計了一個基於區塊鏈的一站式數智協作平臺。
數據是新基建的核心要素,將數據融合共享,應用到北外灘實際建設中可以產生非常多創新應用。比如,在供應鏈金融中,將物流數據和銀行數據共享,可以實現更精準的風控。當前,許多企業面臨線上線下獲客難的問題,解決這一難題的關鍵在於如何掌握更多用戶數據,對目標客戶進行更精準的廣告投放和運營,這就需要實現跨機構數據共享,把混亂的數據統一在一個平臺上。
然而,監管機構十分重視企業對用戶數據的保護,所以企業通常不會共享自己擁有的用戶數據資產,這使得部分產業鏈斷裂。目前市面上有很多企業正在嘗試用區塊鏈和隱私計算技術來解決這個問題。我們這次設計的這個基於區塊鏈的數智協作平臺主要是在做數據市場和數據聯合運營工具,其底層是基於PlatON的Rosetta框架和可以快速部署數據市場的Ocean公鏈協議。
這是我們目前實現的前端,中間部分展示了一個統一的數據市場平臺,企業可以將私域數據源發布到平臺裡,左右兩部分是數據建模控制臺,科學家和業務人員可以選擇數據和算力進行協同分析。
這是產品後端的主要工作流,它展示了資產元數據如何上鏈,以及安全多方計算引擎如何做出任務響應。
為了完整運行demo,我們首先要部署一個任務市場合約,把數據/算力的元數據註冊到鏈上,並運行MPC守護進程,隨後在數據市場頁面就可以查看相關記錄。科學家在選擇數據和算力後,例如添加了兩個銀行的用戶行為相關數據後,可以進入控制臺,通過新建任務和代碼編輯器來建立聯合風控模型。訓練的過程也可以進行實時可視化,兩方的數據始終是在銀行本地的。
這是我們的數據協作技術架構。底層可以基於各種各樣的區塊鏈網絡和存儲協議,上層是數據應用。中間層解決資產元數據上鏈和多方安全計算等問題,也是我們在這次黑客松中的主要工作。主要的技術創新有共享特徵學習和可組合數據通證兩點:
(1)共享特徵學習
針對目前隱私AI框架訓練速度慢的問題,我們團隊從AI角度思考了如何改善這個問題。了解AI朋友應該知道神經網絡有很多層,但通常只有第一層跟數據輸入是相關的,如果我們可以在第一層直接保護數據源,後續就可以用常規的AI框架進行數據訓練。簡單來說,企業只需要秘密共享數據的特徵,而不需要共享原始數據,就可以基於安全多方計算節點進行數據聚合。
(2)可組合數據通證
它可以實現分布式計算的的全流程可信追蹤。除了確保原始數據不出私域外,還需要保證所有遠程操作的日誌都是不可篡改的。比如,在兩家企業共享數據,不僅需要兩家企業都有數據共享的意願,還需要他們將共享用戶數據的目的、用途、操作等過程都記錄下來,以便監管機構檢查。另外,現在很多人在討論數據市場,那該如何構建數據市場呢?如果我們不知道每個企業、每個用戶的數據資產是如何被使用的,又如何給它定價呢?同時,在GDPR法規下,用戶也有權知道自己的數據是如何被使用的。
考慮到數據、算力和算法都是資產,但只有當它們跟實際業務相關,並得到使用之後才有價值,所以我們設計了鏈上的任務市場。一個實際問題通常是由右邊這個圖的形式構成的,特別是安全多方計算和聯邦學習。一個聯邦學習算法可以應用在很多數據源上,一個企業的數據源可能有很多用戶數據,在這種情況下如何實現全流程追溯?
簡單地說,上層資產如果要使用下層資產則需要提前獲取鏈上授權,但這也不能實現數據使用的全流程追蹤。比如,上層某家企業掌握了用戶數據,但用戶是不清楚這家企業是如何將他們的數據代理給另一家企業的,這個時候就需要在鏈上設置一個終止狀態。當算法資產被添加到任務市場作為終止狀態後,用戶才可以看到確實有人要使用自己的數據,並且已為該算法進行了擔保。
我們來看一看中間的數據結構,包括鏈上的可組合數據通證(CDT)和對應的鏈下文檔對象(DDO),它描述了資產的元信息。算法文檔裡還包含了對所有資源的操作存證,即分布式計算的工作流。以兩家銀行聯合建模為例,由第三方金融科技公司提供聯合算法,算法文檔裡就會包括這兩家銀行的數據資產和算力資產的CDT標識符,以及對這些資產的代碼操作。假如,兩個數據源都在銀行的私域資料庫裡(網絡安全等級高),首先就要用秘密共享操作把數據取出來,放到聯邦域計算力環境(網絡安全等級稍低), 再在秘密共享的碎片上進行聯合AI建模。
最後稍作總結,我們在這次黑客馬拉松大賽中開發了一個開放數據市場和一站式數據協作平臺,讓業務人員能夠更簡單輕鬆地應用數據資產。我們也將在今後的工作中不斷改進和完善這個項目。