8月7日-8月9日,2020年全球人工智慧和機器人峰會(簡稱「CCF-GAIR 2020」)在深圳如期舉辦!CCF-GAIR由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦,以「AI新基建 產業新機遇」為大會主題,致力打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
8月9日下午,在「聯邦學習與大數據隱私」專場上,微眾銀行首席人工智慧官、香港科技大學楊強教授進行了題為「聯邦學習下的數據價值與模型安全」的演講。
演講中,楊強教授介紹了聯邦學習的關鍵技術以及應用案例,並進一步介紹了最新開展的聯邦學習和遷移學習的結合研究以及接下來的重點研究方向。
楊強教授表示,我們建立的 AI 離不開人,保護人的隱私是當下AI 發展中特別重要的一點,這也是從政府到個人、企業以及社會的要求;另外,AI也要保護模型的安全,防止惡意或非惡意的攻擊;最後,AI 需要人類夥伴的理解,如何實現聯邦學習系統的透明性和可解釋性,也是研究者接下來需要重點研究的方向。
以下是楊強教授在大會的演講實錄,AI 科技評論進行了不修改原意的整理和編輯:
今天非常高興跟大家在聯邦學習專場相見,也非常感謝CCF-GAIR、雷鋒網組織了這場會議。就像剛才主持人所說,聯邦學習現在在國內外已經變成「星星之火可以燎原」之勢,在學術界、工業界、政府層面都有很大的推動力和場景,這和我們在座同事們的努力也是分不開的。今天我的題目是《聯邦學習的數據價值和模型安全》。
一、聯邦學習研究背景
首先看一下聯邦學習的研究背景。
我們知道AI的力量來自大數據,但我們面臨的實際問題往往只有小數據,比方說我經常舉的例子,一個是法律,一個是金融,一個是醫療,這些跟國計民生和大產業都相關。另外還有很多其他的例子,比如香港科技大學的老師們,他們網上課程的學生受眾是萬級的,那能不能用他們的問答數據做一個對話系統?我帶著這個問題訪問了好幾位老師,結果他們的回答都是:沒有數據。他們的數據十分有限,也沒有標註,完全沒辦法採用人工智慧對話機器人的思路和方法來做對話系統。
這也給了我一個啟發,我們總覺得在一個領域應該有很多數據,然而實際情況是,這些數據是非常有限的。我們經常聽到的人工智慧主戰場,像無人車、智慧型手機等等,每一臺設備上的數據也是有限的,我們只有把這些數據匯聚在雲端,才能形成大數據。但現在對數據的監管法規,例如歐盟推出的個人隱私與數據法規GDPR等等,也限制了這些數據的匯聚。
給大家講一個小故事,2018年我在AI瑞典大會上遇到了瑞典的一位工業部長,我們進行了一些問答交流,他對AI也很感興趣。我當時提的問題是「你們今年推出了GDPR,會不會限制歐洲人工智慧的成長?」他說看上去是會的,但是他希望歐洲的公司有提出一些滿足GDPR的人工智慧方案的理想。今天來看,這個想法是非常好的,因為如果真的做到了,他們的人工智慧就能夠螺旋性上升,就可以走在世界的前端。不過,歐洲並沒有做出這樣的人工智慧。也就是說,這並不是技術革新的充分條件。
在此背景下,我們也知道數據監管以及對數據隱私的要求,在全世界範圍內形成了一股潮流,不管是政府還是民間,大家對數據隱私的安全保護都是非常在意的。另外,To B的企業會知道,每一個機構、企業,甚至是每一個集團公司的子公司,都很希望他們的數據可以不出本地,不為其他人所有。這一方面是受限於監管和數據安全的限制,另一方面是他們不願意讓自己的核心資產被別人拿到,因為數據承載了很多價值,一旦他們的數據被別人掌握,他們的核心價值就折舊了,就好像我們買一輛車,一出4S店的門,這輛車的價值就馬上減半了,這種狀態使得大家裹足不前。我們之所以大力推動聯邦學習,便是從這個角度出發的。
二、聯邦學習:數據不動模型動,數據可用不可見
關於聯邦學習,我和我的同事們經常提兩句話:第一句話是「數據不動模型動」,這是聯邦學習的核心,讓模型在不同機構之間、端和雲之間進行溝通交流。
那它產生的效果是什麼?這就是第二句話——「數據可用不可見」,這裡所說的不可見,是別人看不見你的數據,你也看不見別人的數據,即數據和模型都保留在本地,建模的過程也保證了數據的安全。
我經常用的一個例子是「羊吃草」。我們把羊比擬成一個模型,把草比作數據。傳統的做法是把草運到羊的位置,這樣的話這個數據就需要出本地,而聯邦學習的做法是領著這隻羊訪問不同的草所在的地方,這樣草就不用出本地,羊還是可以長大。
業界也發展出了不同的聯邦學習模式,一種模式是谷歌提出的橫向聯邦,或者叫做按照樣本切割的聯邦學習。如果我們把所有聚合好的數據想像成一個大的數據集,這個數據集橫過來的每一行是一個樣本,是一個用戶的所有數據,縱過來的每一列則是特徵,比如用戶的年份、身份等等。橫向聯邦,就是把這個數據的一部分樣本寄存在某個終端,如上右圖所示。這些樣本加起來是一個完整的數據集,但我們現在沒辦法在物理或實際現實世界中達到這個目的。因此,谷歌的做法是:首先在每一個本地建模,建的模型是圖裡的「w」,對模型加密以後,把加密後的模型在雲端進行整合。
這個過程的目的是不讓參數洩露,因此關鍵技術是加密和解密的技術,現在有各種各樣的可以使用的加密技術,它們都在不同程度有保密性。比方說最嚴格的同態加密,它的特點是穿透性,其進行的數學多項運算可以穿透包對內部數據進行同樣的運算,而運作執行者可以不看內容。就像我們在電商上買了很多包咖啡豆,每一個外面都有包裹,聚集了多個包裹以後,我們想把它們做成一個大袋子,同態加密技術就可以讓我們在不破壞外包裝的前提下做出這個大袋子,同時把咖啡豆聚集在一起。
這個技術也可以同樣可以用在縱向聯邦模型上。按照特徵來分,一個機構可以有這樣的用戶特徵,另一個機構可以有那樣的用戶特徵;一個醫院可以有病人的胸腔檢測,另一個醫院可以有病人的核酸檢測,當他們合作以後,就希望得到全面的用戶檢測模型。而這個模型可以通過上右圖呈現的方式,在兩個機構之間傳播和溝通,整個傳播和溝通過程也是在加密的情況下用分布式的機器學習來進行的。
這種做法也可以適配到人工智慧算法上,左邊的圖表示的是在縱向的情況下採用SecureBoost算法,右邊的圖表示在橫向聯邦基礎上也可以實現SecureBoost算法,這是機器學習聯邦化的例子。對於學生來說,將算法和聯邦學習相結合是一個很好的研究題目。不管是To C還是To B,可以採用橫向聯邦學習也可以採用縱向聯邦學習。
三、聯邦學習應用案例
給大家舉幾個聯邦學習的應用案例。
第一個案例是推薦系統,這是現在很多應用的核心,比如電影推薦、書籍推薦,比如新聞和短視頻推薦,這些系統的特點是數據越多越好,我們叫做矩陣數據。也就是說,這個矩陣的縱向是不同用戶,橫向是不同特徵(即產品)。做推薦的時候,矩陣越密越好,因為矩陣的密度決定了推薦的個性化效果。如果要實現這個推薦系統,讓兩方合作,同時又不在物理上將雙方的數據進行傳播,就需要用到聯邦推薦的架構,具體來說,就是讓雙方交換一些共有子矩陣,在加密的前提下實現聯邦推薦的效果。這種方法也可以應用在廣告的推薦上。
第二個例子是基於聯邦學習的企業貸款風控模型。金融界特別關心建立一個好的風控模型。在這個案例中,由一家銀行和一家票據公司對同一批用戶進行聯合建模,在建模的過程中就可以復傳數據。
對於縱向聯邦而言特別重要的一點是,有一方需要有關鍵的標註數據,比如銀行有關鍵的逾期率數據,但缺乏用戶行為數據,而用戶行為數據可以由合作的票據方來提供,最終實現效果也是非常明顯的。
目前在聯邦學習實踐中,已經有幾十家銀行和非銀行合作的案例了,這些案例都證明聯邦學習方法可以大幅降低壞帳率。
第三個例子,多個保險公司之間進行橫向聯邦,在保險公司和網際網路之間還可以進行縱向聯邦。也就是說在同樣類型客戶的機構之間,可以進行橫向聯邦;而在擁有不同特徵客戶的機構之間可以進行縱向聯邦,也可以進行拓撲聯邦。
聯邦學習在計算機視覺領域也有應用案例。AI 視覺公司之間如果進行橫向聯邦,他們可以把模型的準確率大幅提高。
視覺以外,人工智慧的另一個重要戰場是語音識別ASR,這一領域也有採用聯邦學習的需求。比方說我們在一個客服中心收集了很多錄音,在另一個客服中心也收集了很多錄音,那能不能把這兩批錄音結合起來變成更大的數據集?很顯然,這會暴露用戶隱私,不過現在我們可以用聯邦學習建立一個更好的語音識別模型,目前微眾人工智慧部門也實現這一方案。
另外,聯邦學習在 IoT 領域也得到了應用,比如還利用聯邦學習進行倉庫的倉儲量預測,比如當有些貨品缺乏時,系統就可以提早提出預警。
總結來說,這一階段我們做了各種各樣的嘗試,以證明聯邦學習可以在企業,尤其是可以在不同企業之間廣泛使用,現在這一點也得到了很好的印證,接下來的專場,大家也會聽到不同講者 闡述聯邦學習在他們各自領域中的應用。
我特別要提到的一個應用——健康碼,這是我們最新的一個嘗試。大家掃健康碼進入會場的時候,掃的時候可能都會有一個擔心,健康碼記錄了你到過什麼地方,有沒有去過現在疫情比較緊急的地方。其實更準確的健康碼,應該能記錄到你有沒有近距離接觸過一些新冠病人,但這就要對你的軌跡數據進行非常細緻的調查以及你和其他人的軌跡的交叉計算。這或多或少會讓我們擔心自己的軌跡數據隱私會不會暴露給一些不認識的人,比方說雲計算公司。我們現在把聯邦學習和應用結合起來,形成了新的方案,叫做聯邦健康碼,它計算出來的最後結果只有你自身所擁有的那臺手機才知道,其他的人都只知道片面信息,而不知道全面信息。
四、聯邦學習和遷移學習的結合研究
我們現在在做一項研究工作,把聯邦學習和遷移學習結合起來。聯邦學習在應用中往往存在一個現象,即每一個數據擁有方所持有的數據,也許和別人的分布是不一樣的,也許和別人的表達也是不一樣的。比方說一個攝像頭中可能看到更多的是男性,另一個攝像頭看到的更多的是女性,這樣的分布是不一樣的。在這種狀況下建模,對機器學習來說是有困難的,因為機器學習要求數據遵從統一分布,並且表達也是類似的,而不能一部分數據是圖像,而另一部分數據是文字。這種異構的數據在現實中經常發生,所以有必要來做聯邦學習和遷移學習的結合。
這種結合可以體現在各個層面,以深度學習為例,左邊的圖展示的是兩個神經網絡,藍色的神經網絡有很多數據標籤,所以可以建一個很好的神經網絡模型,但是紅色的神經網絡卻缺乏這樣的數據,我們考慮將藍色神經網絡的數據遷移到紅色的神經網絡中。過去,遷移學習是不考慮隱私的,模型和數據都可以被物理運到紅色神經網絡進行知識遷移。現在有了隱私顧慮,是不是可以用聯邦學習達到遷移學習的效果?答案是可以。
在兩邊溝通的過程中,除了隱私加密以外,還要進行一項遷移學習的運算,保證兩邊數據的分布和兩邊數據的表達都是相同的。要達到這一點,雙方首先要把各自方的模型和數據遷移到一個共同的子空間,這個遷移過程可以通過某種數學運算進行,比如和函數,效果相當於我們把神經網絡的某些層遷移到了新的場景下。
這個工作中需要經過多番遷移和對比,所以效率很低。最近我們又提出了一個加速算法,使得每一方本地的數據計算儘量多,跨合作方的計算儘量少,以聯邦塊的方式進行梯度交互,結果證明效果非常好。
另外隨機森林也可以採用這個方法實現遷移學習和聯邦學習的結合。
最近我們在推一個聯邦視覺的公共數據集,歡迎學校的學生來參與比賽。我在很多場合都說過,我們在共同推動IEEE標準,比如塗威威等人都在共同推動。現在,微眾銀行開源的FATE也變成了國際上知名的聯邦學習開源軟體。
五、聯邦學習接下來的重點研究方向
接下來,我們會做什麼事?第一方向,是如何應對對抗攻擊。假設在聯合建模的過程中有壞人參與,或者說這個人並不那麼壞,但是他很好奇,時不時要探測合作方數據隱私,這種情況怎麼防止?我們要看機器學習的過程中有哪些可攻擊點。
第一種,他可以通過跟你的交互來推斷你的數據隱私,這個叫推斷訓練數據的隱私;第二種,通過跟你合作建模,影響你的模型效果,而這個影響朝著他們希望的方向行進;第三種,在測試數據裡加入一些小的改動,改變模型對測試數據的判斷。
另外我們一不小心也有可能讓參與方學到你數據裡的隱私,這也是一種隱私攻擊。如果我們用很嚴格的同態加密或者多方安全計算來進行,往往就不會發生這種情況。但是在大規模的工業應用中,我們往往沒辦法用完整的原始同態加密和多方安全計算保證安全。相反,我們往往會往模型加一些噪音,在完全安全和完全不安全之間選擇一個中間點,差分隱私往往是中間點,具體做法是在數據和模型當中加入一些噪音,使對方沒辦法完全區分某一個人或者某一個樣本是不是在你的數據裡。
但是這是有一定概率的,有可能對方還是能猜出來你的數據內容。去年年底MIT的韓松教授團隊發表了一篇論文,他們證明如果差分隱私應用得不好,有可能讓參與方通過對梯度的積累猜出來數據的原始形狀和原始的隱私信息。實驗證明,如果你加更多的噪音,會導致聯邦學習的效果下降,準確率會變差;而加的噪音少了,效果變好了,安全性卻又大為降低,所以這個方法其實是一把雙刃劍。
最近我們引入了一個新的方法,讓每一個參與方不直接和對方溝通,具體來說,就是讓參與方在建模的時候建立自己的鏡像,在跟別人溝通時,防火牆會把他們對隱私的好奇心擋住,這樣就能夠在安全和效率高的兩個極端找到一個最佳的平衡點。
聯邦學習和自動化機器學習的結合研究,是另一個方向,第四範式的塗威威是這方面的專家。
縱向聯邦中,我們都希望兩邊都快速建立起一個神經網絡。而神經網絡的結構和搜索空間是非常大的,過去我們需要一個人做手工調參,但現在可以通過一些加密手段梯讓度和損失函數值進行溝通,促進雙邊都自動尋找最優網絡結構,如圖上所示的兩個系統一樣,可以進行有機結合,最後獲得的效果就會非常好。上圖的大概思想是,我們建立網絡形狀拓撲的同時,也可以讓他們交換一定量的網絡數據、梯度和損失函數,當能夠自動化建模的過程,實現的效果非常好。
最後總結一下。首先,我們建立的AI離不開人,保護人的隱私是當下AI 發展中特別重要的一點,這也是從政府到個人、企業以及社會的要求;另外,AI也要保護模型的安全,我剛才舉的例子也說到,如果差分隱私用得不好,可能會暴露原始數據;最後,AI需要人類夥伴的理解,如何實現聯邦學習系統的透明性和可解釋性,也是我們需要研究的方向。
我今天就講到這,謝謝大家。
觀眾提問:我想了解一下聯邦學習在智能金融方面的應用,目前進度如何?
楊強:聯邦學習在智能金融領域的應用,是聯邦學習的重點及主戰場,其中最重要的一個方向是風險控制。風險控制中模型的全面性非常重要,因此數據的來源越多越好,但數據方往往不肯把數據拿出來,因此用聯邦學習是最好的場景。 雷鋒網雷鋒網
當然還有其他方面的應用,比如客服裡的人臉識別、語音識別。其中以語音識別為例,我們國內有很多口音,比如四川、河南口音,都需要訓練,那我們如何能在不把數據物理傳過來的情況下同時訓練好能理解口音的語音訓練模型呢?這其實也是一個非常好的場景。
演講結束後,楊強教授還為《遷移學習》以及《聯邦學習》兩本新書舉行了籤售會,前者是全球首本遷移學習教材,對遷移學習的基本原理、研究流派、方法、應用都做了全面而深入的詮釋,後者則是首部全面、系統的聯邦學習專著,詳細剖析了聯邦學習與數據安全、隱私保護的前沿學術成果,涵蓋隱私保護技術,聯邦學習定義、分類、算法和系統,聯邦學習激勵機制等。籤售會現場人潮如湧,非常火爆。