做AI,實際上就是讓計算機根據一小部分已知的數據,在人的「指揮」下,自我生成程序,進而能夠處理更多的數據。而事實上,AI訓練出程序的這個過程,所需的數據是需要達到一定數量,而且要經過人類的預處理的。
以AI領域截至目前突破最大的圖像處理領域為例,李飛飛在內的數位研究者和機構2009年共同搭建了ImageNet項目,其中包含了1400萬張、各種各樣、人類手工標註的圖片。其中不少圖片都是學術研究者拿自己為模特拍攝的圖片,完全不存在版權和隱私問題。
ImageNet對於AI圖像領域是至關重要的突破
也正是因為這些原始數據的存在,全世界的AI研究者才在之後研究出了ResNet在內的一系列專門針對圖像進行深度學習的神經網絡架構。
但當以AI計算力驅動的圖像分析技術,拓展到醫療領域時,卻出現了很尷尬的事情——儘管已經有了基礎性的圖片神經網絡、儘管有不少學術研究利用小樣本數據已經證明了應用的潛力,可實際的落地仍十分艱難。關鍵的阻礙就在於隱私。
醫療行業本身就在AI系統的準確度上要求更高,在AI學術研究時,幾十人的數據可能就足夠了,而到了實際的臨床應用,可能需要成百上千甚至數萬人。後一種情況下,同一個醫院顯然不可能總有那麼多的同類患者,跨醫院的數據分享幾乎是強制性的要求。原本只存儲在一家醫院的數據現在被迫在多家醫院之間穿梭,顯然隱私得不到保障。
這也不僅會觸犯到病患的隱私、有可能造成別人利用這種信息來牟利、更有可能直接打擊到普通消費者對於使用AI的決心,間接影響了AI在整個醫療領域的推廣。
而就在上一周,在深圳舉行行的全球最高端的醫學影像會議之一——MICCAI 2019大會上,英偉達和倫敦國王學院的研究人員就介紹了他們的最新技術成果:首個面向醫學影像的隱私保護型聯邦學習系統。
又要AI又要隱私的系統
此次英偉達發布的「面向醫學影像的隱私保護型聯邦學習系統」
先簡單解釋一下聯邦學習(federated learning),它是一種能夠讓開發者與各企業機構利用分散在多個位置的訓練數據對中心深度神經網絡(DNN)進行訓練的學習範式,該方法可以支持各企業機構針對共享模型開展協作,而無需共享任何臨床數據。
通過應用聯邦學習,數據是不用上傳了,但通過數據訓練出來的神經網絡依舊要上雲,這些神經網絡雖然不包括最直接的源數據,可通過對神經網絡進行分析和反推算,依舊能夠找出部分源數據,也就是說隱私依舊得不到保障。
這個時候我們就要祭出另外一項法寶技術:差分隱私。這項技術其實在2016年就被蘋果在WWDC上提出來說過一波。我找出了當時蘋果公司比較詳細的官方介紹——「這是一種利用概率學原理,在儘可能多地了解一個群體的情況下不去了解這個群體內的人。擁有了這項技術的蘋果,能夠利用他們手機和存儲的用戶數據反過來了解用戶言語、喜好、以及需求。」
用我當時自己的話說:這是一個弱化之後的用戶信息收集策略,關鍵在於不能從手機信息裡還原具體是誰,但同時能夠區分是哪一群體。整體步驟應該包括用戶數據的 「打碎」,並且降低不同碎片之間的關聯性。
舉個例子:
李雷放學之後,在學校門口的第三間書店見到了韓梅梅。然後在書店旁邊的電影院看了《魔獸世界》,最後在和韓梅梅道別之後回到了自己在學校旁邊的家裡。
而實際收集的數據卻 「很有可能」 是這樣的:
英偉達此次的研究邏輯同樣也是如此,在醫療影像進行聯邦學習之後,神經網絡上傳的這一步中,再對數據進行差分隱私,導入的噪聲信息就足以保障之前所擔心的隱私問題了。
最後但也是最重要的是,英偉達此次提出的這一整套深度學習系統並沒有局限於哪一個醫療範圍,而是所有涉及到醫療影像的應用都可以使用。其次,這個學習系統已經出現在了英偉達的Clara Train SDK中,後者本身就是英偉達為了簡化AI醫療應用所提供的軟體開發組件,這也意味著這一整套深度學習系統的應用將會無比簡單。
鑑於目前英偉達在多個AI應用領域都構建了相應的SDK套件,已經針對行業乃至賽道的針對性優化,假如別的場景中也需要「聯盟學習+差分隱私」這一套方案,相信也能夠很快的遷移、改造出來。
英偉達副總裁和科學家還說了啥?
NVIDIA醫療副總裁,Kimberly Powell
在本次MICCAI 2019現場,虎嗅其實也與NVIDIA醫療副總裁,Kimberly Powell,以及這項研究的作者之一NVIDIA資深研究科學家,Nicola Rieke進行了交流,以下是一些關鍵的問答內容。
問:就這個系統而言,使用「聯邦訓練」的考量可能是什麼,為什麼訓練神經網絡的數據不會被「反推」?
Kimberly Powell:在聯邦學習系統下,其實它實際的數據、其實是模型找數據,而不是數據找模型。模型找數據用的是本地的數據來進行訓練,所以在這個新的技術當中最大的突破,實際上就是我們在「回傳數據」。訓練完、數據回傳的時候,要保證最少的涉及到隱私的數據被回傳過來,所以我們只是回傳訓練後模型的那個數據,而不是原有的數據。
其實涉及到「聯邦學習」整個系統下面、涉及到隱私,其實也是有不同層級的。我們在搭建這個學習體系的時候,其實就已經給予了數據一定的隱私性。所以剛才我們提到,就是說其實我們不是數據追模型,而是用模型去追數據,所以這些數據其實一直在醫院、從來沒有離開過醫院,這些用戶的數據一直是待在醫院中的。當然,就像您說的,確實有一定的道理。
因為你如果根據這個模型反推,根據模型訓練出來的數據,然後你又知道底層的運行邏輯,可能是能夠做一些反推的事情,所以這個其實就是這個模型反推的技術。所以當然我們作為研究人員的話,其實也是想到了這一步,所以就往前也走了一步,所以這也是我們為什麼把它稱之為叫「隱私保護的聯邦學習體制」,也就是在這樣的一個基礎之上給隱私又加了一個保護層。所以我們在訓練完之後,這個數據當中加入了一些「噪點」這樣就可以使有一些數據變得模糊,我們也改變了原有數據的顆粒度,這樣就使得你反推就更加困難了。
問:從今年春季到現在,整個Clara平臺,有沒有什麼技術升級、創新可以給我們享一下?
Nicola Rieke:其中一個比較大的進展,其實大家也看到就是我們Clara平臺開發者數量增長比較快的一個主要原因,就是我們工具集是高度模塊化的。在Clara第一個版本當中,其實我們整個工作流是提前設定好的。也就是說,你用現有的模型去訓練現有的預定好的模型。在最新的版本當中,其實你就可以將自己的模型帶到這個平臺來做訓練,所以這也是在使用層面來說就是更加友好了。
另外,我們還整合了一些開源的其它工具到這個平臺當中。比如:醫療影像的一個新的瀏覽器功能,相當於是一個「AI助理分析工具」,它能有從三個視角看這個圖象,所以從用戶的角度來說,用起來也就更加方便了。另外一個,就是第三個我們做的改善,就是性能優化,尤其是在數據加載到訓練的過程當中。因為在會上也有說:有時候數據加載的時間,可能比訓練的時間還要長。另外的話,我們可以用這種,就是實現了自動化多GPU訓練,也就是用戶不用去管它。
問:英偉達AI醫療領域這一塊,國內有沒有理想的合作夥伴?
Kimberly Powell:是有的,現在我們也是在NVIDIA內部是在打造中國本土的醫療團隊。我們之所以來參加今天的會議,其實也是去見一些潛在的合作夥伴。
這次我們推出的技術,它只是一個工具。我們當然是賣GPU產品的,但是這是一個工具。所以建不建共享的數據中心,這個是完全取決於我們各地或者是各個機構你自己去考慮的問題。比如:一個省裡面可能有30家醫院,你要共享數據去訓練一個模型。那就是這些家醫院自己討論,是不是建立一個共享的中心,也可能去用公有雲、也可能自己去建區域的雲,我們只是給了你一個技術。