這不僅是中國研究團隊首次在頂級生物醫學雜誌發表有關醫學人工智慧的研究成果;也是世界範圍內首次使用如此龐大的標註好的高質量數據進行遷移學習,並取得高度精確的診斷結果,達到匹敵甚至超越人類醫生的準確性;還是全世界首次實現用 AI 精確推薦治療手段。
《細胞》以封面文章的形式,刊登了來自中國的這項 AI 研究。
期刊封面
深度學習是 AI 的熱門研究領域,2006 年由多倫多大學教授 Geoffrey Hinton[2]提出,我們所熟知的 AlphaGo、AlphaGo Zero,以及自動駕駛這些重量級應用,都是基於深度學習技術開發的。
不過,最讓我們期待的,可能是 AI 在醫療領域的應用。
在全世界範圍內,專業高質量的的醫療資源是稀缺的。有許多缺乏專科醫生的相對貧困的地方,許多人對自己的疾病狀況不自知,即使在相對發達的城市區域,由於城市人口多、人口老齡化、慢性病發病率增高等導致病人數量龐大,而對應的專科醫生供不應求,也使得大量病人不能及時轉診就醫,從而延誤就診治療的最佳時機。
因此,科學家十分期待 AI 可以對診前疾病的篩查、預防,就診時醫療圖像輔助診斷、檢驗結果分析、手術輔助,以及就診後的醫療隨訪、慢性病監測、康復協助、健康管理,甚至對於基礎科研輔助、藥物研發、基因篩選分析、醫療培訓等等帶來革命性的變革。
研究論文首頁
不過這一切來得似乎沒有那麼容易。
直到 10 年後的 2016 年,深度學習終於在大數據、圖形處理器運算能力增強和新算法的支撐下,迎來高速發展。
也就是這一年,Google 的 Gulshan 團隊採用近 13 萬張已由 54 位美國專家標註過的視網膜眼底圖像,對深度學習網絡進行訓練,檢測準確率達到曲線下面積 91%,能力與人類專家相當 [3]。這項研究成果最後發表在頂級醫學期刊 JAMA 上。
沒多久,在 2017 年春節期間,史丹福大學工程學院和醫學院合作團隊在《自然》上發布了在皮膚癌診斷領域的最新突破 [4]。他們在谷歌用於識別貓和狗算法的基礎上,經過 13 萬張皮膚病變的圖像訓練後,開發出可用於識別皮膚癌的 AI 系統。在與皮膚科醫生的較量中,AI 系統的準確率達到 69.4%,而人類專家的準確率在 66% 左右。
在本研究中,張教授團隊應用一個多層次的前饋 DNN 概念,將預訓練模型 Inception-v3 架構植入到開源機器學習平臺 TensorFlow,輸入總共約 10 萬張準確標註的視網膜 OCT(Optical Coherence Tomography, 光學相干斷層成像術)圖像,最後開發出可以準確診斷眼疾的 AI 系統 [1]。
該 AI 系統在診斷眼疾時的準確性達到 96.6%,靈敏性達到 97.8%,特異性達到 97.4%,ROC 曲線下面積達到 99.9%。
AI 系統與 6 個專家大比拼數據對比
儘管 AI 在醫學領域的探索已經取得了相當不錯的成績,但是最終應用到臨床卻很少。北京協和醫院放射科主任金徵宇教授認為,主要原因之一是人工智慧系統在複雜的臨床應用中,不能準確收集到高質量可應用的數據(即有效數據),所得出的結論缺乏可靠性,難以保持測試數據集上的高準確率 [5]。
2016 年 Google 那篇文章在 JAMA 上發表的時候,論文的主要作者 Gulshan 如是說:「訪問有高質量注釋圖的大型資料庫,是深度學習模型成功的先決條件。」
正如前面 Google 和史丹福大學,以及張康教授團隊的研究所呈現的那樣,訓練出一個準確的 AI 疾病診斷系統需要數十萬張高質量標註的圖像。
可世界上有那麼多種疾病,給每種疾病都收集數十萬張高質量的標註圖像幾乎是不可能實現的。這個問題不解決,現階段 AI 在醫療領域的應用就很難全面展開。
張康教授團隊這個重磅研究,就很好的解決了這個問題。
「相比於傳統的深度學習模型,我們使用的遷移學習模型所需的數據量極少,一般深度學習需要上百萬的高質量的同一類型標註圖片才能獲得較為穩定和精確的輸出結果,而我們的方法只需要幾千張。」張康教授告訴奇點網,「並且我們構建的診斷平臺在診斷常見的致盲性視網膜疾病上,能夠獲得與人類眼科專家相似甚至更好的診斷結果。」
張康教授
「遷移學習」(Transfer Learning),顧名思義就是就是把已訓練好的模型參數遷移到新的模型來幫助新模型訓練,也就是運用已有的知識來學習新的知識,找到已有知識和新知識之間的相似性,用成語來說就是「舉一反三」。
比如,已經學會下圍棋,就可以類比著來學習象棋;會打籃球,就可以類比著來學習排球;已經會中文,就可以類比著來學習英語、日語等等。如何合理的尋找不同模型之間的共性,進而利用這個橋梁來幫助學習新知識,就是「遷移學習」的核心。遷移學習被認為是一種高效的技術,尤其是面臨相對有限的訓練數據時。
相較於其他大多數學習模型的「從零開始」,遷移學習先利用卷積神經網絡(Convolutional Neural Network,CNN)學習已有的已經標記好的預訓練網絡系統。
以醫學圖像學習為例,該系統會識別預系統中圖像的特點,研究人員再繼續導入含有第一層圖像相似參數和結構的網絡系統,最終構建出終極層級。
在張教授團隊開發的 AI 系統中,第一層網絡就是視網膜 OCT 圖像,第二級網絡系統使用第一級的圖像尋找相應的特點,通過前向傳播固定低層圖像中的權重,找到已經學習的可辨別的結構,再利用反向傳播的方法提取更高層的權重,在其中進行反覆的自我調整和反饋、傳遞,達到學習區分特定類型的圖像的目的。這個模型可以使用極少的訓練圖像,更快、更高效的辨認圖像的特定結構。
(圖:https://morvanzhou.github.io/)
為了驗證這個 AI 系統在遷移學習的幫助下能應用於視網膜疾病之外的其他疾病,在本研究中,張教授團隊在 10 萬張準確標註的視網膜 OCT 圖像訓練出來診斷眼疾的 AI 系統基礎上,只用了 5000 張胸部 X 線圖像,然後利用遷移學習,就構建出肺炎的 AI 疾病圖像診斷系統。
這套 AI 系統在區分肺炎和健康狀態時,準確性達到 92.8%,靈敏性達到 93.2%,特異性達到 90.1%,ROC 曲線下面積達到 96.8%;更牛的是,它區分細菌性肺炎和病毒性肺炎的數據也是相當漂亮,準確性達到 90.7%,靈敏性達到 88.6%,特異性達到 90.9%,ROC 曲線下面積達到 94%。
在世界範圍內,使用如此龐大的標註好的高質量數據進行遷移學習並取得高度精確的診斷結果,得到與人類醫生相似甚至更高的準確性,這在世界上是第一次。
張教授團隊在實現一個 AI 系統診斷多種疾病上,可沒少花心思。
通過預先的訓練,他們的 AI 系統已經可以達到準確判斷視網膜疾病的效果,加上一定數量標註好的正常及肺炎 X 線平片對其進行訓練,再通過簡單的調整,包括層的重排和層中為適應輸出肺炎圖像而增加「過濾器(filters)」的數量,機器通過前饋機制自我訓練、自我學習,找出兩者之間的異同點對照學習,舉一反三,直接獲得穩定的較高的肺炎診斷準確率。
「一個 AI 系統診斷多種疾病的關鍵因素是,對於診斷不同的疾病之間的切換的容易度。」張康教授說,「在其他的研究中,研究者需要根據不同的疾病設計相應的過濾器,而我們的算法會根據輸入的學習圖像產生自己的過濾器。」
張康教授認為,遷移學習在深度學習上面有極為廣闊的應用前景,在圖像數據資源有限的醫療領域,更高效、所需圖像數量更少的遷移學習,可以說是未來 5 年內 AI 發展的熱點以及深度學習成功應用的驅動力。
實際上,遷移學習是深度學習的一個自然發展方向,它能讓深度學習變得更加可靠,還能幫研究人員理解深度學習的模型。
例如,研究人員能夠知曉哪部分特徵容易遷移,這些特徵所對應的是某個領域比較高層、抽象的一些結構型概念。把它們的細節區分開,就能讓研究人員對這個領域的知識表達形成一個更深的理解。這樣一來,機器就可以像人腦的神經系統一樣終身學習,不斷地對過去的知識進行總結、歸納,讓一個系統越學越快,而且在學習過程中還能發現如何學習。
遷移學習在機器學習中的地位以及未來的發展趨勢
本研究另一個亮點在於,之前的 AI 系統對於疾病的診斷具有參考意義,但不能指導治療,而視網膜 OCT 在糖尿病視網膜病變和黃斑變形的診斷上可以量化並能夠指導治療,因此具有不可替代的價值。
例如,張教授團隊開發的 AI 系統可以準確判斷患者是哪種眼疾,哪些需要「緊急轉診」,哪些「常規轉診」即可。這可以幫助醫生快速判斷哪些患者屬於重症患者,需要及時治療,以避免疾病對患者造成不可逆的傷害。
張康教授團隊的這項研究意義遠不止如此。他們還考慮到了一個最讓醫生關注的問題。
在使用 AI 診斷疾病的時候,醫生最不放心的就是:AI 到底是如何判斷的?到底靠不靠譜啊?
對於這個問題,張教授團隊也巧妙地解決了。他們在視網膜 OCT 圖像的研究中加入了「遮擋測試」,也就是機器會輸出色塊遮擋其「認為」的病變部位,這樣醫生就可以直觀評價機器診斷的正確性,也為其形成診斷提供依據。
AI 系統用色塊遮擋住病變區域
這下醫生就可以放心了,如果對於 AI 的診斷不放心,可以通過遮擋測試直接查看 AI 是如何作出疾病「判斷」的。
張康教授說,目前他們的 AI 系統已經在美國和拉丁美洲眼科診所進行小規模臨床試用,取得經驗後在進行大規模推廣。此外,在後續的研究中,他們還會進一步增加準確標註的圖片數量,同時增加可診斷的疾病種類,並進一步優化系統等。
他們希望在不久的將來,這項技術將能應用到包括初級保健、社區醫療、家庭醫生、專科醫院等等,形成大範圍的自動化分診系統,為醫生提供一種輔助診斷的方法,並可用於監測和維護人類健康,從而提高人類生活質量。
參考資料:
1. Kermany et al. Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning[J]. Cell, 2018, 172: 1-10.
2. Hinton G E, Salakhutdinov R. Reducing the dimensionality of data with neural networks.[J]. Science, 2006, 313(5786): 504-507.
3. Gulshan V, Peng L, Coram M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J]. Jama, 2016, 316(22): 2402-2410.
4. Esteva A, Kuprel B, Novoa R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115.
5. 金徵宇. 前景與挑戰: 當醫學影像遇見人工智慧[J]. Med J PUMCH, 2018, 9(1):2-4