深度學習在醫學影像中的研究進展及發展趨勢

2021-01-15 學術信通

深度學習在醫學影像中的研究進展及發展趨勢

王麗會1,2, 秦永彬1,2

1 貴州省智能醫學影像分析與精準診斷重點實驗室,貴州 貴陽 550025

2 貴州大學計算機科學與技術學院,貴州 貴陽 550025

摘要:醫學影像是臨床診斷的重要輔助工具,醫學影像數據佔臨床數據的90%,因此,充分挖掘醫學影像信息將對臨床智能診斷、智能決策以及預後起到重要的作用。隨著深度學習的出現,利用深度神經網絡分析醫學影像已成為目前研究的主流。根據醫學影像分析的流程,從醫學影像數據的產生、醫學影像的預處理,到醫學影像的分類預測,充分闡述了深度學習在每一環節的應用研究現狀,並根據其面臨的問題,對未來的發展趨勢進行了展望。

關鍵詞:深度學習 ; 醫學影像 ; 圖像處理 ; 人工智慧 ; 卷積神經網絡

論文引用格式:

王麗會,秦永彬. 深度學習在醫學影像中的研究進展及發展趨勢[J]. 大數據, 2020, 6(6): 83-104.

WANG L H, QIN Y B. State of the art and future perspectives of the applications of deep learning in the medical image analysis[J]. Big Data Research, 2020, 6(6): 83-104.

1 引言

醫學成像已成為臨床診斷的重要輔助手段,其包括計算機斷層掃描(computed tomography,CT)成像、磁共振成像(magnetic resonance imaging,MRI)、正電子發射斷層掃描(positron emission tomography,PET)成像、超聲(ultrasound, US)成像、X射線(X-ray)成像等。如何藉助大數據和人工智慧技術,深入挖掘海量的醫學圖像信息,實現基於影像數據的智能診斷、智能臨床決策以及治療預後,已成為目前的研究熱點。

深度學習屬於機器學習的分支,是目前實現人工智慧技術的重要手段。隨著深度學習技術在圖像處理和計算機視覺領域的廣泛應用,利用深度學習技術輔助臨床診斷和決策已成為醫學圖像分析領域的研究重點。醫學影像智能診斷的流程可大致分為3個步驟,首先獲取大量高質量的圖像數據,然後對圖像進行預處理,最後挖掘圖像信息,進行分析預測。其具體環節如圖1所示。其中海量、高質量的圖像數據是深度學習訓練的基礎,圖像預處理(如配準、感興趣區域提取)是後續分析準確度的基本保障,挖掘信息、建立預測模型是臨床智能決策的關鍵。因此,本文將分別圍繞這3個方面,闡述深度學習在醫學圖像處理分析流程中每個環節的主要應用現狀,最後總結深度學習在醫學影像研究中的發展趨勢。

圖1 醫學圖像處理分析過程

2 醫學圖像復原、重建與合成

2.1 醫學圖像復原與重建

海量、高質量的醫學圖像數據是利用深度學習技術實現影像精準診斷的基礎。然而,由於成像設備和採集時間等因素的限制,在醫學成像的過程中不可避免地會受到噪聲、偽影等因素的影響。同時,針對某些成像方式,需要在成像解析度和採集時間上進行折中,例如在CT成像中,為了降低輻射的影響,需要減少投影採集數目;在磁共振成像中,為了減少患者運動或者器官自身運動引起的偽影,需要降低K空間的採樣率以減少採集時間,然而低採樣率會嚴重影響圖像的重建質量。為了獲得高質量的採集圖像,經常需要進行圖像降噪、圖像超解析度重建、圖像去偽影等復原與重建工作。下面將分別闡述深度學習在這幾方面的研究現狀。

2.1.1 醫學圖像降噪

基於深度學習的醫學圖像降噪主要應用在低劑量CT圖像中。卷積降噪自動編碼器(convolutional neural networkdenoise auto-encoder,CNN-DAE)是早期用於醫學圖像降噪的深度學習模型。該模型通過一些堆疊的卷積層,以編碼和解碼的方式從噪聲圖像中學習無噪圖像,其魯棒性較差,對噪聲類型變化較為敏感。隨後,Chen H等人提出RED-CNN降噪模型,將殘差網絡與卷積自動編碼器相結合,通過跳躍連接形成深度網絡,實現低劑量CT圖像的降噪。同年,Kang E等人首先對低劑量CT圖像進行方向小波變換,然後將深度卷積神經網絡模型應用於小波係數圖像,實現降噪,並使用殘差學習架構加快網絡訓練速度,提高性能。

雖然這些網絡結構的降噪性能相較於傳統方法得到了顯著的提升,但是其網絡訓練均以復原CT圖像與相應正常劑量CT圖像之間的均方誤差最小為優化目標,使得降噪圖像存在細節模糊和紋理缺失等問題。為了解決這一問題,研究者提出改進損失函數和模型結構的方法來優化低劑量CT圖像的降噪效果。WGAN-VGG模型通過引入感知損失,採用WGAN(Wasserstein generative adversarial network)模型進行降噪,利用Wasserstein距離和感知損失提高降噪圖像與真實圖像的相似性。基於WGAN-GP(gradient penalty)的SMGAN (structurally-sensitive multi-scale generative adversarial net)模型將多尺度結構損失和L1範數損失結合到目標函數中,並利用相鄰切片之間的信息降噪,其結果優於WGAN-VGG模型。但是梯度懲罰的使用削弱了生成式對抗網絡(generative adversarial network,GAN)的表示能力。為了解決這個問題,Ma Y J等人提出基於最小二乘生成對抗網絡(least-square GAN,LS-GAN)的殘差生成器結構,通過引入結構相似度和L1範數損失來提高降噪能力,生成器負責學習噪聲,降噪圖像為生成器的網絡輸入與網絡輸出的相減結果。除了生成模型,為了提高降噪效果,Yin X R等人同時在投影域和圖像域採用3D殘差網絡進行降噪,並利用濾波反投影重建算法,實現投影域和圖像域的相互轉化,通過迭代的思想實現圖像降噪。Wu D F等人提出一致性神經網絡模型,實現了無監督的圖像降噪方法,其不需要無噪圖像標籤,僅利用有噪圖像對模型進行訓練,從而獲得降噪圖像。

可以看出,在利用深度學習進行降噪時,常需要利用有噪圖像和無噪圖像來訓練模型,學習噪聲類型,或者學習無噪圖像與有噪圖像之間的對應關係,進而實現圖像降噪。這種方式具有一定的局限性,在臨床的某些應用上,很難獲得真實的無噪圖像。因此,如何採用無監督或者自監督模型,僅利用有噪圖像實現醫學圖像降噪將是未來研究的主要方向。

2.1.2 醫學圖像超解析度重建

高解析度的醫學圖像可以提供更多的臨床診斷細節,然而由於採集設備的限制,臨床上高解析度圖像較難獲取。因此,如何利用深度學習技術從一幅或者多幅低解析度醫學圖像中獲得高解析度圖像成為當前主要研究熱點之一。隨著深度學習模型在自然圖像超解析度重建中的成功應用,採用深度學習模型進行醫學圖像超解析度重建的研究逐漸開展起來。然而,醫學圖像與自然圖像有本質的區別,其超解析度重建不僅需要在圖像切片平面上進行,還需要在切片之間進行,如圖2所示。

圖2 醫學圖像超解析度圖像示意圖(此圖部分來自參考[9] )

除了將自然圖像中的超解析度重建模型直接應用到醫學圖像,Oktay O等人採用深度殘差卷積網絡從多個2D心臟磁共振(magnetic resonance,MR)圖像中重建出3D高解析度MR圖像,提高了層間解析度。Pham C H等人將SRCNN模型拓展到3D,以實現腦部MR圖像的超解析度重建。McDonagh S等人提出對上下文敏感的殘差網絡結構,可以得到邊界和紋理清晰的高解析度MR圖像。Zheng Y等人提出多個Dense模塊和多路分支組合的MR高分辨重建模型,該模型具有較好的重建結果和泛化能力。Zhao X L等人提出通道可分離的腦部MR圖像高解析度重建模型,一個通道採用殘差結構,一個通道採用密集連接結構,實現了特徵的有效利用,從而提高高解析度圖像的重建質量。Tanno R等人結合3DSubpixelCNN和變分推論實現了磁共振擴散張量圖像的超解析度重建。Peng C等人提出空間感知插值網絡(spatially aware interpolation network,SAINT),充分利用不同切面的空間信息提高超解析度圖像的重建質量,該模型在對CT圖像進行2倍、4倍和6倍解析度重建時,均取得了較好的結果。Shi J等人提出一種多尺度全局和局部相結合的殘網絡(multi-scale global local residual learning,MGLRL)模型,實現了MR圖像的超分辨重建,該模型可以增強圖像重建細節。Lyu Q等人採用GAN實現了多對比度MR圖像的超解析度重建。

與醫學圖像降噪相似,基於深度學習的超解析度圖像重建需要低解析度圖像樣本和高解析度圖像樣本對對網絡進行訓練。通常採用下採樣的方式進行高/低解析度圖像樣本對的構造。然而針對不同模態的醫學成像,其成像原理大不相同,高解析度和低解析度之間的對應關係也不盡相同。因此,採用人工下採樣的方式獲得訓練數據,學習低解析度圖像與高解析度圖像的對應關係,很可能與實際採集中低解析度圖像與高解析度圖像的對應關係不相符,進而導致重建的高分辨圖像無意義,因此如何構建符合實際的高/低解析度圖像樣本對是利用深度學習進行超分辨重建的難點。

2.1.3 醫學圖像重建

醫學圖像重建是指將採集的原始數據重建為臨床上可視圖像的過程,如CT採集的原始數據為投影圖像,MR採集的原始數據為K空間數據,需要重建算法才能獲得臨床上用於診斷的圖像。在實際應用中,由於一些採集條件的限制(如在CT中儘量減少投影數目,縮短採集時間,以降低輻射影響;在MR成像中,減少K空間填充數目,縮短採集時間,以避免患者的不適或者由患者運動帶來的圖像偽影),需要降低原始數據的採集率。然而,降低原始數據的採集率必然會影響圖像的重建質量。因此,研究合適的重建算法,保證在原始數據低採樣率下仍能獲得高質量的重建圖像,成為醫學圖像重建中的研究重點。

目前採用深度學習模型進行醫學圖像重建的方法主要分為兩類:一類是從原始數據直接到圖像的重建,另一類是基於後處理的方式提高重建圖像的質量。第一類方法的代表模型有:ADMM-Net,其用深度迭代的方式學習傳統交替方向乘子(alternating direction method of multipliers,ADMM)優化算法中的超參數,可以直接從欠採樣的K空間數據中重構出MR圖像;Adler J等人提出對偶學習模型,用其代替CT重建中的濾波反投影方法,實現了投影數據到CT圖像的準確重建;Cheng J等人在此基礎上提出原始-對偶網絡(primal-dual network, PD-Net),實現了MR圖像的快速重建;Zhang H M等人提出JSR-Net(joint spatial-Radon domain reconstruction net),利用深度卷積神經網絡模型,同時重建CT圖像及其對應的Radon投影變換圖像,得到了比PD-Net更好的重建結果。第二類方法是目前主要的重建方式,即採用圖像去偽影的後處理模型進行重建。用於圖像降噪、超分辨重建的模型都可以用於該類型的圖像重建,如Lee D等人提出帶有殘差模塊的U-Net模型結構來學習重建圖像與原始欠採樣圖像之間的偽影;隨後,他們又提出利用雙路U-Net模型對相位圖像和幅度圖像進行重建,進而提高了MR圖像的重建質量;Schlemper J等人採用深度級聯的卷積神經網絡(convolutional neural network,CNN)模型,學習動態MR圖像採集的時序關係,進而在快速採集下提高動態MR圖像的重建質量;Han Y等人採用域適應微調方法,將CT圖像重建的網絡應用到MR圖像重建上,可以實現高採樣率下的準確重建;Eo T等人提出KIKI-Net,同時在K空間和圖像空間域上使用深度學習網絡進行重建,提高了MR圖像重建的性能;Bao L J等人採用一個增強遞歸殘差網絡,結合殘差塊和密集塊的連接,用複數圖像進行訓練,得到了較好的MR圖像重建結果;Dai Y X等人基於多尺度空洞卷積設計深度殘差卷積網絡,以較少的網絡參數提高了MR圖像的重建精度;受到GAN在視覺領域成功應用的啟發,Yang G等人提出一種深度去混疊生成對抗網絡(DAGAN),以消除MRI重建過程中的混疊偽影;Quan T M等人提出一種具有周期性損失的RefinGAN模型,以極低的採樣率提高了MR圖像的重建精度;Mardani M等人基於LS-GAN損失,採用ResNet的生成器和鑑別器來重建MR圖像,獲得了較好的可視化結果。

圖像降噪、圖像超解析度重建、圖像重建等均屬於反問題求解。因此,其模型可互相通用,本文不對其進行一一闡述。

2.2 醫學圖像合成

2.2.1 醫學圖像數據擴展

目前,臨床上醫學圖像合成主要有兩個目的。其一,擴展數據集,以獲得大量醫學影像樣本來訓練深度學習模型,從而提高臨床診斷和預測的準確度。儘管已有很多數據擴展方法,如平移、旋轉、剪切、加噪聲等,但是其數據擴展方式無法滿足數據多樣性的需求,在提升深度學習模型的預測精度以及泛化能力上仍有待提高。其二,模擬成像。由於不同模態的醫學圖像可以提供不同的信息,融合不同模態的醫學影像信息可以提高臨床診斷精度。然而同一個病人的多模態影像信息很難獲取,此時圖像合成便提供了一種有效的手段。此外,某些新興的成像技術對成像設備具有較高的要求,僅少數的醫院及科研機構可以滿足要求,因此圖像合成為獲取稀缺的影像數據提供了可能。

隨著GAN模型在自然圖像合成上的成功應用,應用GAN的衍生模型進行醫學圖像合成已成為近幾年的研究熱點。在醫學圖像數據集擴展方面,主要採用無條件的GAN模型進行合成,即主要從噪聲數據中生成醫學圖像。常用的方法是以深度卷積生成對抗網絡(deep convolutional GAN,DCGAN)為基線模型進行改進。如Kitchen A等人基於DCGAN模型成功地合成了前列腺的病灶圖像;Schlegl T等人基於DCGAN提出一種AnoGAN模型,用來生成多樣的視網膜圖像,以輔助視網膜疾病的檢測;Chuquicusma M J M等人採用DCGAN模型生成肺結節數據,其結果可達到臨床放射科醫生無法辨別的程度;Frid-Adar M等人使用DCGAN生成了3類肝損傷(即囊腫、轉移酶、血管瘤)的合成樣本,以提高肝病分類的準確性;Bermudez C等人採用DCGAN的原有訓練策略,生成了高質量的人腦T1加權MR圖像。

儘管DCGAN在醫學圖像合成上取得了眾多有價值的成果,但其僅能合成解析度較低的圖像。為了提高醫學圖像合成的質量,一些改進的GAN模型被提出,如Baur C等人採用LAPGAN,基於拉普拉斯金字塔的思想,利用尺度逐漸變化來生成高解析度的皮膚病變圖像,該方法生成的圖像可以有效地提高皮膚疾病分類的準確性。此外,基於漸進生長生成對抗網絡(progressive grow GAN,PGGAN)在高解析度圖像合成方面的優勢,Korkinof D等人利用PGGAN合成了解析度為1 280×1 024的乳腺鉬靶X光圖像。

2.2.2 醫學圖像模態轉換

醫學圖像的模態轉換合成可以分成兩類。一類是單模態的轉換,如低劑量CT到普通計量CT圖像的轉換提出上下文感知生成模型,通過級聯3D全卷積網絡,利用重建損失、對抗損失、梯度損失,採用配對圖像進行訓練,實現了MR圖像到CT圖像的合成,提高了合成CT圖像的真實性。除了級聯模型,在多模態圖像轉換任務中,常採用的深度模型網絡架構為編碼-解碼結構,典型代表為Pix2Pix以及CycleGAN模型。如Maspero M等人採用Pix2Pix的網絡結構,實現了MR圖像到CT圖像的轉換,進而實現放化療過程中輻射劑量的計算;Choi H等人基於Pix2Pix模型,從PET圖像生成了結構信息更加清晰的腦部MR圖像。儘管Pix2Pix模型可以較好地實現多模態圖像的轉換,但是其要求源圖像與目標圖像必須空間位置對齊。這種訓練數據在臨床上是很難獲取的。針對源圖像和目標圖像不匹配的問題,通常採用CycleGAN模型進行圖像生成。Wolterink J M等人使用不配對數據,利用CycleGAN從頭部MRI圖像合成了其對應的CT圖像,合成圖像更真實。目前,CycleGAN已成為多模態醫學圖像轉換中廣泛採用的手段,如心臟MR圖像到CT圖像的合成、腹部MR圖像到CT圖像的合成、腦部C T圖像到M R圖像的合成等。然而CycleGAN有時無法保留圖像的結構邊界。Hiasa Y等人引入梯度一致性損失,對CycleGAN模型進行了改進,該損失通過評估原始圖像與合成圖像之間每個像素梯度的一致性來保留合成圖像的結構邊界,進而提高了合成圖像的質量。

3 醫學圖像配準與分割

在很多醫學圖像分析任務中,獲得高質量的圖像數據後,經常需要對圖像進行配準,並對感興趣區域進行分割,之後才能進行圖像分析和識別。本節分別對深度學習在醫學圖像配準以及分割領域的應用進行詳細的闡述。

3.1 醫學圖像配準

圖像配準是對不同時刻、不同機器採集的圖像進行空間位置匹配的過程,是醫學圖像處理領域非常重要的預處理步驟之一,在多模態圖像融合分析、圖譜建立、手術指導、腫瘤區域生長檢測以及治療療效評價中有廣泛的應用。目前,深度學習在醫學圖像配準領域的研究可以分成3類,第一類是採用深度迭代的方法進行配準,第二類是採用有監督的深度學習模型進行配準,第三類是基於無監督模型的深度學習配準。第一類方法主要採用深度學習模型學習相似性度量,然後利用傳統優化方法學習配準的形變。該類方法配準速度慢,沒有充分發揮深度學習的優勢,因此近幾年鮮見報導。本文主要集中介紹有監督學習和無監督學習的醫學圖像配準。

基於有監督學習的配準在進行網絡訓練時,需要提供與配準對相對應的真實變形場,其配準框架如圖3所示。

網絡模型的訓練目標是縮小真實變形場與網絡輸出變形場的差距,最後將變形場應用到待配準的圖像上,從而得到配準結果。在有監督學習的醫學圖像配準中,變形場的標籤可以通過以下兩種方式獲得:一種是將經典配準算法獲得的變形場作為標籤;另一種是對目標圖像進行模擬形變,將形變參數作為真實標籤,將形變圖像作為待配準圖像。

在基於有監督學習的剛性配準方面,Miao S等人首先結合CNN,採用回歸的思想將3D X射線衰減映射圖與術中實時的2D X射線圖進行剛體配準;Salehi S S M等人結合深度殘差回歸網絡和修正網絡,採用「先粗配準,再細配準」的策略,基於測地線距離損失實現了3D胎兒大腦T1和T2加權磁共振圖像的剛體配準,建立了胎兒大腦圖譜;隨後,Zheng J N等人採用域自適應的思想,利用預訓練網絡實現了2D和3D射線圖像配準,其設計了成對域適應模塊,用來調整模擬訓練數據與真實測試數據之間的差異,以提高配準的魯棒性。

在非線性配準方面,模擬非線性變形場比模擬剛性變形場困難很多,因此在基於有監督學習的非線性配準中,大多採用經典方法獲得變形場,並以其為標籤,對模型進行訓練。Yang X等人首先以U-Net網絡模型為基線結構,利用微分同胚算法獲得變形場,並將其作為標籤,實現2D和3D腦部MR圖像的端到端配準。因為非線性變形場較難模擬,所以在監督學習中引入弱監督配準和雙監督配準的概念。弱監督配準指利用解剖結構標籤做配準的標記,學習變形場。Hu Y P等人使用前列腺超聲圖像和MR圖像的結構標記訓練CNN模型,學習變形場,然後將變形場施加在灰度圖像上,從而實現MR圖像和超聲圖像的配準。Hering A等人採用相似度測量和組織結構分割標籤,同時訓練配準網絡,提高了心臟MR圖像的配準精度。雙監督配準是指模型採用兩種監督形式的損失函數進行訓練,如Cao X H等人在進行MR圖像和CT圖像配準時,先利用生成網絡將MR圖像轉換為其對應的CT圖像,將CT圖像轉換為其對應的MR圖像,在配準的過程中,同時計算原始MR圖像與生成MR圖像之間的相似性損失以及原始CT圖像與生成CT圖像之間的相似性損失,通過兩種損失的優化,提高配準的精度;Fan J F等人結合有監督模型損失和無監督模型損失,實現了腦部MR圖像的準確配準。有監督學習的醫學圖像配準的精度取決於標籤的可靠性,因此,如何生成可靠的標籤並設計合適的損失函數,是有監督學習的醫學圖像配準中待解決的難點。

圖3 有監督深度學習醫學圖像配準框架

隨著空間變換網絡(spatial transformer network,STN)的問世,利用無監督深度學習模型進行醫學圖像配準成為研究熱點。其配準網絡框架如圖4所示。

Yo o I等人結合卷積自動編碼器(convolutional auto-encoder,CAE)和STN模型,實現了神經組織顯微鏡圖像的配準,其中CAE負責提取待配準圖像與目標圖像的特徵,基於該特徵計算相似性損失,結果表明,該種損失能取得較好的配準結果。2018年,Balakrishnan G等人提出VoxelMorph網絡結構,以U-Net為基線模型,結合STN模塊,實現了MR圖像的非線性配準;隨後,其對模型進行了改進,引入分割標記輔助損失,進一步提高了配準的Dice分數。Kuang D等人提出空間變換模塊,用於替代U-Net網絡結構,在降低模型參數的前提下,實現了腦部MR圖像的準確配準。Zhang J為了進一步提高無監督配準的準確度,除了相似度損失,還引入了變換平滑損失、反向一致性損失以及防摺疊損失。其中,變化平滑損失和防摺疊損失是為了保證變形場的平滑性。反向一致性損失在互換待配準圖像與目標圖像時,可保證變形場滿足可逆關係。Tang K等人利用無監督網絡實現了腦部MR圖像的端到端配準,即網絡模型同時學習了仿射變換參數和非線性變換參數。

除了基於CNN模型的無監督配準,採用GAN模型進行配準也已成為一種研究趨勢,即採用條件生成對抗網絡進行醫學圖像配準。其中,生成器用來生成變換參數或者配準後的圖像,判別器用於對配準圖像進行鑑別。通常在生成器與判別器之間插入STN模塊,以進行端到端訓練。目前,基於GAN模型的醫學圖像配準有較多的應用,如前列腺MR圖像與超聲圖像配準,以CycleGAN為基線模型的多模態視網膜圖像、單模態MR圖像配準,CT圖像和MR圖像配準等。在基於GAN的醫學圖像配準中,GAN模型或者起到正則化的作用,用來調節變形場及配準圖像,或者用來進行圖像轉換,利用交叉域配準提高配準的性能。表1總結了典型的無監督配準模型和有監督配準模型。

圖4 無監督深度學習圖像配準網絡框架

3.2 醫學圖像分割

醫學圖像分割是計算機輔助診斷的關鍵步驟,是進行感興趣區域定量分析的前提。隨著深度學習在語義分割中的快速發展,將自然圖像分割模型擴展到醫學圖像已成為主要趨勢。在醫學圖像分割中,採用的主流網絡框架有CNN、全卷積網絡(full convolutional network,FCN)、U-Net、循環神經網絡(recurrent neural network,RNN)和GAN模型。目前常用的醫學圖像分割模型包括2.5D CNN,即分別在橫斷面、失狀面、冠狀面上使用2D卷積進行分割,在節約計算成本的前提下,充分利用三維空間的鄰域信息提高分割的準確度。FCN是深度學習語義分割的初始模型,通過全卷積神經網絡和上採樣操作,可以粗略地獲得語義分割結果。為了提高分割細節,採用跳躍連接將低層的空間信息和高層的語義信息相結合,以提高圖像分割的細膩度。FCN及其變體(如並行FCN、焦點FCN、多分支FCN、循環FCN等)已被廣泛應用到各種醫學圖像分割任務中,且表現良好。

U-Net是由一系列卷積和反卷積組成的編碼和解碼結構,通過跳躍連接實現高級語義特徵和低級空間信息的融合,進而保證分割的準確度。U-Net及其變體(如Nested U-Net、V-Net、循環殘差U-Net)在醫學圖像分割上取得了較好的分割結果,是目前醫學圖像分割的主流基線模型。

RNN類分割模型主要考慮醫學圖像分割中切片和切片之間的上下文聯繫,進而將切片作為序列信息輸入RNN及其變體中,從而實現準確分割。典型的模型有CW-RNN(clockwork RNN)和上下文LSTM模型,其通過抓取相鄰切片的相互關係,銳化分割邊緣。在此基礎上, Chen J X等人提出雙向上下文LSTM模型——BDC-LSTM,即在橫斷面雙向、矢狀面雙向和冠狀面雙向上學習上下文關係,其結果比採用多尺度分割的金字塔LSTM模型要好。

基於GAN的分割的主要思想是生成器被用來生成初始分割結果,判別器被用來細化分割結果。一般在分割網絡中,生成器常採用FCN或者U-Net網絡框架,判別器為常見的分類網絡結構,如ResNet、VGG等。基於GAN的醫學圖像分割已經被應用到多個器官和組織的醫學圖像分割任務中。表2為常見醫學圖像分割模型所用的數據集以及其分割性能對比。

4 醫學圖像分類及識別

4.1 醫學圖像分類

醫學圖像分類和識別是計算機輔助診斷(computer-aided diagnosis,CAD)的最終目標。在深度學習出現前,常採用人工定義的圖像特徵(如圖像的紋理、形狀、圖像的灰度直方圖等),經過特徵選擇後,再基於機器學習模型(如支持向量機、邏輯回歸、隨機森林等)進行分類。典型代表為影像組學方法,其在腫瘤的分型分期、治療的預後預測方面取得了很多重要的成果。然而,人工定義特徵以及特徵選擇方式很大程度上影響了分類的可靠性和魯棒性。

近年來,深度學習模型的飛速發展,尤其是CNN的廣泛應用,使得利用神經網絡模型自動提取和選擇特徵並進行分類成為主流趨勢。CNN模型的不同變體已經在基於醫學影像的臨床疾病診斷中得到了廣泛的應用,例如基於Kaggle公司的眼底圖像公開數據集,Shanthi T等人使用改進的AlexNet進行糖尿病視網膜病變的分類,其精度可以達到96.6%左右;基於VG G,利用胸片進行肺結節的良惡性分類,其精度可高達99%。目前,在常見的CNN變體中,ResNet和VGG在醫學影像分類中的表現最好,因此大多數的腫瘤檢測、腦神經系統疾病分類、心血管疾病檢測等將這兩種模型作為基線模型進行研究。

與自然圖像數據相比,醫學圖像數據中滿足模型訓練需求的數據較少。因此,為了提高臨床影像智能診斷的準確性,通過知識遷移來訓練醫學圖像分類模型已成為主流。常見的知識遷移包含自然圖像到醫學圖像的遷移、基於臨床知識的指導遷移。在自然圖像到醫學圖像的遷移中,主要有兩種方式:一種是固定利用自然圖像訓練的網絡模型的卷積層參數,利用該參數提取醫學影像特徵,然後利用該特徵結合傳統的機器學習方法進行分類;另一種是將自然圖像訓練的網絡模型參數作為醫學圖像訓練模型的初始化參數,通過微調來實現醫學圖像分類。除了自然圖像到醫學圖像的遷移,還可以利用其他醫學圖像數據集,採用多任務學習的方式進行數據信息共享,彌補數據不足帶來的分類缺陷。

基於臨床知識的指導遷移將臨床醫生診斷的經驗(如醫生的經驗學習方式、影像診斷方式以及診斷關注的圖像區域和特徵等)融入模型,根據臨床醫生診斷的經驗,即先掌握簡單的疾病影像診斷,再進行複雜疾病診斷,研究者們提出了「課程學習」模型,將圖像分類任務從易到難進行劃分,模型訓練先學習簡單的圖像分類任務,再學習較難的分類任務。基於該方式的學習可以提高分類的準確度。基於醫生診斷的方式(如迅速瀏覽全部醫學圖像,再選擇某些切片進行診斷),研究者提出基於全局和局部的分類模型,其在胸片和皮膚疾病的診斷上取得了較好的效果。基於診斷時關注的影像區域,帶有注意力機制的分類模型被提出,典型的代表有AGCNN(attention-based CNN for glaucoma detection)、LACNN(lesion aware CNN)和ABN(attention branch network),通過引入注意力,網絡可以關注某些區域,從而提高分類的精度。此外,根據醫生診斷用到的經驗特徵,如腫瘤的形狀、大小、邊界等信息,將人工定義的特徵與深度模型提取的特徵進行融合,提高醫學圖像的分類精度,也是一種趨勢。如Majtner T等人將人工特徵分類結果與深度學習分類結果進行融合,提高了皮膚癌分類的準確度;Chai Y D等人將人工特徵和深度學習特徵進行融合併訓練分類器,從而實現青光眼圖像的分類;Xie Y T等人將人工提取的特徵圖像塊與深度學習圖像塊同時作為ResNet模型的輸入,實現肺結節的準確分類。如何將深度學習特徵與傳統人工特徵進行有效的融合,是該類模型設計的難點。

4.2 醫學圖像目標識別

醫學圖像目標識別也屬於臨床診斷的一種,即在一幅圖像中標記出可能病變的區域,並對其進行分類,如圖5所示。

圖5 醫學圖像目標識別示意圖

傳統的人工標記識別費時費力。最初將深度學習模型應用於目標識別時,主要是將圖像分成小塊,逐塊輸入由CNN等組成的二分類模型中,判斷其是否屬於目標區域。隨著深度學習模型在目標檢測領域的快速發展,尤其是Fast R-CNN模型和Mask R-CNN模型的出現,將整幅醫學圖像輸入模型,即可一次找到所有可能的目標區域。但是在這兩類模型中均存在一個區域建議模塊和一個分類模塊,二者需要進行迭代更新,模型的速度並不能滿足臨床的實時性要求。YOLO(you only look once)和SSD(single shot multibox detector)模型的問世解決了目標檢測的實時性問題。基於此類模型,Lin T Y等人提出RetinaNet模型,並將其擴展應用到病理圖像和鉬靶圖像乳腺腫瘤識別、CT圖像的肺結節檢測中。上述模型均針對2D圖像進行目標檢測,忽略了3D圖像中切片和切片之間的空間信息。為了提高識別的準確度,基於RNN和LSTM的識別模型被應用到醫學圖像中。

此外,在醫學圖像目標識別中,同樣存在數據不充足的問題。為了解決這個問題,基於遷移學習的醫學圖像識別逐漸開展起來,如基於ImageNet數據進行模型遷移,實現肺結節、乳腺癌和結直腸息肉的檢測。同時,基於臨床經驗知識指導的遷移學習也被應用到醫學圖像的目標檢測中。典型代表有AGCL模型,其基於注意力的課程學習,實現胸片中的腫瘤檢測;CASED (curriculum adaptive sampling for extreme data imbalance)模型,其可檢測CT圖像中的肺結節;特徵金字塔模型(feature pyramid network,FPN),其採用不同對比度的圖像,利用多尺度注意力模型實現腫瘤檢測。

圖像分類和圖像目標識別是醫學影像臨床診斷的最終目標,是目前人工智慧技術與臨床緊密結合的研究方向。筆者僅對分類識別的幾種情況進行了闡述,以便掌握其發展方向。表3給出了腫瘤分類中常用的醫學圖像數據集以及深度學習模型,並對比了其分類性能。

5 結束語

本文從醫學圖像數據產生、醫學圖像預處理,以及醫學圖像識別和分類等方面,闡述了深度學習模型在醫學圖像分析領域的應用現狀。儘管深度學習模型(如CNN、LSTM、GAN、注意力機制、圖模型、遷移學習等)在醫學圖像分析中已取得眾多突破,然而將深度學習應用於臨床,輔助臨床進行精準診斷和個性化治療仍受到以下幾方面的限制。

首先,現有的深度學習模型對影像數目和質量有較高的要求,而臨床上帶有標記的醫學影像數據難以獲取,且目前臨床診斷預測常使用的方法是有監督學習,數據的不充足勢必會影響預測的準確性和穩定性。因此,如何在只有少量有標籤數據的情況下,採用弱監督、遷移學習以及多任務學習的思想,提高分類預測的準確度,將是持續的研究熱點。

其次,臨床應用對可解釋性要求較高,而目前深度學習模型所學習的特徵無法進行有效的解釋。儘管現階段已有研究學者提出採用可視化以及一些參數分析來對模型和結果進行解釋,但是與臨床需求中要求的形成可解釋的影像學標記還有一定的距離。因此,研究深度學習模型的可解釋方法將是醫學圖像領域的研究熱點。

最後,如何提高模型預測的魯棒性是待解決的難點。現有深度學習模型多數僅針對單一數據集效果較好,無法在不訓練的情況下,較好地預測其他數據集。而醫學影像由於採集參數、採集設備、採集時間等因素的不同,相同疾病的圖像表現可能大不相同,這導致現有模型的魯棒性和泛化性較差。如何結合腦認知思想改進模型結構以及訓練方式,提高深度學習模型的泛化能力,也是醫學圖像應用領域中待研究的關鍵問題。

作者簡介

王麗會(1982-),女,博士,貴州大學計算機科學與技術學院、貴州省智能醫學影像分析與精準診斷重點實驗室副教授,主要研究方向為醫學成像、機器學習與深度學習、醫學圖像處理、計算機視覺 。

秦永彬(1980-),男,博士,貴州大學計算機科學與技術學院、貴州省智能醫學影像分析與精準診斷重點實驗室教授,主要研究方向為大數據治理與應用、文本計算與認知智能。

聯繫我們:

Tel:010-81055448

010-81055490

010-81055534

E-mail:bdr@bjxintong.com.cn

相關焦點

  • 我國醫學影像產業現狀及發展趨勢解析
    一、 醫學影像的發展歷史 醫學影像是指為了醫療或醫學研究,對人體或人體某部分,以非侵入方式取得內部組織影像的技術與處理過程。 從技術的層面來看,醫學影像設備的總體趨勢是向更清晰、更快速、更便捷、更安全、更智能的方向發展。
  • 深度學習可超快分析三維醫學影像
    英國《自然·醫學》雜誌13日在線發表的兩項獨立研究顯示,最新的人工智慧(AI)已可以基於三維醫學影像,對神經系統疾病和視網膜疾病給出快速、準確的自動診斷。這意味著深度學習算法已成功應用於三維醫學影像的超快分析。
  • 專家點評《醫學影像 AI 行業研究報告》:聚焦八大賽道,洞察未來趨勢
    這本報告詳細盤點了目前影像AI的幾個賽道,介紹了重要玩家的技術、產品和市場情況,分析了目前存在的問題和挑戰,預測了未來的行業趨勢,應該說還是很客觀的。我們覺得未來醫學影像AI將向覆蓋診斷、治療決策、預後環節的診療全流程發展,以患者為中心的產品模態將成為2019年的主旋律。此外,數據和數據應用將成為2019年影像AI領域發展的新目標,匯醫慧影也將在這方面持續探索。
  • 「AI+醫學影像」專刊正式上線 | 期刊速遞
    當前,以深度學習為代表的AI技術已經廣泛應用於醫學影像相關的各種任務中,並且取得了顯著的成效,探索AI技術在醫學影像方面的應用已成為信息科學和臨床醫學共同關注的研究熱點,AI正在快速向醫學影像領域深度滲透也已成為業內共識。
  • 數位化醫學影像技術的進展分析
    可以將IP板放到雷射掃描儀中來掃描其中存儲的影像信息,然後利用先進的計算機功能進行一定的數據處理。因此,CR技術將傳統醫學過渡到數位化醫學之中所起的作用非常關鍵。 2.主要醫學數字成像技術的發展趨勢 2.1 CR最新研究 雖然數字攝影系統如今已廣泛投入使用將近30年,在臨床使用方面已經非常方便
  • 深度學習使人工智慧可超快分析三維醫學影像
    在醫學影像方面更是具有其獨特的價值。本文引用地址:http://www.eepw.com.cn/article/201808/390565.htm  據了解,前沿的人工智慧已可以用於三維醫學影像,對神經系統疾病和視網膜疾病做出快速、準確的醫療診斷。  人工智慧可以識別二維的醫學影像,但是對於三維的醫學影像分析效果不是很理想。
  • ...深度學習從高解析度遙感影像中消除城市環境陰影效應取得重要進展
    蘭州大學研究團隊在基於深度學習從高解析度遙感影像中消除城市環境陰影效應取得重要進展 2020-09-14 17:20 來源:澎湃新聞·澎湃號·政務
  • 影像組學輔助磨玻璃結節診斷的研究進展
    東南大學生物醫學工程系(南京  210029)基金項目:江蘇省社會發展臨床前沿技術基金項目 (BE2018746) ;江蘇省臨床醫學研究中心支撐體系建設「臨床研究與轉化骨幹培育計劃」 (2017CX010)關鍵詞:影像組學;磨玻璃結節;CT引用本文:李洪, 韓路, 李響, 虞梁, 袁梅, 顧萬君, 陳亮, 王俊. 影像組學輔助磨玻璃結節診斷的研究進展.
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    文章指出,在醫學超聲圖像分析中,深度學習展示了巨大的應用潛力,簡要介紹了一些流行的深度學習結構,討論了深度學習方法在超聲圖像分析的各種特定任務(如圖像分類、物體檢測與目標分割)中的應用。文章指出了深度學習在醫學超聲圖像分析應用中所面臨的挑戰以及潛在的發展趨勢。
  • 詳解:智能醫學影像分析的前沿與挑戰 | 雷鋒網公開課
    楊士霆,畢業於臺灣長庚大學電機工程研究所博士班,主攻醫學影像處理與應用。研究領域涉及醫學影像處理,生物醫學資訊,醫用光學,類神經與模糊理論,功能性磁振造影,醫學物理與生醫統計。曾在臺灣林口長庚醫院,寧波杜比醫療負責影像算法開發工作,現任職於北京雅森科技發展公司,擔任高級算法研究員。
  • 醫學影像中的人工智慧|BMC Medical Imaging徵稿
    在人工智慧(AI)、機器和深度學習技術快速發展的今天,展示圖像處理和分析領域的發展,以及AI對診斷的貢獻變得越來越重要。    BMC Medical Imaging邀請您向我們新的"醫學影像學中的人工智慧"專輯投稿。專輯特邀編輯:Alexander Wong教授(滑鐵盧大學)和屈小波曲曉波教授(廈門大學),徵稿將於2021年春季結束。
  • 超聲影像診斷在醫學上的應用及發展
    現在,沒有一個醫院可以離得開超聲影像診斷技術,超聲影像診斷具有高空間解析度、高軟組織對比、實時快速成像、操作方法簡便、無禁忌、無損傷、可重複、可提攜和經濟等特點,它與CT、MRI、同位素顯像一起構成了臨床醫學中必不可少的四大影像診斷技術。
  • HU-BBS:河南省人民醫院王梅雲教授分享醫學影像人工智慧的應用
    隨後,王梅雲圍繞「影像組學研究進展」、「深度學習研究進展」展開了學術報告,並以省醫團隊研究成果為例,為與會師生介紹了人工智慧技術在臨床醫學中的應用。面對醫學影像任務複雜多樣、數據非標孤立、疾病長尾突發等問題,王教授講述了影像組學(Radiomics)的臨床應用,認為影像組學在腫瘤良惡性鑑別診斷、術前淋巴結狀態評價等方面都表現突出。王梅雲詳細介紹了深度學習在醫學影像中成功應用的案例。
  • 深度學習下的醫學圖像分析(一)
    近年來,深度學習技術一直都處於科研界的前沿。憑藉深度學習,我們開始對圖像和視頻進行分析,並將其應用於各種各樣的設備,比如自動駕駛汽車、無人駕駛飛機,等等。A Neural Algorithm of  Artistic  Style是一篇最新發表的研究性論文,論文向我們介紹了如何將一種風格和氣質從藝術家身上轉移至一張圖像,並由此創建出另一張新圖像。
  • ...鄭冶楓:醫學影像AI為什麼需要小樣本學習和域自適應技術? | CCF...
    在8月9日的醫療科技專場上,騰訊天衍實驗室主任、美國醫學和生物工程學會的會士(AIMBE Fellow)、IEEE醫學影像雜誌副編鄭冶楓博士,分享了小樣本學習和域自適應技術在醫學影像AI問題中的最新研究思路及應用進展。
  • 重磅丨雷鋒網《2018 醫學影像 AI 行業研究報告》正式上線:醫生...
    然而,雷鋒網發現目前市面上鮮有重點聚焦醫學影像AI的獨立行業研報。作為一家跟蹤醫學影像AI發展長達兩年多的專業媒體,雷鋒網有責任開風氣之先。為此,經過近兩個月的企業調研、報告撰寫後,雷鋒網推出了首份醫療影像AI行業垂直深度報告——《2018醫學影像AI行業研究報告》。
  • 深度學習下的微表情研究:困難、進展及趨勢 | CNCC 2019
    事實上,目前已有許多學者在用機器學習的方法進行微表情研究了。一、方法對微表情的研究,在方法上事實上類似於人臉識別,一般包含檢測和識別兩個具體問題。對於人臉識別,一般都是先進行人臉檢測,然後對檢測到的人臉進行識別。這個過程同樣也適用於微表情識別:先從一段長視頻中把發生微表情的視頻片段檢測出來,然後識別該微表情屬於哪一類微表情。
  • 蘭州大學研究團隊在基於深度學習從高解析度遙感影像中消除城市環境陰影效應取得重要進展
    隨著遙感技術的發展,衛星傳感器空間解析度不斷提高,我們已經全面進入高解析度衛星遙感時代。在城市環境中,高大建築物、樹木等遮擋光源在遙感影像中形成陰影。陰影可以減少城市熱島效應,也可以作為遙感影像建築物識別的線索。然而,陰影的存在影響影像信息的判讀和解譯,也給城市土地覆被精細化製圖帶來了高度的不確定性。
  • AI+醫療系列之一:智能病理診斷及醫學影像識別系統
    AI在病理診斷及醫學影像識別領域的應用 AI在病理診斷及醫學影像識別的核心分為兩部分:一是圖像識別,在數據採集環節應用,通過對影像等多媒體醫療非結構化數據的分析,提取出有臨床意義的信息。二是深度學習,在學習和分析環節應用,這是整個AI診斷中最核心的環節。
  • 深度學習下的醫學圖像分析(四)
    對與深度學習相關的醫療保障工作而言,2017年的「Nvidia GTC大會」絕對是一個絕佳的信息來源。在大會上,有諸如Ian GoodFellow和Jeremy Howard的深度學習專家分享了他們對深度學習的見解;還有一些頂級醫學院(例如西奈山醫學院、紐約大學醫學院、麻省綜合醫院等)和Kaggle在大會上介紹他們的建模戰略。