AI醫療開創性研究:深度學習進行病變檢索和匹配(31 PPT)

2020-12-12 新智元

新智元專欄

【新智元導讀】美國國立衛生研究院(NIH)的研究人員通過創建基於真實放射學影像的大型數據集,進行病變檢索和匹配的研究。本文是相關研究在約翰霍普金斯大學 Sol Goldman國際會議上的演講整理,該研究具有創新性的科學價值和臨床價值。

論文地址:

http://www.cs.jhu.edu/~lelu/publication/DeepLesionGraph_CVPR2018_camera_ready.pdf

本文介紹了美國國立衛生研究院(NIH)最新的一篇CVPR論文「Deep Lesion Graphs in the Wild: Relationship Learning and Organization of Significant Radiology Image Findings in a Diverse Large-scale Lesion Database」(深度病變圖:在不同的大規模病變資料庫中,重要放射學圖像發現的關係學習和組織),主要作者是閆柯和王瀟崧等研究人員。

對於精準癌症影像診斷和治療方案的選取,基於內容的retrieval和instance-level相似性的描述是很重要的。人類的癌症有很嚴重的長尾現象,並不是簡單的分類或者regression; mapping X to Y就能很好解決,所以癌症的治療和診斷本質上最重要的是個性化(personalization)。當有一個新的病人,醫生最想知道的是在以前已經治療過的病人裡面有沒有誰跟他是相似的。如果能夠找出相似的病人,而且知道這些病人的治療方案以及治療結果,醫生就可以更有針對性地來設計治療方案。而且通過對相似病人的建模,可以知道每種治療方案的風險性以及預後效果。

雖然每個大醫院都存了上百萬甚至上千萬的病人數據,但是目前沒有很好的辦法來做相似性病人的檢索。這篇文章的意義是以腫瘤圖像(tumor image instance)為例子,打通了一個做這個方向的技術模型。該模型可以允許一個新的腫瘤圖像在以前上萬的腫瘤圖像中檢索相似的、而且又比較完整的tumor similarity graph,這對臨床工作有很大的幫助。這方面的工作以前非常少,因此這篇文章是比較有前瞻意義的。

該研究的數據涉及4000多個病人的一萬多個醫學圖像。既使在這個數據尺度下,因為計算能力的問題,人是很難做什麼的。

計算醫學本質上是為了去獲取臨床醫生想要,需要但自己又沒辦法做到的東西。有的病人會問到大醫生如果採取了A治療方案,預後結果會怎麼樣,生存率有多高?現在都是基於經驗去猜的,也不能定量的計算。這篇文章就是一個很好的例子,來逐步解決這個定量精準醫療的問題。相比之下,大家比較熟悉的肺節節檢測問題,是屬於另外一類的問題,本來就是醫生也可以做,計算的目標是使用深度學習來做輔助診斷,主要以提高醫生效率為目的。

這篇文章裡面用到了32000多個醫生測量過的significant clinical findings,,這些測量結果是放在醫院PACS/RIS放射學資料庫裡面作為定量的references。我們的算法通過pair wise similarity graph可以針對圖像分類,包括 intra-patient matching(在同一個病人的多次影像studies中,自動的把以前測量過的同一個腫瘤影像連起來);並且允許跨病人的、基於圖像相似性的檢索(inter-patient similarity retrieval)。

背景

包含多樣化的圖像和密集注釋的大規模數據集對於計算機視覺和醫學圖像研究都很重要

眾包模式可以用於注釋計算機視覺數據集,但醫學圖像(MI)需要專業知識和培訓通過Deep Learning挖掘網際網路圖像可用於計算機視覺以獲取自動注釋;

幸運的是,像計算機視覺中的網絡數據一樣,大量數據源以圖像存檔和通信系統(PACS / RIS)的形式存在。

那麼,我們可以挖掘「非結構化但非常豐富的」PACS嗎?

放射科醫師在日常工作中可能會定期對放射學影像的某些顯著的異常或「病變」進行標記和測量

多年來收集並存儲在醫院的PACS / RIS中有時被稱為「bookmarks」用於評估患者的狀況或治療反應

「DeepLesion」數據集:

這些數據從NIH的PACS裡的bookmarks挖掘而來

問題定義

DeepLesion中的病變基本未排序,並且缺乏語義標籤,例如肺結節,縱隔淋巴結

我們的目標是:通過「自動Instance-level的相似性建模和拓撲發現挖掘」,了解和組織大量的病變或腫瘤學發現

1. 發現他們的類型和位置

2. 從不同患者群體中發現相似的病變,即基於內容的檢索

3. 跟蹤同一患者幾次縱向研究中的相同病變,即多次研究中的病變實例匹配或追蹤

相關工作:

病變檢索病變匹配

監督提示(I):病變類型

我們隨機選擇30%病灶並手動標記為8種類型:肺,腹部,縱隔,肝,骨盆,軟組織,腎和骨病變的粗糙屬性

監督提示(II):相對身體位置

在DeepLesion中,某些CT體積放在身體的一部分上,例如僅顯示左半身SSBR在罕見的身體部位表現不佳,這些部位在訓練組中的頻率較低,例如頭部和腿部

監督提示(III):病灶大小

病變直徑的長軸和短軸的長度已由放射科醫師進行注釋和測量範圍從0.2到343毫米,中位數為15.6毫米

使用順序採樣構建Triplet Network

圖3第4行有標籤噪聲,病變D與A~C(軟組織與骨盆)的類型不同,

網絡架構

主幹:VGG-16Multi-scale, multi-crop輸出:對於每個病變實例,輸出是一個1408D特徵嵌入向量

病變組織:檢索和匹配

基於內容的Inter-patient的檢索:找到最近鄰Intra-patient 的病變匹配:基於圖形的edge pruning

實現細節:圖像預處理

實現細節:訓練計劃

位置和大小的每個維度的最大值歸一化為1每個mini-batch 24個five-instance序列學習率為0.002的SGD為了訓練SSBR,我們使用了來自DeepLesion的420名受試者的800個隨機未標記的CT volumes

實驗

DeepLesion的可視化:將病灶密集連接的超圖投影到2D圖(t-SNE)中散點圖的X軸和Y軸對應於每個病變相對身體位置的X和Z坐標

實驗:病變檢索

多尺度的深部病變外觀矢量,通過Triplet Network對病灶類型、位置和大小進行編碼

分析和發現

當位置和大小作為監督提示時,網絡在病變類型檢索方面表現最佳; 甚至比只使用病變類型作為提示時更好。位置和大小提供了學習病變相似性嵌入的重要補充信息僅使用 coarse-scale 特徵(conv5,conv4)時, location稍好,因為location主要依賴更高級的上下文信息融合 fine-level特徵(conv3,conv2)可顯著提高類型和大小預測的準確性迭代病灶特徵/類型細化也有幫助!

實驗:分類

最容易混淆的類型是縱隔/肺部病變,以及腹部/肝臟/腎臟病變,因為其中一些在外觀和位置上都相似。

實驗:病變匹配

將DeepLesion中的103名患者的1313個病變手動分成593個組進行評估每組1-11個病變true positive decision將同一實例的兩個病變分配給同一組, false positive decision將兩個不同實例的病變分配給同一組定量病變匹配的精度非常高!

縱向病變匹配

結論

我們提供了一個大型、全面的數據集DeepLesion,其中包括從PACS挖掘的重要放射影像的findings

可用於多種類別的病變檢測,檢索,分類,分割......,這是開創性的研究

利用一個triplet network學習Lesion Graph Embedding,以對類型、位置和大小的相似關係進行建模

所需的唯一手動工作是某些種子圖像的類別標籤非參數的深度放射學實例/知識表示

結果:(a)基於內容的inter-patient病變檢索和(b) intra-patient的定性和定量的病變匹配

相關焦點

  • WSDM 2019教程—李航、何向南等,深度學習匹配在搜索和推薦中的應用
    過去傳統的匹配問題只要集中在人工定義特徵之上的關係學習,模型的效果很依賴特徵的設計。而深度學習的引入,能夠從大量數據中自動學習特徵表示,並且能夠更好的擬合複雜的交互關係。在WSDM 2019上來自中國人民大學的徐君研究員,中科大的何向南教授,以及今日頭條副總裁李航博士共同帶來深度學習匹配搜索和推薦深度學習匹配在搜索和推薦中這兩個任務中的應用。
  • 實踐入門NLP:基於深度學習的自然語言處理
    在算法和神經網絡方面,側重卷積神經網絡,遞歸神經網絡,增強學習,對抗學習,無監督學習等。發表多篇人工智慧及計算機視覺頂級會議和期刊,包括ICCV、AAAI oral、PR等,並為多個會議和期刊審稿人。曾在中科院參與負責基於龍芯的安全晶片項目,後成功轉行深度學習領域,講課風格深入淺出通俗易懂,有獨家學習和轉行經驗。
  • 深度學習框架 fast.ai 2.0 正式發布
    經歷了長久的等待之後,深度學習框架 fast.ai 2.0 版本終於正式發布了。fast.ai 課程,是為了踐行 Jeremy Howard 「讓深度學習不再酷」的承諾。這話的意思是也消除掉門檻,讓更多沒有高等數學和統計專業基礎的人,都有機會來了解和應用深度學習。關於這個事兒,我在《如何從零基礎學最前沿的 Python 深度學習?》一文中,給你介紹過。
  • ...復旦大學邱錫鵬老師】面向自然語言處理的深度學習基礎,199頁ppt
    》講座,總共199頁ppt,講述自然語言處理的理論與實踐,是非常好的學習資料。                                                    於復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在ACL、EMNLP、AAAI、IJCAI等計算機學會A/B類期刊、會議上發表50餘篇學術論文,引用1700餘次。開源中文自然語言處理工具FudanNLP項目作者,FastNLP項目負責人。
  • 基於深度學習的商品檢索技術
    目前就職於百度深度學習研究院。主要從事商品檢索技術的研發。所在的識圖策略組包括商品搜索、相似搜索、相同搜索與圖像猜詞等方向。摘要商品檢索是一門綜合了物體檢測、圖像分類以及特徵學習的技術。近期,很多研究者成功地將深度學習方法應用到這個領域。
  • 深度 | 致研究者:2018 AI研究趨勢
    現在已經有很多博文以及官方報導總結了學界和業界的重大突破。本文略有不同,Alex Honchar在Medium發文,從研究者的角度分享機器學習明年發展的走向。機器之心對此行了編譯和整理。本文的預測基於 2012 年以來我關注的學術界和科技巨頭實驗室的研究思路演變。
  • 零基礎入門深度學習(六):圖像分類任務之LeNet和AlexNet
    :0001 導讀本課程是百度官方開設的零基礎入門深度學習課程,主要面向沒有深度學習技術基礎或者基礎薄弱的同學,幫助大家在深度學習領域實現從0到1+的跨越。圖像分類在許多領域都有著廣泛的應用,如:安防領域的人臉識別和智能視頻分析等,交通領域的交通場景識別,網際網路領域基於內容的圖像檢索和相冊自動歸類,醫學領域的圖像識別等。
  • 2019全球智能醫療領域的AI技術應用案例
    IBM——WatsonIBM研發的人工智慧醫療方案Dr. Watson(以下稱「沃森醫生」),目前以輔助治療方案推薦為主,它的智能系統構架也比較完善。「沃森醫生」更像是一件智能檢索的工具,即依據文獻、指南等醫學資料對醫生的診斷結果進行判別,在資料庫中進行檢索,從而獲得治療方案,節約了醫生查詢指南的時間。
  • Yoshua Bengio最新《深度學習》MLSS2020教程,附104頁PPT及視頻
    今年因新冠疫情在線舉行,從6月28號到7月10號講述了眾多機器學習主題。本文推薦來自深度學習大佬Yoshua Bengio教授講述《深度學習教程》,104頁ppt系統性講述了深度學習基礎知識和最新進展,非常乾貨。Yoshua BengioYoshua Bengio,蒙特婁大學教授。
  • 機器之心專訪吳恩達,深度學習課程項目Deeplearning.ai正式發布
    但是,即使像谷歌和百度這樣的公司也無法覆蓋這一領域的全部。所以,我認為讓深度學習社區發展壯大的最好方式就是創造更好的深度學習課程,讓越來越多的人接觸深度學習。據我所知,我之前的機器學習課程——也是全世界最熱門的機器學習課程,目前已經惠及了超過 180 萬人。而在 Deeplearning.ai,我們致力於讓更多人能夠獲得有關機器學習的課程。
  • 這是一份超全機器學習&深度學習資源清單(105個AI站點),請收藏!
    ,主流的都涵蓋到,是深度學習從業者不錯的一個導航,歡迎使用!DataTau (https://www.datatau.com): 人工智慧領域的Hacker NewsMathOverflow (https://mathoverflow.net): 數學知識問答社區Medium (https://medium.com/): 一個涵蓋人工智慧、機器學習和深度學習相關領域的自由
  • 「世紀醫生」Eric Topol與AI大師吳恩達對話AI+醫療,Subtle...
    近日,在由deeplearning.ai舉辦的一場線上研討會上,分子醫藥學專家、北美獨立科學研究機構Scripps Research Institute創始人Eric Topol博士與人工智慧專家吳恩達(Andrew Ng)博士進行了深度對話,向觀眾介紹了AI醫學領域的最新研究成果與臨床應用。
  • 這是一份超全機器學習&深度學習網站資源清單(105個AI站點),請收藏!
    ,是深度學習從業者不錯的一個導航,歡迎使用!DataTau (https://www.datatau.com): 人工智慧領域的Hacker NewsMathOverflow (https://mathoverflow.net): 數學知識問答社區Medium (https://medium.com/): 一個涵蓋人工智慧、機器學習和深度學習相關領域的自由
  • 當AI遇到生物-深度學習在生物研究中的應用案例列表
    深度學習究竟將如何改變未來,一個具有光明前景的領域就是其在醫療以及生物學相關問題上的應用,在相關論文預印本網站bioRxiv上,可以找到很多相關的文章
  • 為什麼醫學影像AI已進入「後深度學習時代」?
    小部分的深度學習研究者會偏向於理論化,解決深度學習的理論瓶頸包括可解釋性等問題。」密西根州立大學湯繼良教授曾如此總結到。醫療AI熱潮,無疑離不開這波深度學習的發展,但由於深度學習的天然局限性和醫療領域的特殊性,使得醫療AI這一交叉的領域,也在進入瓶頸期。隨著深度學習即將觸及天花板,醫學影像分析科研人員也隨之分為兩大派別:理論派和工程派。
  • 基於深度學習的商品檢索技術在服裝搭配中的應用
    隨著深度學習的興起, 包括人臉識別、 圖像分類與物體檢測在內的方向都取得了很多重要的進展, 也為深度學習在商品檢索中的應用奠定了堅實的基礎。概括的講, 為達到「所見即所得」的目標, 商品檢索技術的框架中需要包含以下三個部分:(1) 商品主體檢測: 用於自動定位用戶感興趣的商品,去除背景、多主體等因素的影響,也有利於抽取的語義特徵的對齊。
  • 微軟小冰首席科學家武威解讀 EMNLP 論文:聊天機器人的深度學習模型
    ,並對未來聊天機器人的研究趨勢進行了展望。分享主題:聊天機器人的深度學習模型分享提綱:1. 引言2. 深度學習基本概念3. 基於檢索的聊天機器人4. 基於生成式的聊天機器人5.當然整個過程中也需要跟 Knowledge base 進行互動:如果用戶提供的信息充分,對話引擎則需要從 Knowledge base 中為用戶找出答案;如果不充分,則需要向用戶再次發問獲得更多信息。隨著大數據時代的到來和深度學習技術的發展,對話引擎也發生了改變:語言理解、對話管理以及語言生成模塊簡化成統計模型,可支持端到端的訓練。
  • 2019 到目前為止的深度學習研究進展匯總
    https://arxiv.org/abs/1903.02271v14.GCNv2:實時SLAM的高效匹配預測 (GCNv2: Efficient Correspondence Prediction for Real-Time SLAM)這篇文章提出了一種基於深度學習的關鍵字和描述符生成網絡
  • 【原創空間】法學學習與法律工作的橋梁——法律檢索
    律師助理第一次給我分派的任務是法律檢索。同樣,在布置任務後他首先給我詳細講述了進行法律檢索的方法。 我舉這兩個例子是想說明:法律檢索是一條橫貫整個法律學習和法律工作的橋梁。法律檢索並不是神話般的高端技能,但也不是一項人皆可為的工作,通過下面的文字希望能夠幫助所有初入律所的新人們建立起法律學習和法律工作的橋梁,儘快適應律所的工作。
  • 谷歌自曝醫療AI臨床結果不佳:實驗室豐滿,臨床骨感
    不僅診斷結果不一致,而且實際操作方法和在實驗室裡壓根不一樣。這項系統是檢測糖尿病性視網膜病變(DR)的症狀,對糖尿病進行一個早期的篩查。這。。不正是前幾年,谷歌一直在發力的核心項目嗎?早在2016年,谷歌就在《美國醫學會期刊》(JAMA)發表了他們的研究成果:一個深度學習算法能夠解釋視網膜照片中的DR跡象,可能將幫助醫生篩查更多的病人,尤其是在資源有限的社區中。而當時谷歌產品經理及醫學博士Lily Peng就表示:「幾年前,谷歌的一個研究小組就開始探索利用機器學習來篩查糖尿病性視網膜病變(DR)。