AI醫療數據資源少、模型難解釋怎麼辦?AI頂會秀五大破局心法

2020-12-19 智東西

智東西5月11日消息,疫情之下,AI+醫療按下加速鍵,從線上問診、輔助導診、影像篩查到新藥研發,AI均發揮出重要的輔助作用。然而相比其他應用場景,AI在醫療領域的落地卻面臨更多的困難。

不同醫療機構的數據互不流通、數據質量參差不齊、搭建AI模型效率低下、輸出結果不知道怎麼解釋……在近期舉辦的國際學習表徵會議(ICLR)上,來自劍橋大學、牛津大學、史丹福大學等全球頂尖高校的研究人員們集中探討了這些阻礙AI醫療落地的關鍵挑戰,並有針對性地探討了解決這些問題的有效方法。

國際學習表徵會議(ICLR 2020)是深度學習領域最重要的年度會議之一,於在4月26日至5月1日以線上方式舉行。

一、AI醫療落地難!實際模型效果很一般

當今醫療資源匱乏和分布不平衡的問題日益突出,AI的應用可以緩解這種局面。比如,遠程醫療可以解決偏遠地區看病難問題,AI讀片工具可以縮短臨床醫生判斷時間。但是,要達到這些目的,前提是AI工具的輸出足夠準確可靠。

實際情況中,不同醫療機構收集、標記、注釋、處理醫療數據的方法並不一致,X射線影像、CT影像的質量則因為機器差異而存在較大差異,患者病例或健康記錄中也常缺少信息。這些都導致了能夠用於訓練AI模型的有效數據資源稀缺,因此,一些AI模型的實際應用效果並不理想。

例如,谷歌的一個AI模型就在實際應用階段折戟。該AI模型被設計用於提升篩查糖尿病性視網膜病變的效率,根據病人眼球照片快速給出專業診斷。在實驗室測試階段,該模型可以把診斷時間縮減到秒鐘級,準確率達到了90%。

但在11個眼科診所的測試中,該模型的結果就沒有這麼理想了。首先,每個眼科診所的環境條件不同,有些診所無法拍攝出高清的眼球照片或網絡信號較差,這導致模型上傳圖片的時間變長(60到90秒)。另外,一些護士也擔憂AI模型的安全性問題。這說明通過實驗室檢驗並不完全意味著AI工具可以順利落地應用。

二、數據資源少?讓醫生臨床經驗來幫忙

許多疾病難治療都是因為相關數據太少。比如,罕見病的患者記錄就很少,相應的醫學知識也很缺乏;對於心衰等慢性病來說,及早治療是關鍵,但醫學界很難提前甄別出有患病風險的患者。

在人工智慧平價醫療研討會上,韓國科學技術院(KAIST)助理教授Edward Choi提出,可以利用神經網絡來解決這些問題。一方面,神經網絡可以大面積搜集疾病信息,儘可能多地綜合罕見病相關信息;另一方面,神經網絡可以回溯病人的電子病例,根據病人以往的健康狀況判斷出病人是否易患某種慢性疾病。

Choi表示,下一步將繼續推進研究,使神經網絡更好解決數據缺乏問題。

他計劃用一種基於圖像的注意力模型(GRAM,graph-based attention model)來進一步解決罕見病數據資源少的問題。該模型用循環神經網絡(RNN)進行訓練,是一個基於醫學本體論(medical ontologies)對疾病進行樹狀分類的工具,可以找出與罕見病相似的常見病。各種疾病的本體理論是由之前的醫學家建立起來的,已經通過實踐驗證。因此,醫生可以嘗試用常見病的診療方案來治療罕見病。

對於病人電子健康記錄數據不全的問題,Choi提出了圖像卷積Transformer模型(GCT,Graph Convolutional Transformer )。GCT可以推斷出電子健康記錄缺失的數據,為臨床醫生提供更全面的病人信息。

三、數據沒結構化?用AI預測哪些出院患者更易再住院

對康復患者進行預後診斷可以降低疾病復發風險,而醫生需要依靠病人的數據做出預後診斷。但是,不同國家和地區、不同醫療機構收集、處理病人數據的方法有差異,醫護人員的一時疏忽則會導致數據無效。這些原因導致了醫療數據非結構化、噪聲數據問題,進而影響了醫生預後診斷的準確性。

谷歌軟體工程師Constanza Fierro團隊認為,可以訓練一個AI模型,使其利用高度非結構化數據或噪聲數據進行預測。經過嘗試,他們研究出一種深度學習架構,能夠預測患者出院後30天內再次入院的風險。

研究人員用一個西班牙語醫療數據集對該架構進行了測試。美國醫療機構曾利用該數據集進行過相同預測。研究人員對比了模型預測結果和美國醫療機構的結果。對此顯示,模型預測結果與美國醫療機構的結果基本相符。

但是,Fierro指出,這個模型的可能不適用於沒有儲存醫療數據的國家。

四、建模效率低?讓AI自動化學習

不同的疾病對應著不同的解決方案,相應地,為不同疾病建模需要用到不同的技術和模型。

劍橋大學教授、艾倫·圖靈研究所研究員、加州大學洛杉磯分校校長教授Mihaela van der Schaar認為,為每種疾病各建一個AI模型效率太低,她主張使用可以大面積推廣的自動機器學習(AutoML)方法,讓AI模型自動化學習合適的參數和配置。

在實驗對比幾種AutoML模型後,Mihaela提出一個針對臨床預後量身定製的預測建模管道設計的自動化系統AutoPrognosis。

據她介紹,AutoPrognosis是「一個為臨床預測量身定製的自動涉及預測模型管道系統」。AutoPrognosis不會試圖找到唯一的最佳的預測建模管道,而是使用各種管道的「集合」做出預測。

儘管這個模型可以自動化對疾病做出預測,但是它還有一些局限性,比如缺乏可解釋性。

透明性和可解釋性是AI模型可不可靠的重要參考依據,即能向非專業人士解釋清楚得到的結果。尤其是在醫療領域這樣做任何決定都必須非常嚴謹的場景,用AI模型來診斷疾病更需要可解釋性,也即是能給出令醫生信服的決策依據。

五、影像難解釋?把它分區域量化

如前面所說,AI模型的可解釋性十分重要。許多研究人員研發出神經網絡的可解釋性方法,但學界還未在評估這些解釋方法上達成共識。

這意味著需要一種客觀的度量標準,來告訴研究人員哪種可解釋性方法適合用於其任務。

針對這一問題,丹麥大學計算機科學博士Laura Rieger及其團隊提出一種特徵迭代移除(IROF,iterative removal of features)的新方法,能以較低的計算資源和很少的數據,對可解釋性方法進行客觀的定量評估。

IROF的評估指標以診斷的準確性為基礎,避開了現有評估方法中相鄰像素之間的高相關性,並且不依賴可能會產生偏差的人的視覺檢查。

在會議現場,Laura用一個具有可解釋性的神經網絡反證了IROF方法的穩健性。

她選用了一個圖像分類神經網絡,輸入一張猴子的圖像,神經網絡快速輸出了正確的分類,即黑白圖像,其中圖像較亮部分對分類精度的重要性要高於較暗部分。

然後,Laura用計算機視覺算法對猴子圖像進行圖像分割,得到一系列圖像子區域。

研究人員在識別出對分類精度最重要的淺色子區域後,用「平均值」替換這些淺色子區域,這樣再次運行圖像分類神經網絡的準確率就會下降;接著,識別圖像的第二重要部分,再次應用平均值,然後再次運行圖像分類神經網絡……隨著替換過程進行,圖像分類神經網絡的準確性呈現出曲線形下降。曲線上方的面積被稱為IROF得分,可以作為評估神經網絡可解釋性的一個定量標準。

六、影像質量差?用數據集模擬偽影和噪聲

CT斷層成像是一種廣泛應用的醫療檢測手段,可以檢測出中風、骨折等疾病。但是,並非所有的醫療機構都有能力配備頂尖的CT掃描儀。在醫療實踐中,為了控制成本,有些醫療機構不得不選用低成本的設備。

低成本CT掃描儀的價格更經濟、耗電量也較低,但成像中容易出現偽影、噪聲數據問題,為醫生增加讀片障礙。

史丹福大學電氣工程博士Sarah Hooper及其團隊提出了一個基於卷積神經網絡(CNN)的影像自動分類工具,可以自動分類有偽影、噪聲數據的低質量頭部CT影像,幫助醫療機構控制成本。

低成本CT掃描儀中常出現x射線管電流小、投影數量少、掃描角度有限等三類問題,這些會導致CT影像質量不高。

由於有代表性的低質量數據有限,研究人員用近一萬張頭部CT影像數據集,通過成倍減少電流、投影數量、改變掃描角度來模擬那些真實圖像中的噪聲,藉助CatSim仿真軟體創建了龐大的合成數據集,然後用這些數據來訓練CNN模型。

運行結果顯示,在這三類低質量影像中,經訓練的CNN模型均能克服頭部CT影像分析的硬體限制,準確分類出異常影像。

除了上述模型,其他研究人員還展示了一些其他醫學影像相關研究工作,比如自動化頸動脈斑塊的3D超聲掃描、從顯微鏡圖像診斷瘧疾、在計算機輔助手術中用AI增強立體攝像機信息、利用圖像質量轉移人工增強MRI圖像、改進乳腺癌篩查的圖像分類等。

結語:革命雖未成功,曙光就在眼前

無論把AI技術應用於哪個領域,研究人員都需要解決技術、安全性和穩健性問題。但客觀上來說,醫療保健領域更為特殊。因此,智慧醫療工具的落地面臨更多困難。

如果能夠攻克技術和安全性難題,AI技術或可為醫療資源匱乏、醫療資源不平衡等問題提供解法,還能提高整體醫療水平。

正如劍橋大學教授Mihaela van der Schaar在其演講結束時提到的,「我們正處於這場革命的開始,還有很長的路要走。但這是一個令人興奮的時刻,是專注於此類技術的重要時刻。」隨著AI醫療類研究持續推進,機器學習將為臨床醫生、醫學研究人員和患者帶來更強大可靠的新工具。

文章來源:VentureBeat

相關焦點

  • 翼方健數:讓天下沒有難用的數據 讓數據為醫療服務
    人工智慧時代,醫療大數據面臨什麼機遇?一體兩面,醫療數據的安全和開放是否可以同時並行?中國醫療機構未來的轉機在哪裡?8月22日,在南京的「臨床醫學的『道 術 器』 醫療數據的全場景全周期治理」論壇上,來自醫院管理、信息口、臨床及醫療健康行業專家各抒己見,翼方健數給出了自己的方向:讓天下沒有難用的數據,讓數據為醫療服務。
  • 創建三維頭像只需一張自拍,AI 技術即將開啟 3D 社交時代?
    加州初創公司推出智能 3D 模型軟體 Loom.ai ,利用機器學習和計算機視覺技術,根據用戶 2D 平面照片,生成 3D 頭像。該公司表示,該技術能做到:口說無憑,我們來看看實際效果。開發者上傳了一幫名人的照片,給 Loom.ai 站臺。結果成了這個樣子:
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    醫療票據 OCR 方案 醫療發票識別開放邀測針對全國各地的門診/住院發票,識別業務流水號、發票號、住院號、病例號、姓名、性別、社保卡號、金額大/小寫等16個關鍵欄位>>了解更多ai.baidu.com/tech/ocr/medical_invoice 病案首頁識別開放邀測針對全國各地病案首頁,識別病案號
  • AI服務企業C3.ai上市:大漲120% 市值89億美元
    C3.ai的創辦人暨執行長為Thomas Siebel,Siebel在1993年創辦的Siebel CRM Systems在2005年被甲骨文以58億美元併購。如今,Thomas Siebel已經67歲了,仍擔任C3.ai董事長、CEO職務。
  • AIOpen 預訓練語言模型專刊徵稿
    2018 年 ELMo、BERT 和 GPT 的成功發布,表明了預訓練語言模型(PLM)的成功,隨後又在自然語言理解和生成方面取得了重大突破。目前,在探索更有效的預訓練架構方面,已經做了很多卓有成效的工作,比如使用跨模態數據、跨語言數據和結構化知識等方法改進預訓練語言模型,或將 PLM 創新地應用於各種與 NLP 相關的任務。
  • 可解釋性 or 準確性?AI 模型一定不能兩者兼得嗎?
    在應用於其他數據集的許多不同類型的預測問題的機器學習方法中,也發現了相似的結果:可解釋模型(研究中的小型線性模型或邏輯模型)的表現與更複雜的模型(黑盒)有相同的效果(Zeng et al., 2016)。似乎沒有證據表明黑盒模型對犯罪風險預測會有所幫助。實際上,這些黑盒的缺點可能更明顯,因為它們更難排查故障,更難信任和更難使用。
  • 2019 年 1 月 AI 最佳網文榜單最新出爐!
    但是醫療機構經常因為需要遵守受保護的健康信息法規而放緩人工智慧在該領域的發展步伐。得益於亞馬遜的理解醫療(Amazon Comprehend Medical),該領域的發展也變得更容易些。Amazon Comprehend Medical 是新的 AWS 服務,使用機器學習來提取醫療數據,準確率非常高。例如,該算法可以提取私人的醫療信息。
  • 《全面戰爭》傳奇特洛伊阿基裡斯攻略 破局思路分享
    全面戰爭傳奇特洛伊阿基裡斯破局思路 破局思路 第一回合: ①開局第一... 阿基裡斯是全面戰爭傳奇特洛伊中的傳奇英雄,那麼阿基裡斯的破局思路是怎樣的?下面小編就為大家帶來相關攻略,一起來看看吧。
  • 分析17萬篇AI頂會論文,他們首次揭示了計算資源...
    AI研究壁壘:計算資源和數據增加知識生產成本  這也是第一次直接有證據表明, 對專業資源、社備的需求增加會導致科學領域的貧富差距    在第二個時代,如上圖所示,500強科技企業對人工智慧的投入進入了一個爆發期:他們在頂會發布的論文數量每年以極高的速度增長。
  • 靠聯合學習打造多款醫療AI,AI Labs更開源自家框架力推
    醫療機構中的病理資料,皆屬高度隱私數據,無法隨意訪問。因此,「我們以聯合學習(Federated Learning,也稱聯邦學習)方法來突破限制,」臺灣人工智慧實驗室(簡稱AI Labs)創辦人杜奕瑾說。
  • 在這個時代,ai應用可能被做什麼?
    如今,ai將成為大型企業、政府和其他組織的組成部分,ai對它們業務的影響,至少從機會和風險來看,將變得越來越重要。投資ai的風險與投資人工智慧的風險無法相比:ai可能會打擊人工智慧的商業應用,以及去年的交通擁堵、健康、金融服務和安全性等問題中出現的嚴重漏洞。
  • 怎樣使用ai製作出玩具模型?詳見具體操作過程
    本篇文章是介紹了使用ai製作出玩具模型的具體操作過程,想要學習的朋友可以看一看下文哦,相信對大家會有所幫助的。ai系列軟體最新版本下載Adobe Illustrator(AI設計軟體)軟體版本:10.0.3 Update圖形圖像立即查看Free AI Viewer(AI文件打開查看器)軟體版本:3.2 免費版圖形圖像立即查看1、用鋼筆畫了一個月亮的輪廓路徑。2、用鋼筆畫出一個星星的輪廓路徑,上面的一張沙發也畫出來。
  • 機器學習新聞綜述:2019年AI領域不得不看的6篇文章
    Google如何通過Google Dataset Search來引領數據搜索文章連結:https://lionbridge.ai/articles/how-google-is-leading-the-quest-for-data-with-google-dataset-search/獲取訓練數據是目前阻礙人工智慧進步的重要因素之一。
  • Google Cloud 發布 COVID-19 數據集,可構建 AI 模型來對抗疫情
    雷鋒網了解到,在這個所謂的公共數據集項目中,其數據包括約翰·霍普金斯大學系統科學與工程中心(JHU CSSE)數據集、來自世界銀行的全球健康數據和 OpenStreetMap 數據,所有這些都將免費存儲在 Google Cloud 上——Google 也表示將與這些數據集背後的的組織提前接觸。
  • ai必須掌握在自己手中,不可能由別人替代
    人工智慧熱潮湧動,自動駕駛競爭也愈演愈烈,車企也在逐步宣布開啟ai落地探索。車企ai布局以及巨頭如何抓住機遇順勢而為不斷推出ai戰略,這將是這個系列的最大看點。在爭奪人工智慧的資源上,歷經激烈廝殺的蔚來汽車,在人工智慧方面競爭似乎更加激烈,他們除了在cvlab的技術積累之外,還引入了nlu架構,為人工智慧戰略編寫「原型指令」。可以說,蔚來是目前國內唯一將人工智慧技術落地布局在核心業務上的車企。另外,蔚來汽車還推出了一系列代表ai研發實力的方案,包括車機、交互系統、視覺sensor、執行器等。通過這些方案,其他人工智慧廠商才能準確地將ai技術轉換為產品。
  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    機器學習吧,機器學習吧-面向ai的中文機器學習資源與分享平臺。裡面涵蓋了比較新的機器學習算法,可以看看。當然這僅僅是入門級的機器學習算法,下面會引入深度學習算法的文章。並且機器學習算法的理論比深度學習算法更加複雜,這裡有深度學習算法的專題篇。不管從什麼角度看,機器學習都是一個非常好的方向,希望你對機器學習有更多的了解。謝邀,想先通過搜尋引擎試試看能不能找到一些可以學習的資料。
  • 吳恩達等 AI 大佬發表新年寄語
    【CSDN 編者按】我怕新年的鐘聲太響,你會聽不見我的祝福,我怕除夕的鞭炮太吵,你會收不到我的問候。時至元旦佳節,我選擇提前兩天送上我的新年寄語,祝您新年快樂,萬事如意。
  • 三國志13ai武將文官類威名技能效果解析,如何讓ai快速升級威名
    因此這個官吏系的威名不僅是ai武將的理想威名,甚至很多玩家自己所選擇的武將都喜歡用這個威名。前期發展資金不足,此威名可以帶來資源,而後期勢力之間的比拼存在頻繁的軍隊集結進行決戰,其實消耗的也是錢糧。所以在整個遊戲進度中這個威名都有貢獻,十分受歡迎,且每季度自動增加錢糧收入無需任何條件。
  • CB Insight發布創業百強榜單 AI成功案例最強盤點【附下載】|智東西
    中國科學院院士張鈸認為,現在是人工智慧收穫的季節,這個收穫主要基於三樣東西——大數據、概率統計算法、計算資源,所有的深度學習都在消費這三件東西,這三個資源基本上都是無限的。通過消費這三個資源,我們可以做出很多成果。
  • 築造AI抗疫防線,百度開源業內首個口罩人臉檢測及分類模型
    此次宣布免費開源的自研口罩人臉檢測及分類模型,是基於2018年百度收錄於國際頂級計算機視覺會議ECCV的論文PyramidBox研發,可以在人流密集的公共場景檢測海量人臉的同時,將佩戴口罩和未佩戴口罩的人臉快速識別標註。基於此預訓練模型,開發者僅需使用少量自有數據,便可快速完成自有場景的模型開發。口罩人臉檢測及分類模型,由兩個功能單元組成,可以分別完成口罩人臉的檢測和口罩人臉的分類。