使用AI技術來檢測乳腺癌,如今已有諸多研究,但大多是基於磁共振、乳腺X線影像進行預測。而 超聲是中國女性乳腺癌篩查的主要方式 。如何利用好超聲影像,進行乳腺癌篩查,並對乳腺癌做分子亞型分類,是中國AI醫療領域一個重要且有待拓展的方向。
清華大學、北京智源人工智慧研究院以及北京協和醫院的研究團隊在這一方向進行合作,在2020年 6月份曾發布一項基於VGG模型,對超聲影像進行良/惡性檢測 及分子亞型分類的深度神經網絡模型SonoBreast,當時模型在乳腺癌分子分型上的準確率為56.3%,F1 Score為45.8%。
研究團隊經過數月對數據集預處理算法和訓練模型的改進,根據近期公布結果, 這一模型的分子分型準確率提升了近20個點,達到 76%;而在二分類問題上可以達到93%的準確率。
從臨床的角度來看,這些結果距離使用還有很遠的距離,但卻代表了幾個新穎的研究路徑:
嘗試使用超聲圖像,由於超聲檢查具有無創、簡便、動態等優點,能讓模型更簡便、具有普遍適用性;
進行分子亞型檢測而非僅僅良/惡檢測。分子亞型的檢測,使用肉眼往往是無法分辨的,但對於乳腺癌治療方案卻有重要的指導價值,以往只能通過活檢手段才能進行判斷;
使用聯邦學習技術,將多家醫院的數據進行結合,做到數據不出本地,但訓練效果共享。
1
當前乳腺癌檢測所遇到的困難
女性乳腺是由皮膚、纖維組織、乳腺腺體和脂肪組成的,來源於乳腺導管和小葉上皮的惡性腫瘤是最常見的乳腺惡性腫瘤。
正如我們所知道的大多數癌症一樣,原位乳腺癌(不會轉移),並不致命;但一旦乳腺癌細胞喪失正常細胞的特性,細胞之間連接鬆散,游離的癌細胞就可以隨血液或淋巴液播散全身,形成轉移,危及生命。
根據世界衛生組織(WHO)的報告,2018 年全球新增 209 萬乳腺癌病例,其中 62.7 萬為死亡病例, 中國每年有近 4 萬多女性死於本病。
早發現、早診斷,是提高乳腺癌療效的關鍵所在。當下對乳腺癌的檢測包括乳腺 X 線攝影、超聲(US),必要時則進行乳腺磁共振檢查(MRI)。
乳腺 X 線攝影
乳腺超聲
乳腺磁共振
乳腺 X 線攝影是近年來國際上推薦的乳腺癌篩查中的主要方法,這種方法較適用於乳腺密度相對較低的女性,而乳腺超聲則相對比較適合於緻密性乳腺。
亞洲女性的乳腺密度相對緻密,對於緻密型乳腺,超聲相較於乳腺X線有較高的敏感性,且對人體沒有輻射傷害。 因此在中國,大多體檢會偏向於使用 超聲。中國也是目前世界範圍內乳腺癌超聲數據最為豐富的國家。」
當然通過這種方式,醫生僅能得出一個良/惡的初步判斷, 對於乳腺癌的分子亞型,人眼是無法察覺的。
由於乳腺癌在治療效果、藥物反應、預後等方面存在異質性,而這些,根據目前的臨床認識,乳腺癌的分子亞型是患者治療方式選擇的重要依據。乳腺癌的分子分型分為 Luminal A 型,Lunimal B型,HER-2過表達型和三陰(TN)型 四種 。其中三陰型乳腺癌具有更強的侵略性,且預後最差。
因此即使已知是乳腺癌,若想做出最佳的治療方案,還需要判定其分子亞型。目前的醫療手段一般是,通過活檢(穿刺等)獲取病灶組織進行免疫組化檢測,從而獲得乳腺癌的亞型類型。
這種手段的缺點在於:
顯然,針對檢測這種高成本、長周期、有損傷,且局部非代表性的問題,最佳的取代手段就是 AI 。
2
端到端:輸入超聲圖像,輸出分子亞型結果
正如前面提到的,儘管國際上 AI 乳腺癌檢測的方法大部分集中於磁共振和乳腺X線, 但針對國內群體,最佳的檢測數據應是超聲圖像。
這也正是 SonoBreast 研究項目的重要意義的體現。研究人員畢明傑表示, 「目前有許多從遺傳學、分子、細胞層面對乳腺癌分子亞型進行研究的,但使用超聲做分子亞型檢測,似乎還沒有人做。」
遺傳學、分子、細胞層面的檢測,是在活檢之後,無法避免剛才提到的諸多缺點。
乳腺癌超聲圖像預測
而作為對比,SonoBreast,只需要將一張超聲圖片輸入,便可以在幾秒鐘之內獲得分子亞型的分類結果。目前,研究團隊已經發布了Web端接口( open.baai.ac.cn/sonobreast ),任何人都可以上傳超聲圖像,從而獲得一個可借鑑的預測結果,這個結果包含了對每種亞型的預測置信度。
這種方案的關鍵點在於將超聲圖像與分子亞型之間建立相關性,從而準確預測患者的預後,通過無創且全局的方式協助臨床上醫生做出醫療決策。
例如:
復發性乳腺癌的分子亞型可能會發生變化,SonoBreast採用超聲圖像端到端的預測方式,有望避免因為需要額外亞型評估而重複活檢。
對於晚期乳腺癌,SonoBreast有望讓這部分患者避免活檢和手術,通過無創準確的術前評估方式提供患者的分子亞型信息,輔助醫生更快速準確地制定治療方案。
如果在手術之前能預測出乳腺癌的亞型為三陰型,那麼可能會選擇更為激進的治療方式,例如做全乳切除而非保乳。
3
數據更為重要
SonoBreast 模型使用了卷積神經網絡 VGG-19進行特徵提取,然後將特徵送入到全連接層進行二分類(這裡採用標準的二分類方法),並將所有層從頭開始訓練。
這裡沒有採用ImageNet 的任何預訓練,因為,據模型的設計者畢明傑介紹,「ImageNet 中都是一些自然圖片,這與超聲的特徵差別很大,ImageNet 的預訓練模型並不會帶來任何好處。」
畢明傑,法國留中學者,師從清華大學唐傑教授
事實上,實驗人員表示,「目前來看,具體使用哪種模型影響並不是很大,我們也嘗試了DenseNet 121 和 ResNet 152結果差不多,起關鍵作用的還是數據。」
研究人員的數據主要來源於協和醫院。在這次合作中, 協和醫院提供了750例乳腺癌病例,其中包括5000多張乳腺癌超聲影像,並且對分子分型進行了標註。
與半年前的版本不同的是,最新版本的模型性能的提升很大程度上依賴於模型訓練前期中對圖像的處理。據畢明傑介紹,數據在輸入到CNN模型之前,首先會使用一個被稱為「 自適應直方圖均衡 」的方法對特殊的圖像進行變換,然後採用一個自主研發的切分算法對超聲波圖像中的不相關邊界信息進行過濾和切除,這種邊界的去除意義非常大,也是性能提升近 20%的關鍵點之一。
另一方面,研究團隊表示,目前正在進行更多數據的可能性探討,例如將數據再增加10000張乳腺癌超聲影像,以其能夠進一步提升模型性能。
為了進一步擴大數據集,研究團隊也與智源研究院的數據中心進行合作,希望 通過聯邦學習的技術,將多家醫院的超聲影像進行聯合訓練,從而提升模型效果。 聯邦學習,作為一種新型的人工智慧基礎技術,它能夠保證數據不出本地(例如不出醫院的資料庫)的同時,讓多個單位的數據進行協同訓練,從而保證了在數據效果疊加的基礎上,還能夠確保各單位的數據隱私。
當然,技術的本質在於對社會產生價值,畢明傑表示。
「我們隨後將提供乳腺癌超聲影像數據,從而sonobreast.ai上舉行一些公開的機器學習競賽,讓大家共同來推動中國在乳腺癌領域的研究; 另一方面,我們希望能夠將SonoBreast 免費提供給每一個醫生和病人,建立個案管理,進行病例的上傳和管理,從而更加有效地設計治療方案。」
由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報導, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.