2018 Data Science Bowl 第一名方案新鮮出爐,鑑定細胞核新技能 get

2020-12-13 雷鋒網

雷鋒網 AI 研習社按:最近一段時間以來,醫學影像作為人工智慧重要的應用領域,受到學界和越來越多 AI 公司的關注。Nature、Science、Cell 上頻頻刊登在醫療影像中應用 AI 的文章,谷歌、IBM、依圖科技等公司也紛紛加入 AI+ 醫療的競爭……

作為全球最大的數據科學競賽平臺,Kaggle 也順理成章搭上了這班順風車,與 Booz Allen Hamilton 諮詢公司一同推出了 2018 年 Data Science Bowl 比賽。

眾所周知,鑑定細胞的細胞核是大多數醫學分析的起點。人體 30 萬億細胞中,大部分都有細胞核,而這些細胞核中存儲了 DNA。識別細胞核可以讓研究人員識別樣本中的每一個細胞,通過測量細胞對各種治療措施的反應,研究人員可以了解潛在的生物過程,進而提高藥物檢測的效率,縮短新藥的開發周期。

本次比賽要求參賽者構建計算機視覺模型,從圖片中識別不同條件下的細胞核,並且以均值平均精度(MaP)和交並比(IoU)作為評價指標。該比賽獎池巨大,達到了 10 萬美金之多,共吸引了 861 支隊伍。

下面是第一名的解決方案,雷鋒網 AI 研習社編譯整理如下。

U.Net vs Mask-RCNN

我們之前有參加過圖像分割挑戰賽(如 Carvana,Urban 3D,Spacenet,Konica Minolta),在這些比賽中,我們積累了豐富的經驗。因此,這一次比賽的選擇非常明確——開了掛的 U-Net!

目標掩膜(target mask)

首先,我們嘗試了最簡單的方法,並將針對二進位掩膜的分水嶺算法加入其中(換言之,修改 GT 掩膜使得細胞核之間總是存在間隙),這讓我們在公開榜單上獲得了大約 500 的分數。顯然,這不足以贏得比賽。

然後,我們加入了代表輪廓的通道,輪廓的寬度取決於細胞核的大小。這些掩膜 + 簡單的分水嶺後置處理算法讓我們在公開榜單上大約獲得了 525 分。儘管這並不是一個大的突破,但是它給了我們對正確方向的啟示。

回過頭來看這些錯誤,很明顯,網絡很容易在不模糊的地方預測輪廓。然而,在我們真正需要通過輪廓去分割出細胞核的地方,這些網絡的表現卻非常糟糕。因此,我們決定只預測細胞之間的邊界。很容易地,我們通過單一的網絡處理結果 + 分水嶺後置處理在公共榜單上獲得了大於 550 的分數。

儘管我們在一個通道中有全掩膜,在另一個通道中有細胞的邊界,但有時結果還是不夠好。一個更好的方法是改變原子核的掩膜並且使邊界上的像素點變成空白。這也讓我們能夠使用 softmax 而不是 sigmoid 函數作為激活函數。這樣可以更好地分離出原子核,但是實際上,由於交並比(IoU)的閾值太高,均值平均精度(MaP)卻被降低了。我們通過額外在全掩膜上訓練的網絡去解決這個問題,並且在後置處理的步驟中將結果進行融合。

最終方案

2 通道 sigmoid 激活函數掩膜網絡(例如,掩膜-邊界、邊界)或3通道 softmax 激活函數掩膜網絡(例如,掩膜-邊界、邊界、1-掩膜-邊界)2 通道全掩膜(例如,掩膜、邊界)

對於圖c43e356beedae15fec60ae3f8b06ea8e9036081951deb7e44f481b15b3acfc37,處理結果看起來是這樣的:

在 post 處理之後的結果為:

圖像增強

由於只有幾百張訓練圖像,我們需要提出具體的數據增強方案來防止模型過擬合,更好地泛化。我們用了大量的數據增強方法(或許太多了)

對比度受限自適應直方圖均衡化算法(Clahe),銳化(Sharpen),凸點(Emboss)高斯噪聲彩圖到灰度轉換(Color to Gray)反相——我們本不該使用它的,這種方法使得第二階段一些圖像沒有被準確地預測將灰度圖重新映射到隨機顏色的圖像中模糊(Blur)、一般模糊(Median Blur)、非常模糊(Motion Blur)對比度和亮度隨機縮放、旋轉、翻轉重度幾何變換:彈性變換(Elastic Transform)、透視變換(Perspective Transform)、分段仿射變換(Piecewise Affine transforms)、枕形畸變(Pincushion Distortion)隨機色相、飽和度、明度(HSV)變換通道重排——由於數據的天然性,這一點非常重要圖像上細胞核的複製。這樣就創造了大量重疊的細胞核,似乎有助於網絡更好地學到重疊細胞核的邊界。

網絡架構

我們使用在 ImageNet 上預訓練好的、類似於編碼器——解碼器結構的 UNet 網絡。

令人驚訝的是,像 VGG16 這樣的簡單編碼器根本不適用於這個比賽,比如在細胞組織上看起來像細胞核(但事實上並不是)的困難情況下就失敗了,尤其是在像 59b35151d4a7a5ffdd7ab7f171b142db8cfe40beeee67277fac6adca4d042c4 這種彩色圖片中:

這些實驗之後,我們決定進行更加深入的研究!結果顯示,本次比賽中性能最好的模型是:DPN-92, Resnet-152,INceptionResnetV2,Resnet101

二級模型/後置處理

在這個部分,我們使用預測出的細胞核作為候選,來訓練 LightGBM 模型。每一個候選都是通過最低的(決策樹)分裂閾值挑選出來的,並且試圖與較高的閾值和損失分開。我們使用幾個基本的形態學特徵來描繪候選,例如:堅固性、循環性、凸性、面積、計數等。預測目標是交互比,之後根據預測出的交互比選擇候選的最佳閾值,將交互比很小的候選直接刪除。

額外數據

我們從 janowczyk、nucleisegmentationbenchmark、isbi2009、BBBC020、TNBC 數據集中額外添加了一些圖像,其中一部分圖像降低了我們在公共榜單上的得分,使得對彩色圖片的預測不那麼準確。很遺憾的是我們沒有時間去找到問題的根源,進而做出進一步的調整。

集成

我們使用了一種簡單的方法:僅僅在後置處理之前對掩膜的結果取了平均。

訓練

隨機裁剪(random crops): 256*256批處理尺寸(batch size):16優化器:Adam學習率:初始值為十的負四次方(我們有不同的 LR 策略,但是大多數情況下選擇不超過十的負四次方的小 LR 值)。

損失函數

對於使用 sigmoid 激活函數和 2 通道掩膜的網絡,我們為每個通道使用「binary_crossdentropy」和「soft_dice」的組合。 對於使用 softmax 激活函數和 3 通道掩膜的網絡,我們為每個通道使用 「categorical_crossentropy」和「soft_dice」(soft dice 僅僅適用於掩膜和邊界通道)

測試時間增強

標準翻轉/旋轉(0度,90度,180度,270度)。

via Kaggle

雷鋒網 AI 研習社編譯整理。

相關焦點

  • 細胞核可測量細胞本體感受的形狀變化來控制動態細胞行為
    細胞核可測量細胞本體感受的形狀變化來控制動態細胞行為 作者:小柯機器人 發布時間:2020/10/17 23:07:33 西班牙巴塞隆納科技研究所Verena Ruprecht、Stefan Wieser等研究人員合作發現,細胞核可測量細胞本體感受的形狀變化來控制動態細胞行為
  • 2018年11月9日Science期刊精華,我國科學家同期發表兩篇Science論文
    2018年11月13日/生物谷BIOON/---本周又有一期新的Science期刊(2018年11月9日)發布,它有哪些精彩研究呢?讓小編一一道來。圖片來自Science期刊。1.Science:重大進展!
  • Science:細胞核就像一把尺子,可調整細胞對擁擠空間的反應
    此外,細胞是否能檢測到並適應性地應對擁擠空間中的變形還不得而知。在一項新的研究中,為了測試細胞具有檢測和應對環境引起的它們的形狀發生變化的能力的假設,來自來自奧地利、英國、法國、瑞士、俄羅斯和美國的研究人員構建出人工微環境,用於模擬腫瘤細胞和免疫細胞在擁擠的組織中經歷的情形。通過結合動態限制、力測量和活細胞成像,他們能夠定量確定細胞在它們的形狀受到精確控制的物理擾動時所作出的反應。
  • 薦書 | R for Data Science
    本書合著者之一,大名鼎鼎的Hadely Wickham本書2016版封面Book descriptionLearn how to use R to turn raw data into insight, knowledge, and understanding.
  • 細胞核決定細胞對空間限制的反應
    細胞核決定細胞對空間限制的反應 作者:小柯機器人 發布時間:2020/10/17 23:02:50 法國巴黎文理研究大學M. Piel和瑞士蘇黎世聯邦理工學院D. J. Müller課題組合作取得一項新突破。
  • 前言資訊005|Pokémon GO、Cryptocurrencies、Data Science
    >資訊/數聯惠法平臺最新推出欄目,以世界各行業先進報刊、精英雜誌作為原文引用來源,在法律、財經、金融與科技的交叉領域進行檢索,篩選收集行業的前沿資訊,最終翻譯整合進行專題推送,共同了解大數據時代、科技時代、人工智慧時代的行業發展新動向
  • 2018年11月30日Science期刊精華,我國科學家同期發表4篇Science論文
    2018年12月6日/生物谷BIOON/---本周又有一期新的Science期刊(2018年11月30日)發布,它有哪些精彩研究呢?讓小編一一道來。圖片來自Science期刊。這項研究包括收集來自12名患者的細胞樣本,隨後分析它們,其中的10名患者提供來自原發性癌症和轉移性癌症的細胞數據。通過使用來自這兩種來源的細胞數據,他們能夠分離出和鑑定因每個患者中發生的突變而產生的遺傳譜系。他們使用甲基化數據和拷貝數信息來識別這些遺傳譜系,這允許他們能夠追蹤它們從原發性腫瘤細胞轉變為轉移性癌細胞時所經歷的進化變化。
  • 三篇Science揭示相分離與基因轉錄存在密切關聯
    2018年7月29日/生物谷BIOON/---DNA結合轉錄因子(TF)是真核基因表達的典型調節因子。針對轉錄因子的早期研究揭示出它們的結構良好的DNA結合結構域(DNA binding domain, DBD)並鑑定出轉錄所需的功能上至關重要的激活結構域(activation domain, AD)。
  • Science:在擁擠不堪的組織環境裡,細胞如何擺脫壓力?
    ,是細胞核觸發了這種「逃避反射」機制。一旦細胞壓力超過了細胞核的大小,這種反射就會被激活。該研究結果有助於預測癌症治療反應和腫瘤的轉移性擴散。 當空間太過擁擠時,包括腫瘤細胞在內的大多數細胞都會掙脫出來。因此,該團隊假設,細胞具有檢測並響應環境誘導的形狀變化的能力。 多年來,病理學家一直在評估細胞核形狀的變化,以區分腫瘤生長的不同階段。然而,這些細胞核的結構和機械變化對癌細胞功能的影響仍然是完全未知的。
  • 第一批職業技能等級認定企業名單出爐
    原標題:第一批職業技能等級認定企業名單出爐   第一批擬支持開展職業技能等級認定
  • Science重磅發布:人類大腦細胞結構的三維概率圖譜
    細胞結構是腦微結構劃分的基本參照。在這裡我們介紹Julich-Brain,一個包含皮層區域和皮層下核團的細胞結構3D圖譜。該圖譜以概率的方式研究了個體大腦之間的差異。
  • 淺談美國數據科學(Data Science)專業
    例如在美國最大的媒體公司NBC Universal和體育公司MLB做data science,這些傳統公司現在很需要會處理數據或者「大數據」的技術人才。過去大家覺得數據就是在Excel裡隨便拖拖拉拉就可以了,現在發現Excel連數據都裝不下了。現在「大數據」這個詞非常火熱,其實這就是數據科學一個很重要的應用領域。
  • 雪梨大學master of data science 數據科學碩士值得了解一下
    雪梨大學就不過多介紹了,今天重點介紹一個近年來比較熱門的大數據相關的專業-雪梨大學的master of data science 數據科學碩士,
  • 美國高校專業解讀 | Data Science — 大數據下的新興專業
    數據科學家的工作內容以高級建模為主,會針對複雜問題來設計針對性的技術方案,比如Uber叫車的ETA、各種定價系統、Airbnb和金融行業的Fraud Detection、Amazon物流管理、FB/Linkedin的社交網絡或者ebay/Airbnb/Uber此類供需雙方Marketplace市場規模的實驗。
  • 打入細胞「內部」病毒就能安心繁衍?細胞核不答應
    臭名昭著的皰疹病毒讓自己的DNA潛進細胞核中,就能利用宿主擴增病毒DNA,躺進繁衍的「溫床」?不會!一個蛋白新功能的發現,刷新了人類對細胞核「中樞」天然免疫防禦能力的認識——  打入細胞「內部」病毒就能安心繁衍?
  • 關於美國數據科學碩士(Data Science)專業解析及名校推薦詳解
    熱門的MSDS數據科學專業基本上分布在大城市和名校,但因為專業較新,並沒有一套可信的排名。項目的綜合性課程體系有助於學生習得專業技能與知識,以開發用於下一代大規模信息系統部署相關的技術層,以及分析這些系統生成的數據。畢業生就業形勢良好,能夠成為前沿信息技術、軟體服務與社會傳媒企業中備受青睞的軟體工程師、數據科學家與項目經理人。
  • 2018年2月16日Science期刊精華
    2018年2月22日/生物谷BIOON/---本周又有一期新的Science期刊(2018年2月16日)發布,它有哪些精彩研究呢?讓小編一一道來。圖片來自Science期刊。相關研究結果發表在2018年2月16日的Science期刊上,論文標題為「Dentate gyrus mossy cells control spontaneous convulsive seizures and spatial memory」。原漿性星形細胞僅在海馬體的一個區域中發現,它們的數量很少,但每個細胞都與數以萬計的其他的海馬體神經細胞連接在一起。
  • 2019年1月11日Science期刊精華
    2.Science:揭示大腦星形膠質細胞在控制晝夜節律中的新作用doi:10.1126/science.aat4104; doi:10.1126/science.aav9706在一項新的研究中,來自英國劍橋大學醫學研究委員會分子生物學實驗室的研究人員發現星形膠質細胞,即包圍並支持大腦神經元的「看護」細胞,在晝夜節律(即身體24小時的生物鐘)中起著比之前理解的更重要的作用。
  • 單細胞解析度下的蚊子細胞免疫
    他們揭示了單細胞解析度下的蚊子細胞免疫。這一研究成果於2020年8月28日發表在《科學》雜誌上。 他們鑑定了甘比亞按蚊和埃及伊蚊蚊載體8506血細胞的轉錄組。他們的數據揭示了血細胞的功能多樣性,其中粒細胞表達了效應基因獨特且進化保守的亞型。
  • 新單細胞工具可用於新鮮和冷凍人類腫瘤分析
    新單細胞工具可用於新鮮和冷凍人類腫瘤分析 作者:小柯機器人 發布時間:2020/5/14 12:37:42 美國麻省理工學院Aviv Regev、Orit Rozenblatt-Rosen等研究人員,合作開發了新單細胞工具可用於新鮮和冷凍人類腫瘤的分析