雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文:一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。
註:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊連結:http://www.mooc.ai/open/course/384
一、數據篇(17頁PPT)
1.醫學影像數據資產盤點
2.標註工具——脫敏:大框架、小技巧
3.標註工具第一類——PC+文件夾處理
4.標註工具第二類——專用IT系統和工具:客戶端系統與網站系統
5.第三方標註工具LabelImg
6.自建工具
7.標註工具開發心得
8.標註工具第三類——專用工具+AI輔助標註
二、算法篇(31頁PPT)
1.關於數據分割比例
2.遷移學習
3.框架選型:Pytorch、Caffe、TensorFlow、MXnet
4.目標檢測用於面部皮膚疾病分析
數據脫敏及預處理、皮膚疾病檢測
5.目標檢測用於宮頸基液細胞分析
基於深度學習+GBDT的Two Stage模型
multi CPU+multi GPU宮頸病理三分類系統
6.3D目標檢測用於肺結節CT分析:
數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構(150層+,Unet+Resnet)、分類器與融合
三、算力篇(9頁PPT)
1.架構選型決策:品牌 VS DIY
Intel CPU+Nvidia GPU
Power CPU+Nvidia GPU
Intel CPU
Intel +ASIC
Intel +FPGA
2、選型決策:雲VS自建
亞馬遜雲、美團雲、阿里雲
3.算力優化:CPU GPU 寬帶優化、CUDA
吳博從數據、算法和算力三個層面,詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。
他指出,醫療數據的價值評估與鑽石類似,可以從數據質量、同分布來源的影像數據尺寸和數據標註程度這三大維度來考核。沒有經過標註的數據就像未經加工的原石,無法體現其價值,因此數據標註是AI醫學影像落地過程中至關重要的一環。
吳博對數據標註工具進行了分類,並分享了自己在開發數據標註工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。
數據層面,企業能做的決策不多,只能「看菜吃飯」,但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。在課程的最後部分,吳博詳細介紹了許多選型決策和算力優化方面的技巧。
吳博,宜遠智能CEO
學術背景:吳博先後在清華大學、香港浸會大學求學,並在英國利茲大學完成博士後,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發表多篇人工智慧論文。
工業界經驗:2017年創立醫療AI公司:宜遠智能,該公司集結了20多名人工智慧博士以及眾多海內外醫學顧問,為醫療健康領域提供AI增強解決方案,並與多家知名醫院達成合作,並推出成型產品。
創立宜遠智能之前,吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。
2017年成果:吳博領導的宜遠智能團隊在醫學影像領域,取得以下成績:
1.阿里天池醫療AI大賽GPU環節國內最佳;開源系統榮獲大賽人氣獎。
2.面部皮膚診斷分析API、SDK已經進入商業化,並在2017年世界網際網路大會展出。
3.宮頸基液細胞學診斷AI在權威評測中,超出醫生水平。
以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容:
醫療人工智慧建立在海量數據的基礎之上,但優質的醫療數據十分稀缺,其價值隨之凸顯。如何準確評估數據的價值,是醫生和投資人非常關心的話題,對此業內尚未形成共識。
吳博認為,醫療數據可以類比為鑽石。鑽石的價值評估對應著顏色、淨度、切工和克拉這四個維度,醫療數據也可如此類比。
顏色越純、淨度越高的鑽石,價值也就越高。對於醫學影像數據來說,它的價值也取決於其乾淨、規範、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據,必然會包含一些雜質,其價值將大打折扣。吳博指出,高質量的數據需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。
鑽石單顆克拉數越高,價值也就越大。吳博認為,鑽石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據,對CT來說就是來自同一設備的,參數和曝光強度都相同的影像數據;對病理圖像來說,則指採用同一染色方法和色度、同一掃描儀及倍數,以及相同存儲格式的影像數據。
雖然AI企業的最終目標是開發出一套通用性強的算法,能通吃各種數據;但作為數據資產方,同分布同來源的影像數據規模越大,其價值就越高。
有些醫院雖然擁有大量數據,但它們來自不同的科室,格式也不盡相同,這種數據的價值是要打一些折扣的。
鑽石成為商品前需要經過切割等加工,醫療數據同樣要經過標註等處理才能釋放其價值。鑽石的切割工藝分為許多個層級,醫療影像數據的標註亦是如此。從基礎的類別標註到類別+病灶方框標註,再到類別+像素級勾畫,標註的精細度逐級提升,數據的價值亦水漲船高。
工欲善其事,必先利其器。要想對醫療影像數據進行精細化的標註,首先得有好的標註工具。
吳博將標註工具劃分成了三大類別,他將最基礎的一類稱作「pc+文件夾處理」,即讓醫生在pc和工作站上對數據進行分揀。對於醫生來說,專業的數據標註軟體有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網絡影響、安全性較高等優點。不足之處則在於,對後期的數據清洗要求更高,而且過程繁雜,十分消耗人工物力。
更高階的有專用IT系統和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標註工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業經常不得不開發一些自建工具。
宜遠智能在開發數據標註工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。
尤其是在醫學影像領域,標註的數據大多為圖片,天然具備便於展示的優點,因此可以本著方便易用的原則採用H5的canvas來設計標註工具,同時結合css3的變換,滿足圖像縮放、標註的需求。標註人員只需打開瀏覽器即可標註,無需複雜軟體部署。
鑑於有些標註圖片太大(比如一例CT數據多達幾十甚至上百兆,一例病理數據有可能多達1G),網絡傳輸效率低下,有時候需要對標註數據做本地處理。小的項目可以採用數據本地化的方式,使用fiddler等代理軟體將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署,將標註系統部署在內網伺服器上,由標註人員在內網進行標註。
基於這些自建工具,標註人員可以根據需求選擇本地標註或在線標註,操作集中於滑鼠,交互非常友好。標註人員可根據不同標註需求繪製點/線/框,無需複雜設置,打開瀏覽器即可標註,也可以清楚看到哪些已標哪些未標。
隨著技術發展,數據標註本身也呈現出了AI化的趨勢。比如基於以往的標註,可以通過AI模型對數據進行預處理,然後由標註人員在此基礎上做一些校正。
(算法篇 共有31頁信息量極大的PPT)
吳博認為,算力優化本質上是跟預算做鬥爭,因為任何一家企業的預算和資源都是有限的,必須做很多的決策,要有所取捨。
數據層面,企業能做的決策不多,只能「看菜吃飯」,有多少數據就做多大的事。但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。
就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構成比較高端解決方案。
而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對於研發團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產化將不成問題。
此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優缺點,企業可以視自身情況作出選擇。
……
雷鋒網(公眾號:雷鋒網)AI掘金志線上直播結束後,學員從不同維度提出了18個問題,吳博對多數問題進行了耐心解答。
問題:
1.多疾病分類的時候,針對嚴重不均衡的數據,除了過採樣以外,還有沒有算法層面的突破?嚴重不均衡的數據集合會不會造成分類時baseline不穩定?
2.如何對多模態數據進行有效利用?
3.針對組織器官數據有哪些標註工具?
4.模型迭代標註調整是什麼意思?
5.今天講的細胞學、病理、肺結節等,有做成產品用到醫院的嗎?
6.病理圖片的顏色千差萬別,如何做預處理?
7.液基細胞學用語義分割做的分割效果如何?
……
本文僅展示了部分內容和10頁PPT,剩下的精彩內容和47頁PPT,歡迎點擊連結:http://www.mooc.ai/open/course/384
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。