宜遠智能CEO吳博:醫學影像的數據標註、算法方法與算力優化

2020-11-30 雷鋒網


雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文:一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。

註:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊連結:http://www.mooc.ai/open/course/384


一、數據篇(17頁PPT)

1.醫學影像數據資產盤點

2.標註工具——脫敏:大框架、小技巧

3.標註工具第一類——PC+文件夾處理

4.標註工具第二類——專用IT系統和工具:客戶端系統與網站系統

5.第三方標註工具LabelImg

6.自建工具

7.標註工具開發心得

8.標註工具第三類——專用工具+AI輔助標註

二、算法篇(31頁PPT)

1.關於數據分割比例

2.遷移學習

3.框架選型:Pytorch、Caffe、TensorFlow、MXnet

4.目標檢測用於面部皮膚疾病分析

數據脫敏及預處理、皮膚疾病檢測

5.目標檢測用於宮頸基液細胞分析

基於深度學習+GBDT的Two Stage模型

multi CPU+multi GPU宮頸病理三分類系統

6.3D目標檢測用於肺結節CT分析:

數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構(150層+,Unet+Resnet)、分類器與融合

三、算力篇(9頁PPT)

1.架構選型決策:品牌 VS DIY

  • Intel CPU+Nvidia GPU

  • Power CPU+Nvidia GPU

  • Intel CPU

  • Intel +ASIC

  • Intel +FPGA

2、選型決策:雲VS自建

亞馬遜雲、美團雲、阿里雲

3.算力優化:CPU GPU 寬帶優化、CUDA


吳博從數據、算法和算力三個層面,詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。

他指出,醫療數據的價值評估與鑽石類似,可以從數據質量、同分布來源的影像數據尺寸和數據標註程度這三大維度來考核。沒有經過標註的數據就像未經加工的原石,無法體現其價值,因此數據標註是AI醫學影像落地過程中至關重要的一環。

吳博對數據標註工具進行了分類,並分享了自己在開發數據標註工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。

數據層面,企業能做的決策不多,只能「看菜吃飯」,但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。在課程的最後部分,吳博詳細介紹了許多選型決策和算力優化方面的技巧。

嘉賓介紹:

吳博,宜遠智能CEO

學術背景:吳博先後在清華大學、香港浸會大學求學,並在英國利茲大學完成博士後,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發表多篇人工智慧論文。

工業界經驗:2017年創立醫療AI公司:宜遠智能,該公司集結了20多名人工智慧博士以及眾多海內外醫學顧問,為醫療健康領域提供AI增強解決方案,並與多家知名醫院達成合作,並推出成型產品。

創立宜遠智能之前,吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。

2017年成果:吳博領導的宜遠智能團隊在醫學影像領域,取得以下成績:

1.阿里天池醫療AI大賽GPU環節國內最佳;開源系統榮獲大賽人氣獎。

2.面部皮膚診斷分析API、SDK已經進入商業化,並在2017年世界網際網路大會展出。

3.宮頸基液細胞學診斷AI在權威評測中,超出醫生水平。

以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容:

一、數據篇

如何評估數據價值?

醫療人工智慧建立在海量數據的基礎之上,但優質的醫療數據十分稀缺,其價值隨之凸顯。如何準確評估數據的價值,是醫生和投資人非常關心的話題,對此業內尚未形成共識。

吳博認為,醫療數據可以類比為鑽石。鑽石的價值評估對應著顏色、淨度、切工和克拉這四個維度,醫療數據也可如此類比。

顏色越純、淨度越高的鑽石,價值也就越高。對於醫學影像數據來說,它的價值也取決於其乾淨、規範、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據,必然會包含一些雜質,其價值將大打折扣。吳博指出,高質量的數據需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。

鑽石單顆克拉數越高,價值也就越大。吳博認為,鑽石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據,對CT來說就是來自同一設備的,參數和曝光強度都相同的影像數據;對病理圖像來說,則指採用同一染色方法和色度、同一掃描儀及倍數,以及相同存儲格式的影像數據。

雖然AI企業的最終目標是開發出一套通用性強的算法,能通吃各種數據;但作為數據資產方,同分布同來源的影像數據規模越大,其價值就越高。

有些醫院雖然擁有大量數據,但它們來自不同的科室,格式也不盡相同,這種數據的價值是要打一些折扣的。

鑽石成為商品前需要經過切割等加工,醫療數據同樣要經過標註等處理才能釋放其價值。鑽石的切割工藝分為許多個層級,醫療影像數據的標註亦是如此。從基礎的類別標註到類別+病灶方框標註,再到類別+像素級勾畫,標註的精細度逐級提升,數據的價值亦水漲船高。

如何選擇數據標註工具?

工欲善其事,必先利其器。要想對醫療影像數據進行精細化的標註,首先得有好的標註工具。

吳博將標註工具劃分成了三大類別,他將最基礎的一類稱作「pc+文件夾處理」,即讓醫生在pc和工作站上對數據進行分揀。對於醫生來說,專業的數據標註軟體有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網絡影響、安全性較高等優點。不足之處則在於,對後期的數據清洗要求更高,而且過程繁雜,十分消耗人工物力。

更高階的有專用IT系統和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標註工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業經常不得不開發一些自建工具。

宜遠智能在開發數據標註工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。

尤其是在醫學影像領域,標註的數據大多為圖片,天然具備便於展示的優點,因此可以本著方便易用的原則採用H5的canvas來設計標註工具,同時結合css3的變換,滿足圖像縮放、標註的需求。標註人員只需打開瀏覽器即可標註,無需複雜軟體部署。

鑑於有些標註圖片太大(比如一例CT數據多達幾十甚至上百兆,一例病理數據有可能多達1G),網絡傳輸效率低下,有時候需要對標註數據做本地處理。小的項目可以採用數據本地化的方式,使用fiddler等代理軟體將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署,將標註系統部署在內網伺服器上,由標註人員在內網進行標註。

基於這些自建工具,標註人員可以根據需求選擇本地標註或在線標註,操作集中於滑鼠,交互非常友好。標註人員可根據不同標註需求繪製點/線/框,無需複雜設置,打開瀏覽器即可標註,也可以清楚看到哪些已標哪些未標。

隨著技術發展,數據標註本身也呈現出了AI化的趨勢。比如基於以往的標註,可以通過AI模型對數據進行預處理,然後由標註人員在此基礎上做一些校正。

二、算法篇


(算法篇 共有31頁信息量極大的PPT

三、算力篇

吳博認為,算力優化本質上是跟預算做鬥爭,因為任何一家企業的預算和資源都是有限的,必須做很多的決策,要有所取捨。

數據層面,企業能做的決策不多,只能「看菜吃飯」,有多少數據就做多大的事。但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。


就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構成比較高端解決方案。

而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對於研發團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產化將不成問題。

此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優缺點,企業可以視自身情況作出選擇。

……

學員部分提問

雷鋒網(公眾號:雷鋒網)AI掘金志線上直播結束後,學員從不同維度提出了18個問題,吳博對多數問題進行了耐心解答。

問題:

1.多疾病分類的時候,針對嚴重不均衡的數據,除了過採樣以外,還有沒有算法層面的突破?嚴重不均衡的數據集合會不會造成分類時baseline不穩定?

2.如何對多模態數據進行有效利用?

3.針對組織器官數據有哪些標註工具?

4.模型迭代標註調整是什麼意思?

5.今天講的細胞學、病理、肺結節等,有做成產品用到醫院的嗎?

6.病理圖片的顏色千差萬別,如何做預處理?

7.液基細胞學用語義分割做的分割效果如何?

……

本文僅展示了部分內容和10頁PPT,剩下的精彩內容和47頁PPT,歡迎點擊連結:http://www.mooc.ai/open/course/384

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • 首建肺結節3D CT醫學影像診斷金標註資料庫
    目前常用的胸部X線片、CT等醫學影像檢查對於肺癌的篩查效果並不理想,很難看出3毫米以下的結節。以大數據為驅動的人工智慧應用到了醫療健康領域後,誕生了影像組學,即從醫療大數據中提取數據,利用AI方法挖掘腫瘤信息,捕捉和發現小的結節,就可以減少漏診,實現臨床輔助決策。
  • ...與人工智慧企業積極開展合作開發,優化基於人工智慧的醫學影像...
    Subtle Medical團隊與黃仁勳的合照 Subtle Medical立志於將影像檢查流程變得更高效、更安全、更智能。公司利用深度學習算法提高醫學影像的質量及診斷價值,降低醫學影像成像時間、風險及成本。
  • 未來醫療圓桌對話:從醫學理論到醫療場景,AI還需要走多久?丨CCF-G...
    在下午的未來醫療專場上舉行了題為「AI在醫療影像中的真實應用場景」的圓桌會議。據雷鋒網了解,此次圓桌會議由清華x-lab健康醫療創新中心主任鍾宏主持, 廣東省人民醫院影像科主任、南方醫科大學副教授劉再毅,飛利浦大中華區臨床科學部高級總監周振宇,匯醫慧影CEO柴象飛,宜遠智能CEO吳博等四人參與討論。
  • AI+醫療系列之一:智能病理診斷及醫學影像識別系統
    2.2 AI應用於醫學影像識別領域 醫療影像數據是醫療數據的重要組成部分,包括X光、CT、PET-CT、MRI、B超等醫療影像數據。統計數據表明,目前放射科醫生的供給缺口非常大,放射科醫生的年增長率為2%,而醫療影像數據的年增長率為63%,將人工智慧應用於醫療影像領域,一方面可以通過AI輔助成像可以有效縮短檢查時間,減少對人體的輻射傷害,另一方面通過機器學習訓練算法可以實現計算機對疾病的影像診斷。
  • 計算機行業:Alphago Zero算法重大突破,AI應用加速
    隨著Alphago Zero無監督學習的有效實現,AI擺脫了對人工標註的過度依賴,DeepMind帶來了人工智慧算法領域的重大突破。算法、算力的不斷突破減少了對數據數量和質量的要求,人工智慧的發展速度將超出我們之前的預期。
  • 聯影智能 7 項成果入選醫學影像頂會MICCAI 2019
    其中,聯影智能一項應用於早期輕度認知障礙診斷的獨創算法——腦區動態功能網絡模型算法被收錄為大會口頭報告,各項成果已在全國範圍逐步落地,廣泛應用於醫院臨床與科研項目中。作為國際頂級醫學影像會議,MICCAI (International Conference on Medical Image Computing and Computer Assisted Intervention) 的全球影響力與學術權威性不可小覷,歷來是醫學影像計算(MIC)和計算機輔助介入(CAI)領域的風向標。
  • 科大訊飛陶曉東:智能影像技術如何解決臨床問題? | CCF-GAIR 2017
    我們聽了田教授非常有乾貨的演講,下面我給大家的匯報基於我個人在醫學影像方面的研究經歷,以及在科大訊飛智慧醫療事業部的實踐,總共分為三個部分:一是人工智慧的大背景;二是醫學影像解決臨床問題;三是人工智慧時代的醫學影像應該是往哪些方向發展。
  • 詳解:智能醫學影像分析的前沿與挑戰 | 雷鋒網公開課
    雷鋒網按:本文整理自雅森科技高級算法研究員楊士霆,在雷鋒網(公眾號:雷鋒網)硬創公開課上的演講,主題為「智能醫學影像分析的前沿與挑戰」。楊士霆,畢業於臺灣長庚大學電機工程研究所博士班,主攻醫學影像處理與應用。研究領域涉及醫學影像處理,生物醫學資訊,醫用光學,類神經與模糊理論,功能性磁振造影,醫學物理與生醫統計。曾在臺灣林口長庚醫院,寧波杜比醫療負責影像算法開發工作,現任職於北京雅森科技發展公司,擔任高級算法研究員。
  • 吳恩達團隊發布最新醫學影像成果,用 CNN 算法識別肺炎
    研究人員在最近發布的 ChestX-ray14 數據集(Wang et al., 2017)上訓練了 CheXNet。該數據集包含 112,120 張各自標註最多有 14 種不同胸部疾病(包括肺炎)的正面胸透圖像。研究人員使用密集連接(Huang et al., 2016)與批歸一化(Ioffe & Szegedy, 2015)來優化這一深度神經網絡。
  • 顧險峰教授:解讀醫學影像配準的基本算法
    數十年來,核磁共振技術和CT斷層掃描技術徹底地革命了醫學,醫學影像技術使得醫生可以直接看到病人體內,從而精準地進行診斷,制定治療方案,檢驗治療效果。很多病變都會誘發器官組織的變形,或者由器官變形所誘發,例如大腦皮層的萎縮退化誘導老年失智,各種腫瘤會在器官表面形成凸起,骨質流失會引起骨骼的變形。
  • 醫學影像AI的3D Slicer標註方法
    上海理工大學醫學信息工程專業,HealthIT團隊AI暑期培訓班在酷暑高溫下繼續,最近的科研任務之一是對阿爾茨海默病(AD)的腦部MRI圖像進行基於深度學習的計算
  • CVPR 2017精彩論文解讀:綜合使用多形態核磁共振數據的3D生物醫學...
    所以我們繼續邀請了宜遠智能的劉凱博士對生物醫學圖像方面的多篇論文進行解讀,延續之前最佳論文直播講解活動,此次是第2篇。劉凱博士是宜遠智能的總裁兼聯合創始人,有著香港浸會大學的博士學位,曾任聯想(香港)主管研究員、騰訊高級工程師。半個月前宜遠智能的團隊剛剛在阿里舉辦的天池 AI 醫療大賽上從全球2887支參賽隊伍中脫穎而出取得了第二名的優異成績。
  • 「AI+醫學影像」專刊正式上線 | 期刊速遞
    掃描關注,回復「醫學專刊」免費獲取29篇論文電子版專刊序言在現代醫學中,醫學影像檢查是臨床疾病篩查、診斷、治療引導和評估的重要方法和工具,是醫療過程中最重要的環節之一。目前醫院裡70%以上的臨床診斷行為需要藉助醫學影像檢查,影像數據已佔到醫院總數據量的80%~90%,包括超聲、數位化X線攝影(DR)、計算機斷層掃描(CT)、磁共振(MR)、數字減影血管造影(DSA)、胃鏡腸鏡和全切片數位化圖像(WSI)等等,醫學影像平臺已是每家醫院最重要最基礎的臨床醫學平臺。
  • ...鄭冶楓:醫學影像AI為什麼需要小樣本學習和域自適應技術? | CCF...
    在8月9日的醫療科技專場上,騰訊天衍實驗室主任、美國醫學和生物工程學會的會士(AIMBE Fellow)、IEEE醫學影像雜誌副編鄭冶楓博士,分享了小樣本學習和域自適應技術在醫學影像AI問題中的最新研究思路及應用進展。
  • 深度學習在醫學影像中的研究進展及發展趨勢
    深度學習在醫學影像中的研究進展及發展趨勢王麗會1,2, 秦永彬1,21 貴州省智能醫學影像分析與精準診斷重點實驗室,貴州 貴陽 5500252 貴州大學計算機科學與技術學院,貴州 貴陽 550025摘要:醫學影像是臨床診斷的重要輔助工具,醫學影像數據佔臨床數據的90%,因此,充分挖掘醫學影像信息將對臨床智能診斷、智能決策以及預後起到重要的作用
  • 結合影像 AI 技術,構建5G智能影像中心
    各種醫學影像如放射影像、超聲影像、分子與核醫學影像、內鏡影像、病理影像等承載了絕大部分的醫學可視化數據,覆蓋了絕大部分院內臨床科室的業務範疇,是院內-院間遠程智慧醫療的重點應用與落地的板塊。5G智能影像中心網絡建設需求醫學影像中心是遠程影像會診中必不可少的部分。5G+智能影像中心的建設將成為未來主流大中型醫院重點關注的方向。利用5G網絡、人工智慧技術、大數據及雲計算等技術,可實現患者完成超聲、CT、DXR、磁共振等掃查後,圖像數據通過5G網絡傳輸至院內醫療雲,實現醫療影像數據的雲端存儲與跨區域查閱。
  • 計算機視覺已橫跨感知與認知智能
    另外,與可結合常識做猜想和推理進而輔助識別的人類智能系統相比,現階段的視覺技術往往僅能利用影像表層信息,缺乏常識以及對事物功能、因果、動機等深層信息的認知把握。   數據與算力是深度學習的重要支撐   日益豐富的影像內容為深度學習算法提供了大量的數據支撐。
  • MICCAI 2020 深睿醫療8篇高新科研成果呈現醫療影像領域新突破
    在工信部科技司指導下的「肺炎AI影像輔助診斷產品評測」中更是表現優異,獲得榮譽證書。人工智慧在這次疫情中發揮了重要作用,而這些產品的底層技術支撐正是這些高精尖的算法。在今年的工作中,科研團隊提出一種通用的使用大規模有標註的2D自然圖像數據集進行有監督的3D神經網絡預訓練的方法,同時基於深度可分離卷積對3D卷積操作進行加速。
  • MICCAI 2020 | 深睿醫療8篇高新科研成果呈現醫療影像領域新突破
    在工信部科技司指導下的「肺炎AI影像輔助診斷產品評測」中更是表現優異,獲得榮譽證書。人工智慧在這次疫情中發揮了重要作用,而這些產品的底層技術支撐正是這些高精尖的算法。在今年的工作中,科研團隊提出一種通用的使用大規模有標註的2D自然圖像數據集進行有監督的3D神經網絡預訓練的方法,同時基於深度可分離卷積對3D卷積操作進行加速。