宜遠智能CEO吳博:醫學影像的數據標註、算法方法與算力優化

2020-12-15 雷鋒網

雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文:一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。

註:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊連結:http://www.mooc.ai/open/course/384

一、數據篇(17頁PPT)

1.醫學影像數據資產盤點

2.標註工具——脫敏:大框架、小技巧

3.標註工具第一類——PC+文件夾處理

4.標註工具第二類——專用IT系統和工具:客戶端系統與網站系統

5.第三方標註工具LabelImg

6.自建工具

7.標註工具開發心得

8.標註工具第三類——專用工具+AI輔助標註

二、算法篇(31頁PPT)

1.關於數據分割比例

2.遷移學習

3.框架選型:Pytorch、Caffe、TensorFlow、MXnet

4.目標檢測用於面部皮膚疾病分析

數據脫敏及預處理、皮膚疾病檢測

5.目標檢測用於宮頸基液細胞分析

基於深度學習+GBDT的Two Stage模型

multi CPU+multi GPU宮頸病理三分類系統

6.3D目標檢測用於肺結節CT分析:

數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構(150層+,Unet+Resnet)、分類器與融合

三、算力篇(9頁PPT)

1.架構選型決策:品牌 VS DIY

Intel CPU+Nvidia GPU

Power CPU+Nvidia GPU

Intel CPU

Intel +ASIC

Intel +FPGA

2、選型決策:雲VS自建

亞馬遜雲、美團雲、阿里雲

3.算力優化:CPU GPU 寬帶優化、CUDA

吳博從數據、算法和算力三個層面,詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。

他指出,醫療數據的價值評估與鑽石類似,可以從數據質量、同分布來源的影像數據尺寸和數據標註程度這三大維度來考核。沒有經過標註的數據就像未經加工的原石,無法體現其價值,因此數據標註是AI醫學影像落地過程中至關重要的一環。

吳博對數據標註工具進行了分類,並分享了自己在開發數據標註工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。

數據層面,企業能做的決策不多,只能「看菜吃飯」,但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。在課程的最後部分,吳博詳細介紹了許多選型決策和算力優化方面的技巧。

嘉賓介紹:

吳博,宜遠智能CEO

學術背景:吳博先後在清華大學、香港浸會大學求學,並在英國利茲大學完成博士後,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發表多篇人工智慧論文。

工業界經驗:2017年創立醫療AI公司:宜遠智能,該公司集結了20多名人工智慧博士以及眾多海內外醫學顧問,為醫療健康領域提供AI增強解決方案,並與多家知名醫院達成合作,並推出成型產品。

創立宜遠智能之前,吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。

2017年成果:吳博領導的宜遠智能團隊在醫學影像領域,取得以下成績:

1.阿里天池醫療AI大賽GPU環節國內最佳;開源系統榮獲大賽人氣獎。

2.面部皮膚診斷分析API、SDK已經進入商業化,並在2017年世界網際網路大會展出。

3.宮頸基液細胞學診斷AI在權威評測中,超出醫生水平。

以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容:

一、數據篇

如何評估數據價值?

醫療人工智慧建立在海量數據的基礎之上,但優質的醫療數據十分稀缺,其價值隨之凸顯。如何準確評估數據的價值,是醫生和投資人非常關心的話題,對此業內尚未形成共識。

吳博認為,醫療數據可以類比為鑽石。鑽石的價值評估對應著顏色、淨度、切工和克拉這四個維度,醫療數據也可如此類比。

顏色越純、淨度越高的鑽石,價值也就越高。對於醫學影像數據來說,它的價值也取決於其乾淨、規範、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據,必然會包含一些雜質,其價值將大打折扣。吳博指出,高質量的數據需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。

鑽石單顆克拉數越高,價值也就越大。吳博認為,鑽石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據,對CT來說就是來自同一設備的,參數和曝光強度都相同的影像數據;對病理圖像來說,則指採用同一染色方法和色度、同一掃描儀及倍數,以及相同存儲格式的影像數據。

雖然AI企業的最終目標是開發出一套通用性強的算法,能通吃各種數據;但作為數據資產方,同分布同來源的影像數據規模越大,其價值就越高。

有些醫院雖然擁有大量數據,但它們來自不同的科室,格式也不盡相同,這種數據的價值是要打一些折扣的。

鑽石成為商品前需要經過切割等加工,醫療數據同樣要經過標註等處理才能釋放其價值。鑽石的切割工藝分為許多個層級,醫療影像數據的標註亦是如此。從基礎的類別標註到類別+病灶方框標註,再到類別+像素級勾畫,標註的精細度逐級提升,數據的價值亦水漲船高。

如何選擇數據標註工具?

工欲善其事,必先利其器。要想對醫療影像數據進行精細化的標註,首先得有好的標註工具。

吳博將標註工具劃分成了三大類別,他將最基礎的一類稱作「pc+文件夾處理」,即讓醫生在pc和工作站上對數據進行分揀。對於醫生來說,專業的數據標註軟體有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網絡影響、安全性較高等優點。不足之處則在於,對後期的數據清洗要求更高,而且過程繁雜,十分消耗人工物力。

更高階的有專用IT系統和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標註工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業經常不得不開發一些自建工具。

宜遠智能在開發數據標註工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標註調整等需求。

尤其是在醫學影像領域,標註的數據大多為圖片,天然具備便於展示的優點,因此可以本著方便易用的原則採用H5的canvas來設計標註工具,同時結合css3的變換,滿足圖像縮放、標註的需求。標註人員只需打開瀏覽器即可標註,無需複雜軟體部署。

鑑於有些標註圖片太大(比如一例CT數據多達幾十甚至上百兆,一例病理數據有可能多達1G),網絡傳輸效率低下,有時候需要對標註數據做本地處理。小的項目可以採用數據本地化的方式,使用fiddler等代理軟體將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署,將標註系統部署在內網伺服器上,由標註人員在內網進行標註。

基於這些自建工具,標註人員可以根據需求選擇本地標註或在線標註,操作集中於滑鼠,交互非常友好。標註人員可根據不同標註需求繪製點/線/框,無需複雜設置,打開瀏覽器即可標註,也可以清楚看到哪些已標哪些未標。

隨著技術發展,數據標註本身也呈現出了AI化的趨勢。比如基於以往的標註,可以通過AI模型對數據進行預處理,然後由標註人員在此基礎上做一些校正。

二、算法篇

(算法篇 共有31頁信息量極大的PPT

三、算力篇

吳博認為,算力優化本質上是跟預算做鬥爭,因為任何一家企業的預算和資源都是有限的,必須做很多的決策,要有所取捨。

數據層面,企業能做的決策不多,只能「看菜吃飯」,有多少數據就做多大的事。但在算力層面,企業有很多的選擇,比如選擇什麼樣的框架,選擇品牌設備還是DIY設備,選擇雲服務還是自建機房等。

就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構成比較高端解決方案。

而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對於研發團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產化將不成問題。

此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優缺點,企業可以視自身情況作出選擇。

……

學員部分提問

雷鋒網AI掘金志線上直播結束後,學員從不同維度提出了18個問題,吳博對多數問題進行了耐心解答。

問題:

1.多疾病分類的時候,針對嚴重不均衡的數據,除了過採樣以外,還有沒有算法層面的突破?嚴重不均衡的數據集合會不會造成分類時baseline不穩定?

2.如何對多模態數據進行有效利用?

3.針對組織器官數據有哪些標註工具?

4.模型迭代標註調整是什麼意思?

5.今天講的細胞學、病理、肺結節等,有做成產品用到醫院的嗎?

6.病理圖片的顏色千差萬別,如何做預處理?

7.液基細胞學用語義分割做的分割效果如何?

……

本文僅展示了部分內容和10頁PPT,剩下的精彩內容和47頁PPT,歡迎點擊連結:http://www.mooc.ai/open/course/384

相關焦點

  • 專訪宜遠智能:高舉科研合作大旗,在AI醫療界「畫圓」的初生犢
    到目前為止,這家四個月的公司已經先後與香港大學深圳醫院、南方醫科大附屬醫院、復旦大學附屬中山醫院的科研團隊展開合作,項目已經涵蓋骨科智能診斷、皮膚病智能篩查、肺結節篩查領域,在具體合作細則上,公司負責模型,醫院/醫生負責臨床問題定位、數據標註解讀等。「算法公司比數據公司值錢」「算法還是數據,這是一個問題?」
  • 重磅| 「生物醫學影像發展戰略」專輯出版
    生物醫學影像不僅是建設健康中國的重要支柱,也是實施智能製造和國家大數據戰略的重要抓手;不僅能為建設科技強國和人才強國做出貢獻,也是國家安全和社會穩定的重要保障。,實現結構與功能研究的結合;(ⅲ) 大尺度三維重建的體電子顯微成像技術,通過優化樣品製備、成像及分析,實現整個流程的高通量系統集成,從而進行腦聯結組等生物結構的圖譜重建;(ⅳ) 具有飛秒量級時間分辨的超快電鏡技術,通過進一步發展脈衝電子源、液相樣品室等,將為蛋白質分子異構、生物組織與納米材料的物理化學相互作用等動態過程研究提供新的觀測工具;(ⅴ) 大數據存儲和處理技術與基於人工智慧的圖像處理方法,將進一步推動海量電鏡數據的快速
  • 全球醫學影像專利分析報告,GPS三巨頭的中場戰事
    據統計,目前醫療數據中超過90%來自醫學影像,醫學影像數據已經成為醫生診斷必不可少的「證據」之一。其中包括X射線、CT、MRI、PET、超聲成像、病理圖像等常見影像。近年來,隨著AI技術的高速發展,人工智慧技術在放射影像中的輔助診斷功能越來越豐富。
  • 頂級「AI+醫學影像」課程預告,第二期:AI 醫學影像的三大技術實戰...
    >柏文潔:肽積木科技CEO、大數據領域連續創業者一個只給AI醫療從業者、AI研究背景的高校師生、影像科醫師、CFDA工作人員看的系列課程,本周三將再次和大家見面。柏文潔,北京肽積木科技有限公司創始人&CEO大數據領域的連續創業者,知名大數據公司信柏科技、時趣互動運營核心創始成員。AI算法工程師,獨創的LP-NET算法在醫療影像病灶識別方面取得國際領先水平。
  • 進入高質量時代的數據標註 已成為AI價值新高地?
    作為人工智慧產業的內部驅動力,數據、算法和算力三大要素對人工智慧技術的升級發展至關重要。當下,人工智慧正加速往應用人工智慧方向發展,在算法、算力沒有重大突破的前提下,質量高和安全性強的數據成為人工智慧商業化落地的關鍵點。
  • 專訪數坤科技CEO馬春娥:B輪2億元,立足心臟影像,打造全能「數字...
    馬春娥認為,這塊藍海的保留主要由於數據難於獲取、模型需重新搭建以及醫院資源存在限制。「心臟不像肺部和糖網,有幾十萬的公開數據集,有各種開源模型。」馬春娥說,「要做心臟影像,從算法到數據都要從零開始。」要獲取數據,首先要找到合作醫院,取得數據後還要考慮標註和標註質量的問題。加之沒有開源算法,整個模型需要重新研發。
  • 15秒完成一次CT圖像診斷 「天河二號」超級計算機搭建CT影像智能...
    在國家超級計算廣州中心,「天河二號」超級計算機,以每秒最高十億億次的超強算力,助力篩選出能抑制病毒的小分子藥物,搭建「15秒斷診」的新冠肺炎CT影像智能診斷平臺,建立新冠肺炎病患時空軌跡資料庫……以大國重器之力,與時間賽跑,與死神戰鬥。重器之下還有人。大年初九,廣州智睿醫藥科技有限公司執行長謝偉東博士搭上一班空蕩蕩的飛機,從加拿大返回廣州。
  • 菜鳥網絡用智能算法助力農村物流線路優化
    【觀察者網4月7日消息】菜鳥網絡繼2016年推出可節省10億個紙箱的智能打包算法技術後,在算法領域的再次做出新嘗試。 這套菜鳥網絡自主研發的路徑優化算法,利用大數據規劃車輛調配,經實測可減少10%的車輛使用,大大節省了車、油和人力,提升了效率。該算法若大規模推廣,每日可為社會節省超1000萬元。
  • AI算力打造城市智慧大腦
    基於對圖像和視頻大數據的高強度訓練,深度學習算法通過不斷學習複雜物體檢測和分類技術,幫助機器視覺系統獲取更多的知識和經驗,最終達到自主和準確識別出對象。具體到機器人應用,可實現表計讀數、OCR、視覺測量與定位、缺陷檢測分類、刀閘狀態識別等功能。   深度學習的應用場景廣闊,其背後的技術支撐卻並沒有那麼簡單。
  • 第三屆中國醫學救援協會影像高峰論壇成功召開
    第三屆中國醫學救援協會影像高峰論壇暨中國醫學救援協會影像分會介入學組成立儀式於2020年11月28日至於廣西桂林隆重召開,來自全國23個省、自治區、直轄市、解放軍系統的80餘位代表參加了會議,開幕式由中國醫學救援協會影像分會副會長王貴生教授主持,中國醫學救援協會影像分會會長王振常教授及全軍放射學專業委員會主任委員孫剛教授致辭
  • 深度丨中科院田捷博士:基於醫療大數據和AI技術的影像組學及其應用...
    以國內外臨床專家為主開發,說明影像組學和人工智慧以及大數據,對風投和產業界來說都感興趣,這不是看哪個技術和算法,關鍵是看產生什麼樣的效果。下面我會著重從應用的角度來講它的進展,技術和方法和應用。說到醫療大數據,大家最熟悉的可能是影像數據,因為其格式標準,容易獲取和使用。但是醫療大數據不僅限於影像,還包括病理、臨床治療信息等,只有將這些信息融合在一起,我們才能建模,並解決AI醫療的真正應用問題。4、影像組學助力智能醫療既然題目講影像組學,我先給大家解釋一下影像組學的概念。
  • 輕鬆搞定Java冒泡排序算法以及算法優化
    作為Java程式設計師,簡單的算法,必須要掌握的。尤其初級開發人員在面試過程或者筆試都會有相應算法題,今天我們講解冒泡排序算法是如何實現的以及優化方法。每一趟排序的次數在逐漸減少的總的進行數組的大小減1次大的循環每一趟比較完都會有最大值出現冒泡排序實現代碼如下圖冒泡排序的實現步驟如下圖冒泡排序的優化
  • 電子標準院李冰:算力、數據和算法是新一代人工智慧發展的「三駕...
    原標題:電子標準院李冰:算力、數據和算法是新一代人工智慧發展的「三駕馬車」   通信世界網消息(CWW)11月8日,在2020
  • 數據標註人才培養加速落地 AI優評第二期師資培訓結課
    師資培訓的主要目的是配合人工智慧高新技術能力評價數據標註考試項目培養教師隊伍,同時幫助了院校進行人工智慧技術服務專業建設,幫助企業更清晰的組建職業標註團隊,對接標註業務資源。課程特色:1、課程全面、緊貼一線。聯合多家AI基礎數據服務名企共同打造的、最貼合市場需求的課程體系。2、實戰派講師。
  • 人工智慧「閱片無數」快速實現醫學診斷,究竟多「神奇」?
    記者了解到,參賽的這款神經影像人工智慧輔助診斷系統,通過國家神經系統疾病臨床醫學研究中心30多萬條有效數據訓練,結合大數據與深度學習等技術,目前能實現幾十種腦腫瘤、血管病、血腫等人工智慧診斷及預判功能。「但人工智慧並不是提供一堆片子、一堆數據就能做出來。」
  • 美年健康建超聲大資料庫,引領預防醫學數位化
    近日,在杭州召開的超聲大數據與人工智慧應用與推廣大會上,大數據算法與分析國家工程試驗室杭州創新中心、浙江省數理醫學學會、美年健康三方在超聲人工智慧方向達成合作,共建超聲大資料庫。搭建影像雲備好「燃料」事實上,早在2015年7月,國務院印發《關於積極推進「網際網路+」行動的指導意見》支持第三方機構構建醫學影像、健康檔案、檢驗報告、電子病歷等醫療信息共享服務平臺。影像數據被作為臨床診斷最重要的依據之一。
  • 對話每日互動CEO方毅:數據智能應用的過去、現在和未來
    2013-2017年,企業逐步開始建設大數據平臺進行數據採集、監測,並將大數據與業務場景結合,為業務洞察提供數據基礎。  2019年始,企業進入業務智能化階段,企業可利用數據、算法賦能、改變業務流程,提升業務效率。其中,業務決策階段也即「數據智能」階段,意味著機器能夠基於數據和算法自主進行決策或給出決策建議,帶來更高效的業務反饋和更大的業務價值。
  • 大數據是什麼?人工智慧與大數據如何相輔相成?
    人工智慧分為計算智能、感知智能、認知智能三個階段。首先是計算智能,機器人開始像人類一樣會計算,傳遞信息,例如神經網絡、遺傳算法等;其次是感知智能,感知就是包括視覺、語音、語言,機器開始看懂和聽懂,做出判斷,採取一些行動,例如可以聽懂語音的音箱等;第三是認知智能,機器能夠像人一樣思考,主動採取行動,例如完全獨立駕駛的無人駕駛汽車、自主行動的機器人。
  • 基於DSP的Max-Log-MAP算法實現與優化
    本文主要針對TMS320C6000系列晶片的結構與特點討論Max-Log-MAP解碼算法代碼的優化設計,包括軟體流水、數據存取優化等,以達到充分利用DSP晶片的硬體資源,獲得高效處理性能的目的。4.2 基於DSP的各算法模塊代碼優化4.2.1 BMU模塊BMU算法模塊為單循環語句,由於循環體內的指令較少,為了更多地同時利用CPU資源,一個有效的做法即是將循環展開,這樣在減少循環次數的同時可以使更多的操作形成流水(pipeline),充分發揮多個功能單元的並行處理能力。優化後的代碼如下: