來源 | HyperAI超神經
責編 | 晉兆雨
頭圖 | 付費下載於視覺中國
內容概要:醫學圖像分析是一個非常複雜的跨學科領域,近日上海交通大學發布了 MedMNIST 數據集,有望促進醫學圖像分析的發展。
關鍵詞:醫學圖像分析 公開數據集
令人頭禿的醫學圖像分析
醫學圖像分析是一個公認的「老大難」課題。
首先它是一個跨學科領域,要求從業者具備多方面知識背景,即使你是鑽研計算機視覺的專業人士,又或者是一個臨床醫學從業者,那你充其量只邁出了進行醫學圖像分析的半隻腳。
樂觀估計,經過多年的學習和研究,你終於掌握了計算機視覺和臨床醫學的雙向技能,那接下來的操作也能讓你愁到頭禿,因為這些數據來源五花八門,有 X 射線、CT、超聲……分析處理這麼多個不同模式的非標準數據集,也太難了!
這還沒完,深度學習雖然在醫學圖像分析的研究和應用中,已經佔據主導地位,但模型調整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用於醫學圖像分類的 AutoML 基準。
MedMNIST 分類十項全能一覽
醫學圖像分析困難重重,然而上海交通大學近期發布的 MedMNIST 數據集,則為終結這些老大難問題,帶來了一大利器。
10 個公開數據集、45 萬張圖像重新整理
MedMNIST 是一個包含 10 個醫學公開數據集的集合,且全部數據均已經過預處理,將其分為包括訓練集、驗證集、測試子集的標準數據集。數據來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態數據。與 MNIST 數據集一樣,MedMNIST 可以在輕量級 28*28 圖像上執行分類任務。
十個數據集的數據模式、適用任務及圖像數量
MedMNIST 具有以下特點:
教育性:多模態數據來自於多個公共醫學圖像數據集,採用知識共享(CC)許可協議或自由許可協議,方便教學使用。
標準化:全部數據已經預處理成相同的格式,降低準入門檻,任何人都可以使用。
多樣性:多模態數據集涵蓋了不同的數據模式,數據規模從 100 到 100,000 都支持,任務類型也豐富為二元分類、多元分類、有序回歸和多標籤。
輕量級:28*28 的圖像尺寸便於迅速進行原型設計,對多模態機器學習和 AutoML 算法進行快速迭代和實驗。
MedMNIST Dataset
發布機構:上海交通大學
包含數量:454,591 個圖像數據
數據格式:NPZ
數據大小:654 MB
發布時間:2020 年 10 月 28 日
十項全能大法好,打造 AutoML 新基準
受《醫學分割十項全能》(Medical Segmentation Decathlon)的啟發,上海交通大學的科研人員還發布了《MedMNIST 分類十項全能》 (MedMNIST Classification Decathlon),作為醫學圖像分類中的輕量級 AutoML 基準。
科研人員用 MedMNIST 分類十項全能,評估了在全部 10 個數據集上的算法性能,並採取了其他幾個 baseline 方法與該基準進行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。
MedMNIST 在 AUC 和 ACC 等指標上的性能一覽
實驗結果表明,針對全部 10 個數據集,都能取得很好的泛化性能的算法,在實驗中並不存在。該實驗對於探索在不同數據模式、任務類型和數據規模上,進行很好地泛化的 AutoML 算法,意義重大。
MedMNIST 分類十項全能基準測試,將促進未來醫學圖像分析 AutoML 的相關研究。
相關論文:
https://arxiv.org/pdf/2010.14925.pdf
開源地址:
https://github.com/MedMNIST/MedMNIST