上海交大發布 MedMNIST 醫學圖像分析數據集 & 新基準

2020-11-13 AI科技大本營

來源 | HyperAI超神經

責編 | 晉兆雨

頭圖 | 付費下載於視覺中國

內容概要:醫學圖像分析是一個非常複雜的跨學科領域,近日上海交通大學發布了 MedMNIST 數據集,有望促進醫學圖像分析的發展。

關鍵詞:醫學圖像分析 公開數據集

令人頭禿的醫學圖像分析

醫學圖像分析是一個公認的「老大難」課題。

首先它是一個跨學科領域,要求從業者具備多方面知識背景,即使你是鑽研計算機視覺的專業人士,又或者是一個臨床醫學從業者,那你充其量只邁出了進行醫學圖像分析的半隻腳。

樂觀估計,經過多年的學習和研究,你終於掌握了計算機視覺和臨床醫學的雙向技能,那接下來的操作也能讓你愁到頭禿,因為這些數據來源五花八門,有 X 射線、CT、超聲……分析處理這麼多個不同模式的非標準數據集,也太難了!

這還沒完,深度學習雖然在醫學圖像分析的研究和應用中,已經佔據主導地位,但模型調整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用於醫學圖像分類的 AutoML 基準。

MedMNIST 分類十項全能一覽

醫學圖像分析困難重重,然而上海交通大學近期發布的 MedMNIST 數據集,則為終結這些老大難問題,帶來了一大利器。

10 個公開數據集、45 萬張圖像重新整理

MedMNIST 是一個包含 10 個醫學公開數據集的集合,且全部數據均已經過預處理,將其分為包括訓練集、驗證集、測試子集的標準數據集。數據來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態數據。與 MNIST 數據集一樣,MedMNIST 可以在輕量級 28*28 圖像上執行分類任務。

十個數據集的數據模式、適用任務及圖像數量

MedMNIST 具有以下特點:

  • 教育性:多模態數據來自於多個公共醫學圖像數據集,採用知識共享(CC)許可協議或自由許可協議,方便教學使用。

  • 標準化:全部數據已經預處理成相同的格式,降低準入門檻,任何人都可以使用。

  • 多樣性:多模態數據集涵蓋了不同的數據模式,數據規模從 100 到 100,000 都支持,任務類型也豐富為二元分類、多元分類、有序回歸和多標籤。

  • 輕量級:28*28 的圖像尺寸便於迅速進行原型設計,對多模態機器學習和 AutoML 算法進行快速迭代和實驗。

MedMNIST Dataset

發布機構:上海交通大學

包含數量:454,591 個圖像數據

數據格式:NPZ

數據大小:654 MB

發布時間:2020 年 10 月 28 日

十項全能大法好,打造 AutoML 新基準

受《醫學分割十項全能》(Medical Segmentation Decathlon)的啟發,上海交通大學的科研人員還發布了《MedMNIST 分類十項全能》 (MedMNIST Classification Decathlon),作為醫學圖像分類中的輕量級 AutoML 基準。

科研人員用 MedMNIST 分類十項全能,評估了在全部 10 個數據集上的算法性能,並採取了其他幾個 baseline 方法與該基準進行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。

MedMNIST 在 AUC 和 ACC 等指標上的性能一覽

實驗結果表明,針對全部 10 個數據集,都能取得很好的泛化性能的算法,在實驗中並不存在。該實驗對於探索在不同數據模式、任務類型和數據規模上,進行很好地泛化的 AutoML 算法,意義重大。

MedMNIST 分類十項全能基準測試,將促進未來醫學圖像分析 AutoML 的相關研究。

相關論文:

https://arxiv.org/pdf/2010.14925.pdf

開源地址:

https://github.com/MedMNIST/MedMNIST

相關焦點

  • 生物醫學促進高校發展,上海交大醫學院將引入人工智慧體系!
    2018年高校基金數量最多的上海交大 2018年上海交大基金申請NO.1隨著2018年各項國家基金審核數據的出爐,上海交通大學超越清華大學成為申請基金數量最多的高校,具體的十大高校排名情況如下:1、上海交大,2、浙江大學,3、中山大學,4、清華大學,5、復旦大學,6
  • 上海交大醫學院發布戰疫畫冊及叢書
    中國青年報客戶端訊(雷禹、童寬 中青報·中青網記者王燁捷)日前,上海交通大學醫學院正式對外發布《交醫戰疫》畫冊和《交大醫學戰疫2020》《醫路聆聽交醫最美逆行紀事》系列叢書。據悉,劃策和叢書由黨委宣傳部、學生工作指導委員會於今年3月起組織編寫,通過交流採訪、專題約稿等形式集結成冊。
  • 上海交大醫學院戰「疫」系列書籍發布
    圖說:上海交大醫學院戰「疫」系列書籍發布新民晚報訊(通訊員 雷禹 童寬 記者 易蓉)昨日,上海交通大學醫學院《交醫戰疫》畫冊和《交大醫學戰疫2020》《醫路聆聽交醫最美逆行紀事》正式發布,該戰「疫」系列書籍是對上海交通大學醫學院全體醫務師生員工自除夕夜以來,眾志成城、抗擊疫情的忠實見證
  • 深度學習下的醫學圖像分析(一)
    其他的一些論文,比如Generative Adversarial  Networks和Wasserstein GAN,也已經為開發模型鋪平了道路,這個模型能夠創建出與輸入數據相似的新數據。由此,「半監督學習」世界的大門被打開了,未來「無監督學習」的發展也將更加順利。儘管這些調查研究的對象現在僅限於一般的圖像,但我們的目標是將這些研究運用到醫學圖像中,幫助醫療保健的發展。
  • 最新| 上海交大船舶與海洋工程、臨床醫學、工商管理等7個學科位列...
    10月15日,高等教育評價專業機構軟科今日正式發布「2020軟科中國最好學科排名」 。排名榜單包括96個一級學科,各個學科排名的對象是在該一級學科設有學術型研究生學位授權點的所有高校,發布的是在該學科排名前50%的高校。共有485所高校的4946個學科點上榜。
  • SCI |為處理、分析和利用醫學圖像的基礎科學做出貢獻的期刊
    醫學圖像分析為傳播醫學圖像分析領域的新研究成果提供了一個論壇,特別強調與將計算機視覺、虛擬實境和機器人技術應用於醫學圖像問題有關的努力。雖然不限於這些,典型的醫學圖像數據集的興趣包括那些從磁共振成像和超聲波,計算機斷層掃描,核醫學,x射線,視頻和範圍數據圖像的病人獲得。電子附件,如視頻剪輯和其他作者提供的材料,可在雜誌的網頁上,並使讀者的互動。
  • MIT發現:ImageNet數據集存在系統性缺陷,用作基準數據集時與真實值不一致
    麻省理工學院(MIT)的研究人員近日得出結論稱,著名的ImageNet數據集其實存在「系統性注釋問題」(systematic annotation issues):當用作基準數據集時,它與真實值或直接觀測值不一致。
  • DBCloud AI一體機助力,交大圖像所MICCAI2019大賽中獲佳績
    DBCloud AI一體機助力,交大圖像所MICCAI2019大賽中獲佳績 於10月13-17日舉辦的深圳第22屆MICCAI
  • 上海才是中國醫療中心城市,上海交大一周內連發3篇頂級醫學論文
    連續多年排名第一的上海交大中國醫療城市最好的城市在哪裡?從最近幾年全國外地就醫人數來看,上海市已經超越了北京市,成為全國外地求醫者最多的城市,而且在前沿醫學領域,上海交通大學醫學院已經連續多年排名全國第一,受到實力強勁的醫學院帶動,讓上海交通大學自然基金面上項目多年高居榜首的位置,因為目前的現代前沿醫學已經成為一門綜合學科,需要化學、物理、人工智慧、計算機、大數據分析等多學科基礎發展的學科,強大的理工科實力和醫學院強強聯合,讓上海交通大學在前沿醫學領域發展神速
  • 【數據集】一文道盡醫學圖像數據集與競賽
    數據集地址:http://www.oasis-brains.org/OASIS,全稱為Open Access Series of Imaging Studies,已經發布了第3代版本,第一次發布於2007年,是一項旨在使科學界免費提供大腦核磁共振數據集的項目。它有兩個數據集可用,下面是第1版的主要內容。
  • MIT 更新最大自然災害圖像數據集,囊括 19 種災害事件
    [ 摘要 ]麻省理工學院在最近 ECCV 2020 上提交的一篇論文中,發布了一套自然災害圖像數據集。,減少圖像分析時間,贏得與時間的賽跑。:xBD 數據集。據介紹,xBD 數據集是迄今為止第一個建築破壞評估數據集,是帶注釋的高解析度衛星圖像中規模最大、質量最高的公共數據集之一。
  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    到目前為止,已有一些有關深度學習應用於醫學圖像分析的綜述,它們要麼涉及整個醫學圖像分析領域,要麼只關注單個成像模態,如磁共振成像(MRI)與顯微成像。然而,除了極少數涉及特定的任務,如乳腺超聲圖像分割以外,很少有文獻總結深度學習在醫學超聲圖像分析中的應用。
  • JCIM|波士頓大學公布熱點殘基(hot spot)發現的基準數據集
    測試及驗證計算方法需要標準或驗證數據集,本文構建了一個測試發現結合熱點方法的基準數據集Acpharis,並與Astex公司的基準數據集一起完成對FTMap方法的測試。最終得到包含62個片段-蛋白對的基準數據集,有48個唯一的蛋白和52和唯一配體。圖1. 部分Acpharis數據集.圖片來源:JCIM結合配體結構的FTMap分析基於片段結合的口袋包含至少一個重要的共有位點的共識,FTMap幾乎能在所有情況下檢測到此類口袋。
  • 上海交大醫療機器人研究院國際學術論壇舉行
    區校聯動,支撐上海「南部科創中心」建設上海交大醫療機器人研究院是上海交大醫工(理)交叉平臺,由上海交大生物醫學工程學院牽頭校內醫、機、電、材、物、數等多個學科,英國皇家工程院院士、帝國理工哈姆林手術實驗室主任楊廣中院士擔任研究院創始院長。
  • 南洋理工大學最新發布開源圖神經網絡基準
    但大多數研究所使用的數據集都很小,如Cora和TU,在這種情況下,即使是非圖神經網絡的性能也相當可觀。只有使用中等大小的數據集進行進一步比較,圖形神經網絡的優勢才會變得明顯。在斯坦福圖形神經網絡bull Jure等人發布「開放圖形基準」之後,又一項旨在構建「圖形神經網絡圖像網」的研究應運而生。
  • 深度學習下的醫學圖像分析(四)
    本文,我們將關注於醫學圖像及其格式。 本文分為三個部分——醫學圖像及其組成、醫學圖像格式和醫學圖像的格式轉換。本文希望通過對深度學習的相關知識的介紹,最終達到醫學圖像分析的目的。醫學圖像及其組成 由Michele Larobina和Loredana Murino發表的論文,對本文即將展開的討論來說是一個很好的信息參考。
  • 中國30所「生物醫學工程」強校:東大、華科、交大,就業優勢比較
    本期科學世界博覽教育品文針對其中三多頂尖的高校,做了進一步分析。接下來,我們一同來認識一下東大、華科、上海交大的生物醫學工程專業的實力與就業前景。華中科技大學與生物醫學工程的發展前景華科的生物醫學工程專業屬於「生命科學與技術學院」,該學院始建於1980年,成立於1999年,是在華中工學院的生物工程系的基礎上發展起來的,位於華中科技大學東校區,擁有一座建築面積18000平方米,集實驗教學、科研和辦公為一體的現代化大樓,固定資產超過6000萬元
  • 從文本直接創建圖像!OpenAI發布新人工智慧系統
    OpenAI希望這些升級後的語言模型能夠以接近人類解釋世界的方式來解讀圖像。2020年5月,OpenAI發布了迄今為止全球規模最大的預訓練語言模型GPT-3。GPT-3具有1750億參數,訓練所用的數據量達到45TB。對於所有任務,應用GPT-3無需進行任何梯度更新或微調,僅需要與模型文本交互為其指定任務和展示少量演示即可使其完成任務。
  • 先融合再填充,上海交大提出少樣本圖像生成新方法F2GAN
    機器之心專欄作者:牛力(上海交通大學仿腦計算與機器智能研究中心)少樣本圖像生成是很有挑戰性的任務,可用的方法也很少。少樣本圖像生成(few-shot image generation)任務是指用已知類別(seen category)的大量圖片訓練出一個生成模型,然後給定某個未知類別(unseen category)的少量圖片,即可為該未知類別生成大量真實且多樣的圖片。少樣本圖像生成屬於圖像數據增廣的範疇,可用來輔助很多下遊任務,如少樣本圖像分類等。
  • 「2018年度中國醫院科研學術排行榜」發布 交大醫學院附屬上海兒童...
    「2018年度中國醫院科研學術排行榜」發布 交大醫學院附屬上海兒童醫學中心連續十年入選 2019-11-12 22:37:00來源:央廣網