DarwinML全自動建模平臺最佳實踐案例

2021-01-14 硬派科技

重症感染症候群(又名敗血症,Sepsis)預後研究

根據其較早期的檢查指標,我們使用DarwinML為重症監護室(ICU)患者預警感染重症感染症候群(又名敗血症,Sepsis)的可能性,以及是哪些指標以何種方式導向這一結果。從而讓醫療研究者可以儘早地根據患者的各項檢查指標來判斷Sepsis病症的預後。醫療研究者通過模型預警提前介入,用藥治療挽救生命。

步驟一:數據抽取

根據研究需要,我們的特徵抽取目標是,從620萬條檢查記錄中,涉及約20,000名患者的70項檢查,抽取出進入ICU之後符合一定條件的記錄,生成特徵值用於模型。

DarwinML數據抽取平臺在這一過程中,可以幫助研究者完成三件事情:

1. 數值化指標值:由於醫療設備各有差異,同一項指標的結果記錄不一致。比如:白蛋白(Albumin)指標,在部分檢查結果中記錄為數值0.5, 1.9, 2.9等,但有些檢查結果使用分段記錄「LESS THAN 0.3」,「LESS THAN 1.0」等,需要統一化處理為數值,用於模型訓練;

2. 截取數據:研究者可以通過色設置參數,來對關注的部分進行數據截取。比如在本次案例中,研究者希望探究是否有可能在患者進入ICU72小時內給出感染Sepsis的預判,則研究者設定如下參數值來實現。

3. 生成模型特徵:由於患者的各項檢查時間不連續,檢查間隔不穩定,導致70項指標的缺失值平均高達86.88%,具有高稀疏性特點。平臺可以對620萬條檢查記錄進行特徵生成,轉換為被模型直接使用的20,000條患者記錄,也就是每位患者一條特徵數據。

上述步驟將在DarwinML Data Fusion,以數據流形式在1小時內處理結束。數據流的運行進展可以通過頁面日誌實時查看,也可以在數據流實時顯示。

步驟二:數據清洗

DarwinML自動建模平臺會在數據導入後給出當前數據每一列的具體清洗建議。比如:是否需要填充缺失值,填充值取多少合適;這一列的數據是否有嚴重偏移,是否需要消除異常值;這一列是否是字符串列,模型無法直接使用,如何做數值化處理,是映射為0,1,2...,還是做ICA編碼提取語義等。當然,研究者可以選擇信任推薦的清洗方案,也可以自定義清洗方案。

下圖給出了darwinML對不平衡數據分布自動做均衡化之後的結果,原本7:1的嚴重偏移分布(左圖), 轉換為可以更好被模型擬合的2:1分布比例(右圖)。

「Hours0-72_Alkaline phosphate_min」數據由於含有異常值,數據分布呈現嚴重正偏態,如下左圖,DarwinML自動推薦等距分箱,清洗後,如下右圖,消除了偏態分布。

在數據清洗完成後,DarwinML會給出最終的數據寬表(如下圖)供反查。如果有不符合預期的處理,可以選擇「再次清洗」實現。

步驟三:模型設計、超參調優、模型訓練

DarwinML自動完成。

步驟四:模型評估

在DarwinML完成自動建模後,研究者可以查看模型評估結果來進行分析。比如:當我們完成了一個模型,看到ROC曲線如下,AUC約等於0.9249,模型整體準確率較高。

但當我們進一步查看模型重要列分析,發現模型給出重要性較高的指標是Diastolic blood pressure(舒張壓)等體徵指標,而研究者更為關注的是各項病理檢查指標。

為了排除影響,我們選擇再次清洗數據,把體徵指標從數據中剔除掉,再次自動建模。

剔除體徵指標後,得到一個新的模型,AUC約等於0.9094,略有降低,但模型的實際功能更符合研究需要。

接下來,我們可以查看評分卡結果,並對來患病機率選擇一個門限,比如0.3,這時查準率大約為0.94。在實際使用中,當模型給出的患病機率超過門限0.3,我們就可以初步判斷這位患者易感,需要重點關注。

結語

本文主要以重症感染症候群(又名敗血症,Sepsis)的一次預後研究為例,對DarwinML自動建模平臺展開介紹。DarwinML同時支持時間序列、圖像分類、圖像目標識別、OCR等任務,兼容研究者自定義的模型應用。

為了幫助研究者專注於領域內積累,考慮到醫療研究者同時面臨臨床醫療和病理研究等多方壓力,在使用DarwinML過程中,我們全程支持點擊拖拽,中間結果可視可下載,研究者只需重點關注原始數據輸入和評估結果輸出。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

相關焦點

  • 全新AutoML工具實現基因組全自動建模「寶藏技術」解讀生命天書
    慧眼解讀「生命天書」此前,由於基因組數據的複雜性,主流的基於圖像和文本的AI模型不能很好地對基因組數據進行建模。如果基因組能夠實現全自動AI建模,或許可以幫助科研人員解決數據處理難、解讀累的難題。但是由於基因組數據量之大,AI模型搭建是一項非常複雜的任務,開發門檻非常高。
  • 實錄|河南自貿試驗區2020年最佳實踐案例新聞發布會
    9月10日,河南省人民政府新聞辦公室舉行「河南自貿試驗區2020年最佳實踐案例」新聞發布會,重點發布河南自貿試驗區2020年最佳實踐案例總體情況,以及河南自貿試驗區建設和全面深化改革創新情況,並回答記者提問。省委宣傳部新聞發布辦公室主任常軼暘主持新聞發布會。
  • 一站式全自己動機器學習平臺DarwinML 2.0上線
    在最近的一次活動中,探智立方公布了自己的,產品圖譜,這家公司的產品,距離開箱即用的目標更近了一步:  隨著新產品即將上線,探智立方已經構建起三大產品線:  全新的 DarwinML Data Fustion數據融合工具,幫助縮短數據抽取的時間及降低寬表生成的複雜度;  作為核心的自動建模平臺 DarwinML Studio,加入了大量擴展工具;
  • 基於兆芯CPU的金融數據建模獲選年度隱私計算標杆案例
    打開APP 基於兆芯CPU的金融數據建模獲選年度隱私計算標杆案例 兆芯 發表於 2021-01-14 17:08:01 基於兆芯
  • 市軌道公司網際網路雲票務平臺智慧軌道應用探索研究成果榮獲2019-2020年城市軌道交通行業信息化最佳實踐優秀案例獎
    12月18日,在中國城市軌道交通協會信息化專業委員會2020年度大會上,由蘭州市軌道交通有限公司主導研究的《蘭州軌道交通網際網路雲票務平臺智慧軌道應用探索》榮獲2019-2020年城市軌道交通行業信息化最佳實踐優秀案例獎。
  • 【最佳法治實踐案例】依法監管、合力共治,再造網絡新生態
    【最佳法治實踐案例】依法監管、合力共治,再造網絡新生態 2019-08-22 17:46 來源:澎湃新聞·澎湃號·政務
  • 中山大學管理學院講座預告丨案例研究近路之爭:案例研究最佳實踐...
    中山大學管理學與經濟學系列前沿講座之四一四講暨「案例思享會」專題講座第17講講座主題案例研究近路之爭:案例研究最佳實踐主講嘉賓李平 教授(寧波諾丁漢大學)主持人梁劍平 副教授講座時間2020
  • 工業APP案例 |機翼全參數化設計及流-固-熱耦合分析
    1) 概述機翼設計是一個長周期的、需要同時考慮多種性能指標達到綜合最佳狀態的多次往復修改過程。通過建立一套全參數化的機翼設計分析模型構建體系,可實質性的促進達成快速多方案迭代或自動優化設計的目標。2) 案例描述機翼結構複雜,需要找出全參數化定義設計和分析模型的具體實現方法,需要同時考慮CFD氣動分析及氣動加熱和結構熱傳導、結構動靜強度、流固熱三個物理場在各種不同的計算狀態下的雙向耦合。
  • RESTful JSON Web服務最佳實踐
    最近Edwin發布了一本關於構建基於JSON的Web服務最佳實踐的cookbook。當然這還在進行當中,但現有提供的指南包括了:  第一階段-定義一個簡單的資源/服務 | 選一個示例資源比如客戶信息,用JSON來對其建模。構建一個簡單的servlet,以PUT來創建一個新客戶,以GET基於客戶鍵值返回客戶信息,以DELETE刪除客戶,以POST更新客戶信息。
  • 河南自貿試驗區23個最佳實踐案例發布,這項「河南經驗」被國務院...
    河南商報首席記者 楊桂芳9月10日,河南商報記者從省政府新聞辦新聞發布會上獲悉,河南自貿試驗區2020年最佳實踐案例發布。都有哪些案例成為制度創新性強、市場主體反映好、具有一定系統集成特點的經驗做法?這些創新案例又給企業帶來哪些政策紅利?
  • 自動化建模平臺已實現零基礎建模
    採訪嘉賓 | 林慶治,飛貸金融科技副總裁兼首席數據官作者 | 關賀宇AI 前線導讀:人工建模需要花費很多時間進行數據預處理、模型選擇、變量選擇、調參、模型評估等,自動化建模將原本需要數周乃至數月的模型開發過程大幅縮短,甚至只需要幾分鐘就能找到最佳的模型
  • 飛算全自動工程軟體平臺擊破行業一大痛點
    飛算全自動軟體工程平臺的全球首發,有望使軟體工程行業發生重大變革,引領原本高度依賴人工的行業,從此進入智能化的全自動時代。軟體行業的發展積累了大量優秀實踐與制度,但制度的落地執行仍然嚴重依賴不同的人來執行,如果有一個有效的工具能將這些管理制度自動落實到位,而飛算全自動工程軟體平臺讓軟體工程從「人治」變成「法治」,行業痛點將迎刃而解。
  • 飛算全自動軟體工程平臺,中國原創技術打出一記超強「全自動」
    他認為,軟體行業的發展積累了大量優秀實踐與制度,但制度的落地執行仍然還在嚴重依賴不同的人在執行,如果有一個有效的工具能將這些管理制度自動落實到位,讓軟體工程從「人治」變成「法治」,行業痛點則迎刃而解。飛算全自動軟體工程平臺通過「法治」有效解決軟體工程從項目啟動到運維151個問題,真正實現了「你輸入流程圖,平臺助你實現自動開發,自動測試,自動運維」的目標。
  • 基因組實現自動AI建模,華為雲助力科研人員探索生命奧秘
    在華為開發者大會2020(Cloud)期間,華為雲發布全新AutoML工具AutoGenome,支持對基因組數據進行全自動AI建模,助力科研人員探索生命奧秘。目前,AI技術已經廣泛應用在圖像、語音等領域,然而在生物醫學領域,尤其是基因組學數據領域,AI的應用仍處於初期階段。
  • 天線及傳輸信道模型建模的方法及系統仿真案例概述
    本文通過研究業界針對通信終端及雷達系統中天線及傳輸信道模型建模的方法及系統仿真案例,總結兩個不同的系統中天線模型的差別及仿真的側重點。  1、通信終端中的天線模型  移動通信信道主要存在以下特點:開放變參信道,容易受到各種幹擾影響;接收點地理環境非常複雜多樣,如大致可分為城市、近郊及農村三類;用戶具有隨機移動性。
  • 47項改革創新事項、23個最佳實踐案例——河南自貿試驗區將常態化...
    9月10日上午,河南省政府新聞辦公室召開河南自貿試驗區2020年最佳實踐案例新聞發布會,對河南省自貿試驗區23個改革創新實踐案例予以發布,其中政府服務7項、投資貿易8項、金融服務3項、多式聯運3項、事中事後監管2項。
  • 困擾軟體研發多年的難題,飛算全自動軟體工程平臺給了新答案
    不過微服務研發部署的門檻較高導致很多開發者望而卻步,而飛算全自動軟體工程平臺實現了微服務的最佳實踐,使得用戶不用關注微服務本身,平臺自動提供內建的微服務能力,穩定性還能藉此提升。      無代碼開發一直以來是一種悖論級的存在, 因為其意味著開發者正在製造一種替代自己的工具。
  • 這裡有份最佳實踐清單
    對於如何使用深度學習進行自然語言處理,本文作者 Sebastian Ruder 給出了一份詳細的最佳實踐清單,不僅包括與大多數 NLP 任務相關的最佳實踐,還有最常見任務的最佳實踐,尤其是分類、序列標註、自然語言生成和神經機器翻譯。作者對最佳實踐的選擇很嚴格,只有被證明在至少兩個獨立的群體中有益的實踐才會入選,並且每個最佳實踐作者至少給出兩個參引。
  • 五大院士點讚的中國原創:飛算全自動軟體工程平臺全球首發
    「只需要輸入流程圖,平臺自動實現軟體的開發、測試、運維」,在11月17日下午,北京國家會議中心舉辦的「全球首發的中國原創——飛算全自動軟體工程平臺發布會」現場呈現了讓業內人士震撼的一幕:「一個普通的IT工程師通過飛算全自動軟體工程平臺,只輸入流程圖,不敲一行代碼就實現了後端開發,僅僅用28分鐘就完成了3個資深IT工程師近2
  • HBsAg檢測單位S/CO,IU/mL, COI,ng/mL的關係與臨床應用
    電化學發光半定量檢測單位為COI,電化學發光定量檢測單位為IU/ml。羅氏半定量的機器在中國用的比較廣泛,比如羅氏全自動免疫分析儀E-170、e601、ELECSYS 2010等,這些機器的檢測值一般以COI報告。三、mIU/mL ,IU/mL, KIU/L單位IU是international unit的縮寫,即國際標準單位。