日前,鍾南山院士團隊與騰訊AI Lab披露了利用AI預測COVID-19患者病情發展至危重概率的研究成果——深度學習生存Cox模型,可分別預測5天、10天和30天內病情危重的概率,有助合理地為病人進行早期分診。
相比傳統衡量肺炎嚴重程度的CURB-6模型和未進行深度學習的經典Cox模型,此次聯合研究團隊提出的Cox模型在驗證集上的 C-index (即一致性指數(index of concordance)從0.876(線性模型)提升到了 0.894,AUC從 0.889 提升到了 0.911。這項成果已在2020年7月15日發布於國際頂級期刊《Nature》子刊《Nature Communications》。
為了讓一線醫生儘快在臨床研究中使用到相關成果,研究團隊開發部署了網站服務與微信小程序,使用者只要通過平臺提交對應特徵的測量數值就可以快速獲得分析結果。團隊已公開了相關論文,並將模型在Github開源。
騰訊 AI Lab 與廣州呼吸健康研究院聯合發布的新冠肺炎重症概率計算工具截圖。該工具用法簡單,幾乎無使用成本,同時也提供了英文版。
模型代碼:https://github.com/cojocchen/covid19_critically_ill
網站服務:https://aihealthcare.tencent.com/COVID19-Triage_en.html
微信小程序:
當前,新冠肺炎疫情仍在蔓延,全球已確診病例數突破1437萬,死亡數超過60萬,並存在進一步爆發的風險。在感染COVID-19的患者中,大多數呈輕度至中度症狀,但也有一部分患者的病情初期表現平穩,但會以很快的速度惡化,遭遇更高的健康風險。因此,快速識別出這類有潛在重症風險的患者,對於抗擊疫情意義重大。
通過回溯1393例外部患者的檢驗數據,該模型的預測性能也得到了實踐驗證,證明了模型的可靠性與有效性。
這項名為《深度學習在新冠肺炎危重患者早期分診中的應用》(Early Triage of Critically-Ill COVID-19 Patients Using Deep Learning)的研究,是鍾南山院士團隊與騰訊公司共同成立的大數據及人工智慧聯合實驗室的成果之一,第一作者分別是廣州呼吸健康研究院院長助理梁文華博士,以及騰訊AI Lab醫療中心首席科學家姚建華博士,鍾南山院士、廣州呼吸健康研究院院長何建行、騰訊AI Lab醫療中心負責人黃俊洲均為共同作者。
在該研究項目中,聯合研究團隊首先結合 Cox 生存分析算法與 LASSO 算法,對來自全國 575 家醫院的 1590 名患者的脫敏入院數據進行了分析建模,並從中確定了 10 項能很好預測重症風險的患者特徵,即年齡、是否氣促、是否有惡性腫瘤病史、是否有慢性肺阻、合併症數量、是否有 X 光平片異常、血液中性粒細胞與淋巴細胞比例、血液乳酸脫氫酶含量、血液直接膽紅素含量、血液肌酸激酶含量。這 10 項特徵都是可以通過常規的醫學檢測手段在合理的時間內有效獲取的,因此可用於在早期快速預測患者的重症風險。
訓練隊列中 10 項所選特徵的單因素分析,可以看到年齡是新冠肺炎重症最顯著的風險因素之一;事實上超過 60 歲的患者的重症概率明顯更高。
為了更精確地建模這 10 項特徵與重症風險的關係,研究團隊採用了最新的深度學習技術來挖掘數據之中的隱含聯繫,進而計算病人的重症風險係數。具體來說,研究團隊採用了基於深度學習的生存分析 Cox 算法對這 10 項指標進行建模。相比於傳統經典方法,深度學習的優勢是可通過神經網絡對特徵進行高階非線性組合,從而更深層次地建立特徵與目標函數之間的映射。經過訓練,所設計的模型在驗證集上的 C-index (即一致性指數(index of concordance),通過評估模型預測結果與實際觀察結果的符合程度,以評價模型的預測準確性,值越接近1,準確率越高)從0.876(線性模型)提升到了 0.894,AUC (指受試者工作特徵曲線下面積,值在1.0和0.5之間,在AUC>0.5的情況下,AUC越接近於1,說明診斷效果越好)從 0.889 提升到了 0.911。
此外,使用該模型對另外 1393 例外部檢驗患者的回溯數據分析也獲得了令人滿意的預測性能。外部測試集中 106 例發展成重症的患者中,只有 2 例存在數據異常的患者被錯誤劃分到了低風險組。同時,該模型在不同中心的數據上獲得的 C-index 均高於0.85,證明了模型的可靠性與有效性。
不僅如此,研究團隊還考慮到了實踐中數據不完整的情況,即模型所需的 10 項特徵中可能有一部分並未得到測量,原因可能包括接診醫院不具備測試條件或相關醫療資源極度緊張。針對這一問題,研究團隊在系統中加入了多變量數據插補模塊,其基於可觀察到的變量來找到相似的樣本作為參考,通過擬合算法來插補缺失的數值。另一方面,為了提升模型的魯棒性,研究團隊還在訓練深度模型的過程中採用了隨機丟棄數據並添加數據噪音的實踐方法。基於這些數據增強策略,最終得到的模型在僅觀測到 7 項特徵時依然能取得相當好的表現。
當然,一項技術只有得到實際應用才能發揮出真正的價值。研究團隊在深度 Cox 模型的基礎上又加了一層線性 Cox 模型,以便產生可供醫生解讀的最終結果。該線性模型會按重要性分別對深度學習模型的預測值與 10 項特徵的值賦予不同的權重,然後通過求和得到最終風險係數。該線性模型可以通過諾模圖進行手動計算,因其便利性在臨床上經常被用來綜合各項數值換算最終評估分數。通過諾模圖,醫生可以很直觀地了解各項觀察值與風險係數之間的關係,同時也可以在沒有電腦的情況下手動計算風險係數。
基於深度學習的生存分析 Cox 算法為一位新冠肺炎患者所得到的諾模圖。可以看到該患者的總體諾模圖分數為 209,未來 5、10、30 天的總體重症概率分別為 0.58、0.62、0.69,因此該患者被歸類為具有較高的重症風險。
科技的力量在此次全球抗疫的行動中不斷彰顯,基於數據分析和人工智慧的技術方法更是在疫情預測與防控、風險人群評估、相關藥物開發、疫苗研發等應用中發揮了重要作用。騰訊 AI Lab 與廣州呼吸健康研究院等多家研究機構與醫院聯合開發的這套新冠肺炎重症風險預測系統是探索科技戰疫的又一成果。可以預期,數據分析和人工智慧未來也必將在醫療實踐(尤其是對突發疫情的防控)中發揮更大的作用。
今年2月27日,鍾南山院士團隊與騰訊公司宣布達成合作,共同成立大數據及人工智慧聯合實驗室,共同抗擊新冠肺炎疫情,以大數據及人工智慧攻堅流行病、呼吸疾病和胸部疾病的篩查和防控預警。