...設計難題!達摩院提出新模型EBM-Net,比最強基線模型準確率高9.6%

2020-12-11 雷鋒網

雷鋒網消息,日前,AI領域頂會EMNLP 2020落下帷幕。

今年全球僅有754篇論文被接受,接收率為24%,阿里巴巴憑藉28篇論文成為入選論文數最多的中國科技公司。

據雷鋒網了解,阿里相關研究成果覆蓋情感分析、文本生成及醫療NLP等領域。

在今年疫情的大環境下,醫療領域的研究與成果產出也不斷提速。

在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。

研究團隊在COVID-evidence數據集上完成了試驗,並證明了模型的有效性。

論文連結:https://www.aclweb.org/anthology/2020.emnlp-main.114/

為此,該論文作者、達摩院算法專家譚傳奇進行了解讀。

自18年穀歌BERT橫空出世以來,預訓練語言模型一躍成為自然語言處理領域的研究熱點,「Pre-training + Fine-tune」也成為NLP任務的新範式,將自然語言處理由原來的手工調參、依靠機器學習專家的階段,進入到可以大規模、可複製的大工業施展的階段。

這篇論文在BioBERT(在醫學數據上訓練的BERT模型)的基礎上,設計了針對醫學臨床試驗的進一步預訓練任務(Post-Pre-training),最終在真實醫學臨床試驗數據上微調(Fine-tune)後,取得了超過10個百分點的結果提升。

而這項工作的意義在於,幫助醫學研究工作者更好地選擇醫學臨床試驗,特別在COVID-19疫情下,更好的醫學臨床試驗或許就意味著能更快地找到有效的治療方案。

劍指臨床試驗的設計難題

在循證醫學的時代,任何的治療都要有相應的臨床證據支持。證據往往來自於高質量的臨床試驗。然而,實施臨床試驗耗時耗力,需要大量資源支持。

並且,設計有缺陷或者難以成功的臨床試驗佔用了寶貴的病人資源,可能會使亟待實施的臨床試驗因招募不到足夠的患者而被迫終止。

新冠肺炎疫情中的瑞德西韋臨床試驗就是一個例子:

因其他設計有缺陷或者難以成功的臨床試驗佔用了不少病人資源,該試驗沒有招募到足夠的病人資源,而沒有得到統計學上顯著的結果。

所以,研究者需要在設計階段就去預測臨床試驗的結果,並優先進行成功概率較高的臨床試驗。

提出新的臨床試驗需要過往臨床證據的支持,比如WHO為新冠肺炎推薦優先檢測氯喹/羥氯喹,瑞德西韋,幹擾素和洛匹那韋/利託那韋四種藥物優先進行臨床試驗。

推薦的理由就是,這些藥物在過往的實驗室或人體試驗中對相關冠狀病毒有效。然而,人類綜合過往臨床證據的能力有限。

譚傳奇引用了一個數據:一項研究發現大概86.2%的臨床試驗最終會失敗,WHO專家推薦的某些新冠肺炎治療方法,如氯喹/羥氯喹,也沒有得到好的結果。

臨床試驗設計難題的核心是臨床試驗的結果無法準確預測。

所以,如果能準確地預測臨床試驗的結果,就可以有針對性地進行成功概率的臨床試驗,從而大大提高臨床試驗實施的效率。

因此,譚傳奇團隊表示,在本工作中,我們的貢獻就在於:

第一、創新地從NLP的角度重新定義了臨床試驗結果預測任務;

第二、提出了一種基於大規模隱式臨床證據預訓練的模型EBM-Net(Evidence-Based Medicine Network)用以解決該任務,EBM-Net在各種指標上遠超醫學大規模語言模型BioBERT,如在標準數據集上有10.7%的相對F1提升,並且在新冠肺炎相關的臨床試驗上也被證明有效。

在上面這張圖中,參考醫學臨床試驗在填報提案時需要的基本信息,輸入是自然文本的形式的:

臨床試驗背景B,如「最新研究發現瑞德西韋在體外對新冠肺炎病毒有效……」;

要研究的人群P,如「重症新冠肺炎病人」;

治療方法I,如「靜脈注射瑞德西韋」;

對照方法C,如「與瑞德西韋相匹配的安慰劑」;

測量指標O,如「死亡率」

輸出是其結果R,即在研究人群P中,治療組I和對照組C的測量結果O的比較關係,有升高、降低和不變三種。

EBM-Net

為了解決上述臨床試驗結果預測任務,達摩院的團隊提出了針對循證醫學的EBM-Net模型,其結構如圖2所示,具體分為三步進行:

首先,用啟發式方法收集隱式證據;

然後,用隱式證據預訓練比較語言模型;

最後,用預訓練的模型進行臨床試驗結果預測。

收集隱式證據

臨床證據常常以一種比較的形式表達,如「瑞德西韋比對照組有更好的治療新冠肺炎的療效」,而找到這些證據就可以為我們提供訓練文本。

研究團隊發現,PubMed和PubMed Central是一個提供生物醫學方面的論文搜尋以及摘要,文獻資源中就包含需要的證據文本(註:醫學領域最好的大規模語言模型BioBERT的訓練數據即來自PubMed)。

這篇論文提出用關鍵詞匹配的方法,收集PubMed和PubMed Central中所有含有比較語義的句子:

為尋找表達升高和降低的語義,匹配含有「than」的句子,再進一步匹配形容詞或副詞的比較級,如「higher」,「smaller」等,同時含有「than」和一個或更多比較級的句子被收集;為尋找表達相似的語義,匹配含有「no difference between」和「similar to」模式的句子。

這些句子被稱為隱式證據,因為它們往往隱式地含有臨床證據所需要的PICO組分。他們還收集這些句子對應的文章摘要裡的背景和方法的部分,作為隱式證據的背景B。

這種方法可以從PubMed和PubMed Central中提取出1180萬條隱式證據,其中240萬條表達結果降低,350萬條表達結果相似,590萬條表達結果升高。

預訓練比較語言模型

將收集到的隱式證據中提示結果語義的詞去除,就構造了一個類似語言模型訓練的問題,通過給定上下文信息,預測去除的比較詞。

論文中改進語言模型,提出用比較語言模型預訓練一個Transformer編碼器模型,即EBM-Net,以獲取預測臨床試驗結果的能力。具體地,兩組樣本被用於預訓練:

1、用正序的隱式證據預測其結果;

2、用反序的隱式證據預測相反的結果。

加入反序的例子有利於模型學到治療組和對照組之間的比較,而不是語言模型裡的共現關係。

臨床試驗結果預測

在微調和測試時,團隊將一個新臨床試驗要研究的PICO要素拼接成E,將E和其研究背景B輸入到上述預訓練好的EBM-Net模型中,輸出其預測的比較結果,從而預測臨床試驗的結果。

標準數據集的試驗結果

EBM-Net在臨床試驗結果預測任務的標準數據集Evidence Integration試驗結果如圖3所示:


從結果中可以看出:

1、EBM-Net相比其他方法,包括隨機預測、詞袋+邏輯回歸、利用MeSH知識圖譜、信息檢索+閱讀理解模型以及目前生物醫學NLP領域的SOTA模型BioBERT,都有很大的提高:BioBERT作為最強的基線模型,也比EBM-Net低了10.7%的相對macro-F1和9.6%的準確率;

2、EBM-Net相比其他方法在對抗攻擊下更魯棒:用|Δ||Δ|,即在對抗數據集上的accuracy的相對減少的值來衡量模型的魯棒性,|Δ||Δ|越大表示模型越易受攻擊。

BioBERT的|Δ||Δ|幾乎是EBM-Net的兩倍(5.1%比2.7%),說明EBM-Net遠比BioBERT魯棒;

EBM-Net用於新冠肺炎相關臨床試驗

達摩院團隊還基於COVID-evidence資料庫提取了截止5月12日前完成的22篇臨床試驗的結果,以本工作定義的臨床試驗結果預測的格式構建了一個小型數據集。

達摩院團隊提出的EBM-Net模型在該數據集上進行留一法驗證得到的macro-F1和accuracy都遠高於BioBERT,分別是45.5%比36.1%和59.1%比50.0%,再一次驗證了EBM-Net的有效性。

總結

為了優化臨床試驗的設計過程,本文從NLP的角度定義了臨床試驗結果預測任務,並且提出了一種基於大規模隱式證據預訓練的EBM-Net模型來解決這個任務。

EBM-Net在標準數據集和新冠肺炎相關臨床試驗上都有較好的表現,大幅超過生物醫學NLP的SOTA模型BioBERT。

未來,臨床試驗可以在EBM-Net等相關模型的協助下進行設計:

當我們固定了想要研究的疾病人群(P)和觀察指標(O)後,可以固定以現有的標準治療為對照(C),遍歷每種可能的新型治療方式(I)以及其相關的背景介紹(B),用模型預測其成功的概率,優先選取所有可能的治療方式中成功概率高的做臨床試驗。

當然,模型在技術上還需要進一步地提高才能更好地輔助臨床試驗設計。後續,我們可以把團隊構建的大規模醫學知識圖譜集成在模型中,使其擁有更準確和魯棒的預測能力。雷鋒網(公眾號:雷鋒網)

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 劍指臨床試驗的設計難題!達摩院提出新模型EBM-Net,比最強基線模型...
    在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中,達摩院研究團隊設計了針對醫學臨床試驗的進一步預訓練任務,並提出全新的模型,幫助醫學研究工作者更好地選擇醫學臨床試驗,以更快地找到有效的治療方案。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    但 Mixture of Experts (MoE,混合專家) 模型是個例外,它們會為每個輸入的例子選擇不同的參數,結果得到一個稀疏激活模型——雖然參數量驚人,但計算成本恆定。目前,MoE 模型已在機器翻譯領域取得了令人矚目的成就,但由於模型複雜度高、通信成本高、訓練不夠穩定,其廣泛應用受到了一定的阻礙。
  • 達摩院NLP團隊斬獲六項世界冠軍背後,讓AI沒有難懂的語言
    近日,達摩院NLP團隊自研的預訓練模型框架ALICE (ALIbaba Collections of Encoder-decoders), 包括多語言模型VECO、多模態語言模型StructVBERT、生成式語言模型PALM等6大自研模型相繼刷新了世界紀錄,在預訓練模型的競技中處於領先地位。
  • 達摩院2021十大科技趨勢:雲原生重塑IT技術體系
    【達摩院2021十大科技趨勢】12月28日,阿里巴巴達摩院發布2021十大科技趨勢,這是達摩院成立三年以來第三次發布年度科技趨勢。達摩院指出,新型AI算法的迭代及算力突破將解決藥物分子靶點確證、藥物可成藥性等難題,例如在疫苗研發過程中,AI可自動輸入有效化合物模型,然後與電腦合成程序產生的數億種不同的化學化合物對比篩選,最終快速找到疫苗的優質候選化合物。作為人機互動和人機混合智能未來技術,腦機接口在醫療領域極具研究價值。
  • 鋼鐵廠來了「新員工」破解廢鋼定級行業難題
    記者今天獲悉,山西晉南鋼鐵集團已在業內率先上線廢鋼AI定級系統,該系統由阿里巴巴達摩院合作研發,對廢鋼的定級準確率達95%,扣重準確率達90%,有望破解廢鋼利用的行業難題。統計數據顯示,中國鋼鐵產量全球領先,但廢鋼利用率僅21.2%,遠低於美國的72.1%,也低於世界平均水平。廢鋼再利用能夠降低能耗和成本,1噸廢鋼能煉出860公斤鋼材。
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    達摩院內部評測結果顯示,KAN-TTS技術令合成語音自然度顯著提升。詳見後文「詳解達摩院KAN-TTS技術」。來源:達摩院語音實驗室橫向比較業界現有的各項中文語音合成服務的效果後,鄢志傑博士認為,達摩院語音實驗室這次交出了一份滿意的答卷。
  • 阿里巴巴達摩院量子實驗室研發出世界上最強的量子電路模擬器...
    阿里巴巴達摩院量子實驗室研發出世界上最強的量子電路模擬器「太章」 目前,阿里巴巴消息,達摩院量子實驗室研發出目前世界上最強的量子電路模擬器「太章」,率先模擬了81比特40層作為基準的谷歌隨機量子電路。
  • 阿里達摩院實習生立功!何愷明Mask R-CNN精度提升,一半輸入數據量...
    此前有學者提出過解決辦法,比如用學習任務感知的縮小網絡來減少信息丟失,但這些網絡通常基於特定任務,需要額外的計算,並不利於實際應用。  那有沒有一種方法,過濾掉空間域冗餘的信息,來節省解碼端到推理引擎間的數據帶寬呢?  這就是達摩院「頻域中學習」解決的核心問題。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    蛋白質結構預測是生命科學領域的一大難題。近日,來自哈佛大學醫學院的研究人員提出了一種基於胺基酸序列預測蛋白質結構的新方法,準確率可媲美當前最佳方案,但預測速度提升了100萬倍。生命所必需的每一次基礎生物學進展幾乎都是由蛋白質帶來的。
  • 達摩院(DAMO)是個什麼鬼?
    馬雲表示在阿里巴巴成立的前十年,從來沒有想過自己做研究院,因為每天都在考慮生死問題,「公司成立十年以後,我們想用自己的模式成立研究院,達摩院會超越Intel、微軟、IBM的研究院。」  「達摩院這個名字是兩周前才確定的,」馬雲說,「我接到童文紅(阿里巴巴集團首席人力官)的電話,討論實驗室的名字。我說幹嘛一定要研究院、實驗室這樣的說法,幹嘛不能創造一個自己的名字,我覺得達摩院就很好。」
  • 達摩院骨科AI成果已被MICCAI 2020收錄
    阿里巴巴達摩院醫療AI又有了一項突破。7月9日,達摩院提出了一種AI助力骨科關節置換手術的新方法,該方法無需醫生手動操作即可自動完成術前關鍵點位的測量,並且實現了精度上的突破,相比傳統AI方法,達摩院醫療AI團隊的精度可提升2.3%以上,整個過程僅需0.3秒。
  • 達摩院2021十大科技趨勢,一起看未來
    年末收官之際,阿里巴巴達摩院重磅發布2021年度十大科技趨勢。這是達摩院成立三年以來第三次發布年度科技趨勢報告,阿里雲智能研究中心攜手達摩院的科學家和業界專家人士,歷經長達3個月大量訪談交流,共同碰撞觀點,深入探討,對人工智慧、物聯網、量子計算、雲計算、區塊鏈、新材料等熱點科技做出研判和預測,對未來的科技走向進行解讀。
  • 達摩院2021十大科技趨勢:第三代半導體材料迎來應用爆發
    12月28日,阿里巴巴達摩院發布2021十大科技趨勢。這也是達摩院成立三年以來,第三次發布年度科技趨勢。此次年度科技趨勢中,達摩院著重強調了新材料技術可能會為未來科技發展帶來的革命。達摩院指出,新型AI算法的迭代及算力突破將解決藥物分子靶點確證、藥物可成藥性等難題,例如在疫苗研發過程中,AI可自動輸入有效化合物模型,然後與電腦合成程序產生的數億種不同的化學化合物對比篩選,最終快速找到疫苗的優質候選化合物。腦機接口在醫療領域極具研究價值。
  • 達摩院骨科AI成果已被...
    阿里巴巴達摩院醫療AI又有了一項突破。7月9日,達摩院提出了一種AI助力骨科關節置換手術的新方法,該方法無需醫生手動操作即可自動完成術前關鍵點位的測量,並且實現了精度上的突破,相比傳統AI方法,達摩院醫療AI團隊的精度可提升2.3%以上,整個過程僅需0.3秒。達摩院算法專家透露,目前該研究成果已被醫學影像分析行業的頂會MICCAI 2020收錄,本月底將正式在醫院上線使用。
  • 阿里開源自研語音識別模型 DFSMN,準確率高達96.04%
    近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。
  • 直接對梯度下手,阿里提出新優化技巧,一行代碼即可改善現有優化器
    比如批歸一化、權重標準化……但現有的優化方法大多基於激活或權重執行,最近阿里達摩院的研究者另闢蹊徑,直接對梯度下手,提出全新的梯度中心化方法。只需一行代碼即可嵌入現有的 DNN 優化器中,還可以直接對預訓練模型進行微調。優化技術對於深度神經網絡 (DNN) 的高效訓練至關重要。
  • 谷歌EfficientNet縮放模型,PyTorch實現出爐,登上GitHub熱榜
    郭一璞 發自 凹非寺 量子位 報導 | 公眾號 QbitAI谷歌上個月底提出的EfficientNet開源縮放模型,在ImageNet的準確率達到了84.1%,超過Gpipe,已經是當前的state-of-the-art了。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍
    但 Mixture of Experts (MoE,混合專家) 模型是個例外,它們會為每個輸入的例子選擇不同的參數,結果得到一個稀疏激活模型——雖然參數量驚人,但計算成本恆定。目前,MoE 模型已在機器翻譯領域取得了令人矚目的成就,但由於模型複雜度高、通信成本高、訓練不夠穩定,其廣泛應用受到了一定的阻礙。
  • 對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好數據...
    1970 年,關係資料庫之父、IBM研究員E.F.Codd發表了一篇名為《A Relational Modelof Data for Large Shared Data Banks》的論文,首次提出了關係模型的概念,並成為現代資料庫產品的主流,這是資料庫歷史上的一個重要轉折點,今天,我們看到的主流資料庫幾乎都是圍繞這一模型做研究。