讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項

2020-12-25 中國新聞網

讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項

2020-12-24 16:33:13 來源:中國網科學 作者:朱延靜 責任編輯:朱延靜

2020年12月24日 16:33 來源:中國網科學

參與互動

  日前,第六屆中國健康信息處理大會(CHIP 2020)舉辦的中文醫學信息處理評測競賽圓滿結賽,騰訊天衍實驗室依託其在醫學領域的長期技術積累和創新探索,一舉獲得「中文醫學文本命名實體識別」賽道冠軍、「中文醫學文本實體關係抽取」賽道亞軍。

  信息抽取(IE)技術方案突破升級

  對於醫學領域的自然語言文獻,例如醫學教材、醫學百科、臨床病例、醫學期刊、入院記錄、檢驗報告等,這些文本中蘊含大量醫學專業知識和醫學術語。將實體識別技術與醫學專業領域結合,利用機器讀取醫學文本,可以顯著提高臨床科研的效率和質量,並且可服務於下遊子任務。但要想讓機器「讀懂」醫學數據,核心在於讓計算機在大量醫學文本中準確的提取出關鍵信息,這就涉及到了命名實體識別、關係抽取等自然語言處理技術。

  命名實體識別(Named Entity Recognition, NER)和關係抽取(Relation Extraction, RE)是信息抽取(Information Extraction,IE)的兩大核心任務。命名實體識別旨在抽取所需實體,以醫療領域為例,需要從非結構化醫學文本中找出醫學實體,如疾病、症狀的過程;實體關係抽取則需要同時提取出醫學實體及實體間的關係信息,即實體關係三元組 [頭實體 (subject),關係(predicate),尾實體(object)]。

  實體關係三元組示意

  在兩大評測任務中,騰訊天衍實驗室從數據和模型層面做出了針對性設計。在命名實體識別任務中,天衍實驗室使用的數據集由北京大學等院校及科研單位智慧醫療課題組聯合構建。基於醫療領域對專業性、準確性的高標準要求,及目前命名實體識別任務存在的實體頻次稀疏和實體長度偏長問題,天衍實驗室採用指針解碼的特殊方式,對單個實體的頭尾位置進行解碼,經過試驗證明,該方法在較長實體中的表現確有明顯提升。同時,天衍實驗室基於自身在醫療領域的經驗,嘗試結合大量醫療文本訓練領域自適應的新預訓練模型,進一步提升了模型表現。最終在評比測試集上,結合多種不同策略,天衍實驗室以F1值68.35獲得第一名。

  實體關係抽取評測任務的數據來源於中文醫學信息抽取數據集CMeIE,也是目前最大的中文醫學關係數據集。因該數據中存在大量實體重疊和關係重疊的現象,天衍實驗室則採用了層疊指針網絡的基礎架構。首先通過兩個二值分類器提取頭實體的首尾位置,繼而採用Conditional layer normalization的方式融入頭實體信息,再針對每種關係,分別預測對應的尾實體。此外,為了更好地利用醫療詞彙的語義信息,天衍實驗室在輸入層融入領域詞向量,有效提升了實體邊界預測的準確率。最終在測試集上取得單模型第一(F1 61.70),融合模型(F1 63.87)第二的成績。

  騰訊天衍實驗室基於自身NLP能力和相關科研成果,不斷通過一系列信息抽取相關競賽測試、突破,不僅累積了豐富場景應用經驗與方法,也將更好的輔助醫療行業技術升級和科研進步。

  技術創新助力AI更「懂醫」

  在醫療領域,電子病歷、生物醫療文獻中存在大量的非結構化文本,採用信息抽取技術對醫療文本進行結構化,提取其中的疾病,症狀,部位等實體,並對實體之間的關係進行判斷,進而利用這些信息構建醫療知識圖譜,不僅有利於人工智慧更好地學到領域內的專業知識,更進一步提升導診、輔診、疾病預測等下遊醫療任務的性能。

  具體來說,醫生在疾病診斷的過程中,不僅要知道患者的症狀,而且要了解患者不同症狀所對應的具體屬性,例如症狀發生的時間、部位、變化情況。天衍實驗室AI導診和疾病預測功能,正是採用了上述信息抽取技術,可模擬醫生診斷過程,並提供循證路徑和一定的可解釋性。

  如在AI導診場景中,當用戶輸入主訴,AI導診小程序可以返回推薦科室。用戶主訴中可能包含多個症狀,不同症狀的時間、部位、嚴重程度、病因誘因可能對應不同的疾病,通過關係抽取技術,可以捕捉到不同症狀的具體屬性,從而有助於更精準的疾病預測和科室推薦。對於下圖中的患者主訴,首先採用ner技術提取症狀、檢查等實體,繼而採用關係抽取技術對不同症狀的具體屬性進行判斷,例如症狀「腹脹不適」,對應的部位為「上腹」,時間為「3月餘」,變化條件為「進食後明顯」,理解了症狀的一系列細粒度屬性,才能進一步判斷可能的疾病和對應科室。

  騰訊天衍實驗室致力於長期在自然語言基礎、語言理解、信息抽取、知識圖譜構建等進行研究創新,並將成果運用到落地的醫療自然語言等場景,目前已構建醫療行業大規模知識圖譜,支持了數百家醫院的輔診、導診、疾病輔助診斷、智能用藥等產品,助力醫保、醫院、疾控中心和其他醫療機構的智能化知識挖掘和管理難題,實現知識化轉型。

  騰訊天衍實驗室專注於醫療健康領域AI算法研究及落地,旨在依託NLP、知識圖譜、大數據、醫療影像等技術系統,將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應用。與此同時,騰訊天衍實驗室還與鍾南山院士以及復旦腫瘤醫院等頭部醫院建立聯合實驗室,與牛津大學、喬治亞大學、天津大學、微眾銀行AI部門等單位建立長期科研合作關係,目前已發表包括NIPS、KDD等多篇頂級學術論文,通過聯合社會各界進行技術深入研究,騰訊天衍實驗室將進一步加速科研應用落地,以服務於臨床應用。

相關焦點

  • 天衍實驗室推薦系統糾偏方法論文入選NeurIPS-2020
    對此,騰訊天衍實驗室近期另闢蹊徑推出推薦系統糾偏方法,與傳統方法相比,該方法無需執行隨機流量實驗以進行無偏估計,大大減小了無偏推薦算法的訓練成本,降低了系統的路徑依賴。借鑑信息理論構建模型 推薦系統糾偏方法呈現創新優勢騰訊天衍實驗室借鑑了資訊理論中的理論來構建模型。模型的原始輸入會先經過一個編碼器 (Encoder)得到表示 (Representation),隨後經過解碼器 (Decoder)將表示解碼成為最終的預測結果。此後,目標函數分為兩部分:輸入和表示之間的互信息,表示和輸入目標之間的互信息。
  • 騰訊天衍實驗室聯合微眾銀行研發醫療聯邦學習,讓腦卒中預測準確率...
    智東西4月20日消息,近日,騰訊天衍實驗室與微眾銀行共同研究表明,將聯邦學習與醫療深度融合對落地疾病預測領域有重大幫助。目前其已搭建基於聯邦學習技術的大數據集中與挖掘平臺,從落地案例來看,可將腦卒中預測準確率提升至80%。
  • 騰訊天衍實驗室鄭冶楓:醫學影像AI為什麼需要小樣本學習和域自適應...
    在8月9日的醫療科技專場上,騰訊天衍實驗室主任、美國醫學和生物工程學會的會士(AIMBE Fellow)、IEEE醫學影像雜誌副編鄭冶楓博士,分享了小樣本學習和域自適應技術在醫學影像AI問題中的最新研究思路及應用進展。
  • 零氪科技斬獲CHIP2020關係抽取、術語標準化2項冠軍
    醫療科技企業零氪科技在中國健康信息處理大會(CHIP 2020)上奪得2個冠軍、2個季軍!CHIP2020 是中國中文信息學會(CIPS)醫療健康與生物信息處理專業委員會主辦的關於醫療、健康和生物信息處理和數據挖掘等技術的年度會議,是中國健康信息處理領域最重要的學術會議之一,會議聚焦「數據和知識驅動的醫療AI」,聚集全國頂尖的醫療信息處理學者與醫療專家。
  • 零氪科技斬獲CHIP2020 關係抽取、術語標準化2 項冠軍
    醫療科技企業零氪科技在中國健康信息處理大會(CHIP 2020)上奪得2個冠軍、2個季軍! CHIP2020 是中國中文信息學會(CIPS)醫療健康與生物信息處理專業委員會主辦的關於醫療、健康和生物信息處理和數據挖掘等技術的年度會議,是中國健康信息處理領域最重要的學術會議之一,會議聚焦「數據和知識驅動的醫療AI」,聚集全國頂尖的醫療信息處理學者與醫療專家。
  • 騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術復盤丨公開課回顧
    鄭冶楓表示,騰訊健康小程序抗疫專區上線的15個工具中,天衍實驗室參與了5項,包括疫情知識問答、患者同小區、發熱自查、發熱門診、口罩攻略。在疫情問答中,天衍實驗室利用自研LTD-BERT模型識別用戶意圖,把推理速度提高了40倍,滿足上線大流量需求,理解用戶意圖以後做問答匹配,精準地給用戶提供疫情信息。
  • 計算所機器翻譯課題組參加歐盟TC-STAR機器翻譯評測獲第三名
    今年2月,計算所多語言交互技術評測實驗室機器翻譯課題組參加了由歐盟TC-STAR 項目組織的第三次機器翻譯評測,取得了第三名的好成績。    歐盟TC-STAR項目的評測內容包括語音識別、語音合成和機器翻譯,其中機器翻譯評測包括漢語到英語,英語到西班牙語,西班牙語到英語三個翻譯方向,計算所機器翻譯課題組參加的是漢語到英語方向的評測。該方向評測內容是美國之音(VOA)廣播稿,具體又分為兩個子任務,一個子任務的輸入是語音識別軟體自動識別的結果(ASR),另一個子任務的輸入是人工轉寫的結果(Verbatim)。
  • 2020騰訊教育盛典:弋果獲「兒童教育」及「少兒英語」兩大獎項
    來源標題:2020騰訊教育盛典:弋果獲「兒童教育」及「少兒英語」兩大獎項 12月2日,2020 「迴響中國」 騰訊網教育年度總評榜暨教育盛典在京舉辦。
  • 華為斬獲 CITE 2020 兩大重磅獎項
    8月14日至16日,第八屆中國電子信息博覽會(CITE 2020)在深圳如期舉辦,被譽為電子信息產業新產品與新技術發展「風向標」的中國電子信息博覽會金獎和創新獎也一併揭曉。華為路由AX3 Pro斬獲「第八屆中國電子信息博覽會金獎」本月3號,華為路由AX3 Pro才剛獲得國際數碼互動娛樂展覽會(ChinaJoy 2020)頒發的黑金娛樂獎。短短十多天過後,華為路由AX3 Pro又榮獲了中國電子信息博覽會(CITE 2020)金獎。
  • 澳門大學粵語-普通話翻譯系統已在實驗室正式上線
    澳門大學(以下簡稱「澳大」)機器翻譯研究取得新突破——澳大「粵語普通話翻譯系統」已正式上線。據澳門特區政府官網1月6日援引澳大消息稱,澳大團隊在粵語和普通話的機器翻譯上實現技術創新,能有效和準確翻譯,大大提升了譯文品質。
  • 鍊金實驗室21天打卡-助你讀懂日語數學題
    鍊金實驗室上半年的快樂打卡活動又來了!
  • AppLovin斬獲2020 Morketing Awards「靈眸獎」兩大重量級獎項
    (原標題:AppLovin斬獲2020 Morketing Awards「靈眸獎」兩大重量級獎項)由全球營銷商業媒體平臺Morketing發起的行業年度獎項「靈眸獎」於2020年11月26日在北京舉辦的頒獎晚宴上正式揭曉榜單!
  • 搜狗擊敗訊飛阿里 獲IWSLT國際口語機器翻譯評測大賽冠軍
    近日,在剛剛落幕的IWSLT(International Workshop on Spoken Language Translation)國際頂級口語機器翻譯評測大賽上,搜狗擊敗訊飛、阿里巴巴, APPTEK(美國應用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學院)等國際國內多個強勁對手
  • 搜狗擊敗訊飛阿里,獲IWSLT國際口語機器翻譯評測大賽冠軍
    ,搜狗擊敗訊飛、阿里巴巴, APPTEK(美國應用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學院)等國際國內多個強勁對手,一舉奪得了2018年IWSLT大賽Baseline Model(基線模型)賽道冠軍,代表中國向世界彰顯了AI領域的技術硬實力!
  • 2020騰訊教育盛典:弋果獲「兒童教育」及「少兒英語」兩大獎項...
    12月2日,2020 「迴響中國」 騰訊網教育年度總評榜暨教育盛典在京舉辦。知名兒童英語培訓機構弋果美語出席本次盛典,並在網絡評選和教育行業專家學者的綜合評估中脫穎而出,憑高品質的產品、優質服務及良好的用戶口碑,斬獲「2020年度影響力少兒英語品牌」及「2020年度知名兒童教育品牌」兩大獎項。
  • 第二屆國際機器同傳評測開啟報名通道
    結合機器翻譯、語音等技術的機器同傳,是人工智慧領域重要的前沿課題。為推動技術進步,百度、谷歌、華為以及格勒諾布爾-阿爾卑斯大學將在自然語言處理權威會議 NAACL 聯合舉辦第二屆國際機器同傳研討會。作為本次大會的重要實踐環節,將繼續舉辦國際機器同傳評測。本次評測於2020年12月28日正式啟動,面向全球開啟報名通道。
  • 哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首
    HotpotQA評測根據提供的篇章數量分為兩個賽道:本次哈工大訊飛聯合實驗室參加的是幹擾項賽道(Distractor Setting),該賽道更側重於考察模型的文本推理能力,同時也是參賽隊伍最多的賽道。下圖中給出了一個HotpotQA數據的示例,向機器詢問「Rand Paul在2016年宣布競選總統活動所在的酒店位於哪條河上?」。
  • 新力控股獲「2020年度《投資者關係雜誌》大中華區獎項評選」大獎
    榮獲五項大獎提名並榮膺四項大獎 香港2020年12月10日 /美通社/ -- 新力控股(集團)有限公司(「新力控股」或「公司」,連同其附屬公司統稱「集團」,股份代號:2103.HK)於2020年度《投資者關係雜誌》大中華區獎項評選中榮獲五項大獎提名並榮膺四項大獎。
  • 騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄 ——騰訊醫療知識...
    騰訊醫療AI實驗室利用知識圖譜及其相關技術,如自然語言處理、知識抽取、信息檢索、知識表示與推理等,從醫療文獻、醫學指南和臨床病歷中挖掘隱含的醫學知識,將大數據轉化為知識圖譜,使得知識查詢和更重要的形式化推理變得可行,有醫學依據,輔助臨床決策,賦能基於人工智慧的醫療產品。
  • 機器之心年度獎項Synced Machine Intelligence Awards 2018正式啟動
    去年,機器之心啟動了首屆「Synced Machine Intelligence Awards」年度獎項評選活動,通過四大獎項記錄了 2017 年人工智慧產業的蓬勃發展。今天,我們再次啟動年度獎項評選活動。