讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項

2020-12-24 比特網

日前,第六屆中國健康信息處理大會(CHIP 2020)舉辦的中文醫學信息處理評測競賽圓滿結賽,騰訊天衍實驗室依託其在醫學領域的長期技術積累和創新探索,一舉獲得「中文醫學文本命名實體識別」賽道冠軍、「中文醫學文本實體關係抽取」賽道亞軍。

信息抽取(IE)技術方案突破升級

對於醫學領域的自然語言文獻,例如醫學教材、醫學百科、臨床病例、醫學期刊、入院記錄、檢驗報告等,這些文本中蘊含大量醫學專業知識和醫學術語。將實體識別技術與醫學專業領域結合,利用機器讀取醫學文本,可以顯著提高臨床科研的效率和質量,並且可服務於下遊子任務。但要想讓機器「讀懂」醫學數據,核心在於讓計算機在大量醫學文本中準確的提取出關鍵信息,這就涉及到了命名實體識別、關係抽取等自然語言處理技術。

命名實體識別(Named Entity Recognition, NER)和關係抽取(Relation Extraction, RE)是信息抽取(Information Extraction,IE)的兩大核心任務。命名實體識別旨在抽取所需實體,以醫療領域為例,需要從非結構化醫學文本中找出醫學實體,如疾病、症狀的過程;實體關係抽取則需要同時提取出醫學實體及實體間的關係信息,即實體關係三元組 [頭實體 (subject), 關係(predicate), 尾實體(object)]。

實體關係三元組示意

在兩大評測任務中,騰訊天衍實驗室從數據和模型層面做出了針對性設計。在命名實體識別任務中,天衍實驗室使用的數據集由北京大學等院校及科研單位智慧醫療課題組聯合構建。基於醫療領域對專業性、準確性的高標準要求,及目前命名實體識別任務存在的實體頻次稀疏和實體長度偏長問題,天衍實驗室採用指針解碼的特殊方式,對單個實體的頭尾位置進行解碼,經過試驗證明,該方法在較長實體中的表現確有明顯提升。同時,天衍實驗室基於自身在醫療領域的經驗,嘗試結合大量醫療文本訓練領域自適應的新預訓練模型,進一步提升了模型表現。最終在評比測試集上,結合多種不同策略,天衍實驗室以F1值68.35獲得第一名。

實體關係抽取評測任務的數據來源於中文醫學信息抽取數據集CMeIE,也是目前最大的中文醫學關係數據集。因該數據中存在大量實體重疊和關係重疊的現象,天衍實驗室則採用了層疊指針網絡的基礎架構。首先通過兩個二值分類器提取頭實體的首尾位置,繼而採用Conditional layer normalization的方式融入頭實體信息,再針對每種關係,分別預測對應的尾實體。此外,為了更好地利用醫療詞彙的語義信息,天衍實驗室在輸入層融入領域詞向量,有效提升了實體邊界預測的準確率。最終在測試集上取得單模型第一(F1 61.70),融合模型(F1 63.87)第二的成績。

騰訊天衍實驗室基於自身NLP能力和相關科研成果,不斷通過一系列信息抽取相關競賽測試、突破,不僅累積了豐富場景應用經驗與方法,也將更好的輔助醫療行業技術升級和科研進步。

技術創新助力AI更「懂醫」

在醫療領域,電子病歷、生物醫療文獻中存在大量的非結構化文本,採用信息抽取技術對醫療文本進行結構化,提取其中的疾病,症狀,部位等實體,並對實體之間的關係進行判斷,進而利用這些信息構建醫療知識圖譜,不僅有利於人工智慧更好地學到領域內的專業知識,更進一步提升導診、輔診、疾病預測等下遊醫療任務的性能。

具體來說,醫生在疾病診斷的過程中,不僅要知道患者的症狀,而且要了解患者不同症狀所對應的具體屬性,例如症狀發生的時間、部位、變化情況。天衍實驗室AI導診和疾病預測功能,正是採用了上述信息抽取技術,可模擬醫生診斷過程,並提供循證路徑和一定的可解釋性。

如在AI導診場景中,當用戶輸入主訴,AI導診小程序可以返回推薦科室。用戶主訴中可能包含多個症狀,不同症狀的時間、部位、嚴重程度、病因誘因可能對應不同的疾病,通過關係抽取技術,可以捕捉到不同症狀的具體屬性,從而有助於更精準的疾病預測和科室推薦。對於下圖中的患者主訴,首先採用ner技術提取症狀、檢查等實體,繼而採用關係抽取技術對不同症狀的具體屬性進行判斷,例如症狀「腹脹不適」,對應的部位為「上腹」,時間為「3月餘」,變化條件為「進食後明顯」,理解了症狀的一系列細粒度屬性,才能進一步判斷可能的疾病和對應科室。

關係抽取演示圖

騰訊天衍實驗室致力於長期在自然語言基礎、語言理解、信息抽取、知識圖譜構建等進行研究創新,並將成果運用到落地的醫療自然語言等場景,目前已構建醫療行業大規模知識圖譜,支持了數百家醫院的輔診、導診、疾病輔助診斷、智能用藥等產品,助力醫保、醫院、疾控中心和其他醫療機構的智能化知識挖掘和管理難題,實現知識化轉型。

騰訊天衍實驗室專注於醫療健康領域AI算法研究及落地,旨在依託NLP、知識圖譜、大數據、醫療影像等技術系統,將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應用。與此同時,騰訊天衍實驗室還與鍾南山院士以及復旦腫瘤醫院等頭部醫院建立聯合實驗室,與牛津大學、喬治亞大學、天津大學、微眾銀行AI部門等單位建立長期科研合作關係,目前已發表包括NIPS、KDD等多篇頂級學術論文,通過聯合社會各界進行技術深入研究,騰訊天衍實驗室將進一步加速科研應用落地,以服務於臨床應用。

類型:廣告

免責聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。

相關焦點

  • 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍
    【天極網IT新聞頻道】聚焦CCKS2020 騰訊天衍實驗室致力於大數據推動醫療應用   科技是提升醫療服務能力的有效手段,許多知名機構和科研工作者們長期致力於技術研究,並展現出應有的實力。近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。
  • 騰訊天衍實驗室奪世界機器人大賽雙冠軍
    雷鋒網消息,日前,「2020世界機器人大賽-BCI腦控機器人大賽」公布成績,騰訊天衍實驗室和天津大學高忠科教授團隊組成的C2Mind戰隊,入圍BCI腦控機器人大賽「運動想像範式」賽題決賽,最終斬獲技術賽「顳葉腦機組」一等獎,以及技術錦標賽「顳葉腦機有訓練集一等獎」兩項冠軍。
  • 騰訊天衍實驗室鄭冶楓:醫學影像AI為什麼需要小樣本學習和域自適應...
    在8月9日的醫療科技專場上,騰訊天衍實驗室主任、美國醫學和生物工程學會的會士(AIMBE Fellow)、IEEE醫學影像雜誌副編鄭冶楓博士,分享了小樣本學習和域自適應技術在醫學影像AI問題中的最新研究思路及應用進展。
  • 騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術復盤丨公開課回顧
    鄭冶楓表示,騰訊健康小程序抗疫專區上線的15個工具中,天衍實驗室參與了5項,包括疫情知識問答、患者同小區、發熱自查、發熱門診、口罩攻略。在疫情問答中,天衍實驗室利用自研LTD-BERT模型識別用戶意圖,把推理速度提高了40倍,滿足上線大流量需求,理解用戶意圖以後做問答匹配,精準地給用戶提供疫情信息。
  • 澳門大學粵語-普通話翻譯系統已在實驗室正式上線
    澳門大學(以下簡稱「澳大」)機器翻譯研究取得新突破——澳大「粵語普通話翻譯系統」已正式上線。據澳門特區政府官網1月6日援引澳大消息稱,澳大團隊在粵語和普通話的機器翻譯上實現技術創新,能有效和準確翻譯,大大提升了譯文品質。
  • 利好8 大醫療領域,一文讀懂未來 AI 醫療風向標 | 2020 人工智慧...
    ,並盤點市場主要參與者,力求描摹 2020 年網際網路醫療行業發展的新風向。人工智慧賦能醫療行業的發展路徑可歸結為"計算智能-感知智能-認知智能"三個階段,隨技術進步而螺旋上升發展。計算智能是人工智慧醫療發展的初期階段,在這一階段人工智慧主要表現為對醫療行業的算力支持,通過計算機獲取海量醫療數據資源,對於數據進行整合、處理、分析,是實現精準醫療、智能醫療的重要保障。感知智能是機器接收外界信息、實現人機互動的能力。
  • 哈工大訊飛聯合實驗室榮獲權威自然語言理解評測GLUE冠軍
    3/8月27日,哈工大訊飛聯合實驗室與河北省訊飛人工智慧研究院聯合團隊以總平均分90.7位列權威自然語言理解評測GLUE榜首,這是繼今年5月在多步推理閱讀理解評測HotpotQA奪冠後,哈工大訊飛聯合實驗室在認知智能及通用自然語言處理技術上再獲突破。
  • 2020國際科創節召開 完美世界控股集團獲「科創之光」兩大獎項
    (原標題:2020國際科創節召開 完美世界控股集團獲「科創之光」兩大獎項)
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    CGED 2020 Identification-level指標情況CGED 2020 Position-level指標情況科大訊飛作文自動批改未來,隨著技術的不斷進步,以中文語法錯誤診斷與修正技術為核心的文本校對將在編輯出版、公文撰寫、作文批改以及廣大自媒體文稿寫作等場景中發揮越來越大的作用,應用前景廣闊。
  • ImageNet一作、李飛飛高徒鄧嘉獲最佳論文獎,ECCV 2020獎項全公布
    昨日,計算機視覺頂會 ECCV 2020 公布了最佳論文等獎項,ImageNet 論文一作鄧嘉獲最佳論文獎。計算機視覺三大國際頂級會議之一的 ECCV 2020 已經召開。受疫情影響,原定於 8 月下旬在英國格拉斯哥舉行的 ECCV 2020 會議轉為線上舉行,為期 4 天。
  • 星環科技獲2020大數據科技傳播獎
    來源:時刻頭條12月13日,以"百年變局 數勝未來"為主題的"2020年大數據科技傳播與應用高峰論壇"在湖南衡陽召開。李蘭娟、李德仁等十餘位院士,以及200餘位大數據傳播與應用領域專家、學者齊聚,聚焦「抗疫大數據應用」等熱點話題,探討傳統企業實現大數據轉型升級,構築大數據網際網路企業新業態。論壇上重磅揭曉"大數據科技傳播獎"獲獎名單,星環科技大數據基礎架構部平臺團隊獲「大數據科技傳播獎-未來獎」。
  • 數坤AI全流程參與診療,AI+醫療助力健康中國建設
    戴上一塊智能手錶,就能實時監控佩戴者的心電圖、房顫等健康數據;通過遠程視頻,就能對偏遠地區的患者進行多學科會診;憑藉一部普通的智慧型手機,帕金森患者在家就可以完成運動功能日常評測……近年來,AI(人工智慧)技術與醫療行業深度融合,為人們的健康生活和醫療服務帶來更多可能。
  • 中孚信息受邀出席中國軟體技術大會,一舉攬獲兩大重磅獎項
    12月18-19日,由中國科學院軟體研究所、中科軟科技聯合主辦的2020年中國軟體技術大會在北京舉行。作為軟體技術領域的年度盛事,迄今為止,中國軟體技術大會已經成功舉辦18屆。本屆大會以「軟體賦能行業,技術驅動創新」為主題,吸引了千餘位軟體行業專家、企業高管、技術大咖,圍繞新基建時代的科技創新等話題,解析最新企業級軟體技術 ,交流前沿技術和發展趨勢,分享最佳實踐和應用經驗。
  • 挖貝「2020年度醫療健康領軍企業」獎項獲獎名單出爐
    會上揭曉了「2020挖貝新三板年終評選」活動的獲獎企業、人物名單,華齒口腔(873311)、金絲利(873430)、合佳醫藥(838641)、諾思蘭德(430047)、小護士(873498)榮獲挖貝「2020年度醫療健康領軍企業」。
  • 「醫周點睛」5分鐘帶你讀懂醫療產業(1214-1218)
    資訊及時·精英參考國控租賃整合一周大事深度點睛行業風向5分鐘帶你讀懂醫療產業>鼓勵醫療衛生機構運用大數據、人工智慧、雲計算等新興信息技術與公共衛生領域應用融合,探索創新發展模式,在疫情監測分析、病毒溯源、防控救治、資源調配等方面更好發揮支撐作用。
  • 幸福實驗室:讀懂自己很重要
    如果看電視節目也算是閱讀的話,最近真的超級想安利《幸福實驗室》這個節目,非常值得一看。本推薦來源於學到老、活到老的梅梅老師,作為圓桌派的忠實擁護者,梅總的這次推薦仍然是一次成年人的靈魂碰撞,是一次值得的深思熟慮課程,是一種「看了以後會成長,會思考、會反求諸己、會有收穫的」、「與那些無腦綜藝和刷明星流量」有巨大差異的有意思的電視節目。說完這麼多,讓我來介紹一下什麼是《幸福實驗室》吧。
  • 清華長庚在「2020第七屆網際網路+健康中國大會」獲三項獎項
    北京清華長庚醫院12月9日電 12月5日,由健康報社、濟南市人民政府共同主辦的「2020第七屆網際網路+健康中國大會」在山東省濟南市舉行。在「創新賦能傳播·構建健康傳播新生態」主題論壇中,清華大學附屬北京清華長庚醫院獲「健康中國政務新媒體平臺優質醫療機構類健康號」及「2020年度最佳宣傳組織獎」獎項;康復醫學科徐泉醫師獲「健康中國醫者名片最具影響力/優秀創作者」獎項。
  • 2020-2021「AI中國」機器之心年度獎項揭榜(下)
    自2017 年設立以來,機器之心「Synced Machine Intelligence Awards」年度獎項評選活動自已連續舉辦至第四屆,是目前國內人工智慧界規模最大、評選最權威的年度獎項,已成為我國人工智慧產業的風向標。在21世紀的時間軸上,2020必將是載入史冊的一年。
  • 【聯合評測實驗室】第1期——Atomos Ninja V
    【聯合評測實驗室】是影視工業網推出的全新欄目,這個欄目的目的在於,讓大家更全面的了解設備
  • 《天衍錄》今日開放性測試,進來看看柳巖吧,哈哈!
    由歡聚遊戲代理、靈石遊戲研發的3DMMO星域幻想題材網遊《天衍錄》今日14:00點正式開啟首次不限號不刪檔開放性測試,柳巖化身星域女神,唱響遊戲同名主題曲