騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍

2020-12-28 天極網資訊

  【天極網IT新聞頻道】聚焦CCKS2020 騰訊天衍實驗室致力於大數據推動醫療應用

  科技是提升醫療服務能力的有效手段,許多知名機構和科研工作者們長期致力於技術研究,並展現出應有的實力。近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。

  (圖:CCKS 2020大會官網)

  針對性數據與模型設計 奪得NER任務冠軍

  第十四屆全國知識圖譜與語義計算大會由中國中文信息學會語言與知識計算專業委員會主辦,已經成為國內知識圖譜、語義技術、連結數據等領域的核心學術會議,聚集了自然語言理解、知識獲取、智能問答、圖資料庫等相關技術領域的研究人員和學者。CCKS技術評測則旨在為研究人員提供測試知識圖譜與語義計算技術、算法、及系統的平臺和資源,促進國內知識圖譜領域的技術發展。針對此次大會,CCKS 2020技術評測共設立8個相關主題評測任務,包含新冠知識圖譜構建與問答、面向中文電子病歷的醫療實體及事件抽取,面向試驗鑑定的命名實體識別等,吸引了眾多知名企業和高校的踴躍參與。在面向試驗鑑定的命名實體識別的主題評測任務中,騰訊天衍實驗室奪得冠軍。

  (圖:面向試驗鑑定的命名實體識別評測獲獎名次)

  何為命名實體識別?簡言之,如何從海量的文本或網頁的原始數據中提取有價值的信息是行業知識圖譜構建的關鍵因素,信息抽取(Information Extraction,IE)作為自然語言處理技術的任務,重點在於從機器可讀取的非結構化或半結構化的文本中抽取信息,而命名實體識別(NER)則是IE任務的核心和基礎技術,旨在從文本中查找每個提及的命名實體並標記其類型。相比於通用領域NER任務,此次競賽任務由於試驗目的不同、被試對象有著自身較為特殊的語言形式,對NER任務帶來了全新的挑戰:一方面,試驗鑑定領域的可用標註語料稀少,訓練集只有400條;另一方面,實體類別間語義複雜度較高,需要依賴專業領域知識和準確的上下文理解。

  針對此次實體識別任務,騰訊天衍實驗室全面識別任務特點,從數據和模型層面進行針對性的設計。首先,針對訓練數據樣本較少且樣本序列長度較長的問題設計了一種基於動態規劃的文本分割方法,將較長樣本分割為多個樣本,同時在切割時使得保留最多原始文本信息的前提下冗餘數據最少。其次,在模型層面上,基於樣本上下文依賴較強且位置關係明顯的特點,在輸入層把領域分詞信息融合到模型中,並且針對性的選取TENER、RTransfomer作為編碼器;編碼器的輸出結合CRF做實體的序列標註,針對模型輸出的結果進行融合和詞典矯正,最終結果為F值0.72128,奪得該賽道冠軍。

  持續創新輸出技術實力 加速醫療科研領域落地應用

  獲此成績非一朝一夕,在此之前,騰訊天衍實驗室就在日常的業務中把實驗室長期積累的相關技術落地到醫療領域的多個場景中,並且在實踐應用中進一步夯實技術實力。

  比如疫情期間,騰訊天衍實驗室基於騰訊健康小程序推出的患者同小區查詢助手極大的方便了用戶查詢同小區患者信息,疫情智能問答助手則可以7*24小時解答用戶關於疫情的相關問題助力公眾科學防疫抗疫,累積服務用戶2000萬查詢人次。兩個智能助手應用到的核心技術之一就是NER技術,通過NER技術從無結構化文本中抽取相關實體並結合關係分類快速構建精準圖譜,從而支撐上層各項智能化應用。

  具體來說,患者同小區查詢助手,主要利用NER技術從官方公布的患者信息文件中抽取出關鍵實體並構建患者畫像圖譜,從而實現患者同小區智能查詢的各項功能。對於疫情問答工具,則主要基於衛健委、醫院等公布的文檔,利用NER技術從中抽取治療、診斷、藥物、地區等相關實體,基於這些實體快速構建新冠肺炎相關的知識圖譜,利用知識圖譜支撐用戶問答服務,從而提高問答的準確性和智能性。

  NER為核心技術的疫情工具圖譜構建流程

  騰訊天衍實驗室致力於長期在自然語言基礎能力、語言理解、信息抽取、知識圖譜構建等進行研究創新,並將成果運用到落地的醫療自然語言等場景,目前已構建醫療行業大規模知識圖譜,支持了數百家醫院的輔診、導診、疾病輔助診斷、智能用藥等產品,助力醫保、醫院、疾控中心和其他醫療機構的智能化知識挖掘和管理難題,實現知識化轉型。

  在醫療健康領域,騰訊天衍實驗室專注於AI算法研究及落地,旨在依託NLP、知識圖譜、大數據、醫療影像等技術系統,將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應用。與此同時,騰訊天衍實驗室還與鍾南山院士以及復旦腫瘤醫院等頭部醫院建立聯合實驗室,與牛津大學、蒙特婁大學、天津大學、微眾銀行AI部門等單位建立長期科研合作關係,目前已發表包括NIPS、KDD等多篇頂級學術論文,通過聯合社會各界進行技術深入研究,騰訊天衍實驗室將進一步加速科研應用落地,以服務於臨床應用。

類型:廣告

免責聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。

相關焦點

  • 讓機器「讀懂」醫療 天衍實驗室獲CHIP2020評測兩大獎項
    日前,第六屆中國健康信息處理大會(CHIP 2020)舉辦的中文醫學信息處理評測競賽圓滿結賽,騰訊天衍實驗室依託其在醫學領域的長期技術積累和創新探索,一舉獲得「中文醫學文本命名實體識別」賽道冠軍、「中文醫學文本實體關係抽取」賽道亞軍。
  • 騰訊天衍實驗室奪世界機器人大賽雙冠軍
    雷鋒網消息,日前,「2020世界機器人大賽-BCI腦控機器人大賽」公布成績,騰訊天衍實驗室和天津大學高忠科教授團隊組成的C2Mind戰隊,入圍BCI腦控機器人大賽「運動想像範式」賽題決賽,最終斬獲技術賽「顳葉腦機組」一等獎,以及技術錦標賽「顳葉腦機有訓練集一等獎」兩項冠軍。
  • 騰訊天衍實驗室鄭冶楓:醫學影像AI為什麼需要小樣本學習和域自適應...
    編者按:2020年8月7日,全球人工智慧和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。
  • 騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術復盤丨公開課回顧
    鄭冶楓表示,騰訊健康小程序抗疫專區上線的15個工具中,天衍實驗室參與了5項,包括疫情知識問答、患者同小區、發熱自查、發熱門診、口罩攻略。在疫情問答中,天衍實驗室利用自研LTD-BERT模型識別用戶意圖,把推理速度提高了40倍,滿足上線大流量需求,理解用戶意圖以後做問答匹配,精準地給用戶提供疫情信息。
  • 天大團隊奪得2020世界機器人大賽雙冠軍!
    近日,2020世界機器人大賽-BCI腦控機器人大賽公布成績,天津大學自動化學院高忠科教授團隊和騰訊天衍實驗室組成的C2Mind戰隊,入圍BCI腦控機器人大賽決賽,最終斬獲技術賽「顳葉腦機組」一等獎,以及技術錦標賽
  • 騰訊開源首款H.266播放器!專訪背後「天團」騰訊多媒體實驗室
    2020年7月,H.266/VVC視頻編解碼標準宣布編輯完成,以騰訊為代表的中國企業成為這一標準制定的重要力量 。以騰訊為例,其提出的100多個提案獲得採納。
  • 一些NER的英文數據集推薦
    打開APP 一些NER的英文數據集推薦 深度學習自然語言 發表於 2020-12-26 09:11:57 1   MUC Data Sets https://www-nlpir.nist.gov/related_projects/muc/     2   CoNLL-2002   https://www.clips.uantwerpen.be/conll2002/ner/     3   CoNLL-2003
  • 白雲學子斬獲全國機器人大賽冠軍
    白雲學子斬獲全國機器人大賽冠軍 2020-12-25 18:16 來源:澎湃新聞·澎湃號·政務
  • 天津大學自動化學院高忠科教授團隊在2020世界機器人大賽獲得雙冠軍
    本站訊(通訊員 趙啟慧)近日,2020世界機器人大賽-BCI腦控機器人大賽公布成績,天津大學自動化學院高忠科教授團隊和騰訊天衍實驗室組成的C2Mind戰隊,入圍BCI腦控機器人大賽決賽,最終斬獲技術賽「顳葉腦機組」一等獎,
  • 騰訊安全聯合實驗室掌門人領銜騰訊CTF(TCTF)
    2月28日,騰訊安全聯合實驗室七大掌門人、頂尖網絡安全技術大牛——吳石、於暘(TK)、袁仁廣(yuange)、董志強、李旭陽、馬勁松、李偉等一齊出席了由中國網絡空間安全協會競評演練工作委員會指導、騰訊安全發起、騰訊安全聯合實驗室主辦、0ops戰隊和北京郵電大學協辦的騰訊CTF(騰訊信息安全爭霸賽,Tencent Capture
  • 百度斬獲NeurIPS2020挑戰賽冠軍,引領遙感變化檢測技術發展
    Urban Development Challenge)結果,百度憑藉百度大腦先進的計算機視覺技術支撐,以最高得分和最快模型的成績斬獲冠軍,原創AI技術再次得到國際權威頂賽的印證。大會開設的SpaceNet-7挑戰賽聚焦於遙感變化檢測技術的應用,競賽任務要求參賽者使用已建立的多目標跟蹤準確性(SCOT)指標跟蹤建築物的建設進度,從而直接評估城市化程度。
  • 國風原創歌曲徵集活動正式收官 騰訊音樂人斬獲全部賽道冠軍寶座
    日前,QQ音樂聯合互動閱讀平臺「一零零一」共同開啟的國風原創歌曲徵集計劃正式收官,騰訊音樂人作為大賽參與方,包攬「織夢書」賽道、「夢浮燈」賽道、「妖氣撩人」三個賽道冠軍寶座。據悉,騰訊音樂人為此次大賽共輸送30首優質原創歌曲,入選曲目高達27首,三個賽道TOP3的9名音樂人中,有8位來自騰訊音樂人,成績亮眼。
  • CCKS 2020「基於標題的大規模商品實體檢索」競賽冠軍,DeepBlueAI...
    」任務中的冠軍解決方案,詳細描述了任務解決過程中的數據處理以及模型選擇和使用等細節問題。CCKS 2020 舉辦的各項挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了 3 項冠軍和 1 項亞軍,並獲得了一項技術創新獎。一、任務介紹CCKS 2020:基於標題的大規模商品實體檢索,任務為對於給定的一個商品標題,參賽系統需要匹配到該標題在給定商品庫中的對應商品實體。
  • 50年專注目標特性,這家研究所擁有兩個國家級重點實驗室
    50年來,207所以搶抓機遇、開拓進取的創業精神,無所畏懼、堅忍不拔的拼搏精神和敢為人先、勇於攀登的創新精神,從一個各方面力量都很薄弱的研究所,成長為資產規模近25億元、年營業收入超10億元、科學實驗設施齊全的國家級目標特性研究與試驗中心,為我國武器裝備研製與試驗提供了重要支撐。207所50年的發展史,就是一部創業史,一部奮鬥史。
  • 「九牧雙十一冠軍天團直播」斬獲年度體育界最佳案例
    12月23日,2020ECOTIME體育年會在北京舉行,眾多行業重量級嘉賓,圍繞短視頻、電競、新商業等熱點話題,共同探討體育產業未來的無限可能。頒獎典禮上,九牧再次以行業領導者的姿態閃耀全場,「九牧雙十一冠軍天團直播」獨家斬獲年度體育界最佳案例!2020年,受疫情衝擊,每個行業都在負重前行。在此背景下,品牌數位化升級,口碑式營銷等銷售理念愈發火熱。誰能把握住機會,誰就能逆勢破局。
  • 騰訊機器人拿下足球電競世界冠軍
    日前騰訊宣布,其人工智慧球隊摘得足球AI比賽——首屆谷歌足球Kaggle競賽冠軍,該冠軍球隊來自騰訊AI Lab研發的絕悟WeKick版本。騰訊方面表示,「AI+遊戲」是騰訊攻克AI終極研究難題——通用人工智慧(AGI)的關鍵一步。
  • 克拉克拉2020年度嘉年華收官,李俊文斬獲年度冠軍
    近日,克拉克拉2020年度嘉年華完美收官。 克拉克拉上千名主播、上百家直播公會衝擊榜單,奪取百萬大獎。經過30天的激烈爭奪,獨立音樂人李俊文摘得主賽道"榮耀巔峰"的冠軍頭銜。李俊文在克拉克拉平臺直播有一年的時間,擁有《消失的愛人》、《冷宮》、《粽小粽的時光機》等個人音樂單曲作品。此次賽事是李俊文加入平臺以來第一次參加的年度賽事,在整場賽事有著相當出色的表現。
  • 騰訊多媒體實驗室的完整音視頻技術棧
    在音視頻圈子裡,最近熱門話題不少,譬如視頻體驗聯盟的四屆一次全會,譬如拉斯維加斯的2020 CES展,再譬如騰訊雲最新發布的一款雲視頻會議產品。如果說視頻體驗聯盟四屆一次全會,主要是對2020年音視頻技術研發方向的定調,那2020 CES展就是音視頻新技術的集中展示,而騰訊的雲視頻會議產品,則是新技術的切實落地。
  • 哪些儀器成為國家重點實驗室2020的天選之子?
    國家重點實驗室被稱為我國科技創新的國家隊。截至2020年5月,我國已建成國家重點實驗室542個。作為我國基礎研究和應用基礎研究的重要科技創新基地,各國家重點實驗室也是世界一流水平的公共實驗研究平臺,是先進儀器設施和科研裝備「聚寶盆」。