雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

2020-12-27 和訊

  日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。

  本屆大會,雲知聲-中科院自動化所「語言與知識計算聯合實驗室」共有3篇論文被收錄,分別在醫療對話的自動信息抽取、國際疾病分類(ICD)自動編碼,以及 ICD 自動編碼可解釋性等領域取得突破。這些最新的自然語言處理算法將為後續研究提供極具價值的經驗和方向,已在雲知聲醫療業務率先應用。

  一種面向醫學對話的醫學信息提取器

  MIE: A Medical Information Extractor towards Medical Dialogues

  如今,電子病歷已經成為現代醫療的重要組成部分,但是目前書寫電子病歷費時費力,已經成為醫生的沉重負擔。如果能夠從醫療對話中自動地抽取醫學信息,將極大緩解醫生書寫病歷的壓力。

  本文提出一個面向醫患對話文本的信息抽取系統,它可以從對話中抽取出症狀、檢查、手術、一般信息及其相應的狀態。這些抽取出的信息將有助於醫生書寫病歷,或者更進一步地應用於病歷的自動生成。研究團隊收集並標註了1120段在線問診的醫患對話作為數據集,採用滑動窗口形式進行標註,和序列標註相比,減緩了標註難度。在此基礎上,針對醫療問診對話文本的特點和難點,提出一種基於深度匹配的神經網絡模型,能夠考慮到對話的多輪結構,利用注意力機制捕捉對話中不同輪次之間的交互信息,從而完善醫學信息的抽取。

圖1:典型的醫學對話窗口和相應的帶注釋的標籤

  HyperCore:基於空間和共現圖表示的 ICD 自動編碼

  HyperCore: Hyperbolic and Co-graph Representation for Automatic ICD

  Coding

  國際疾病分類(International Classification of Dieases,ICD)是由世界衛生組織發起的,針對各種疾病做出的國際通用的統一分類方法,這種方法賦予每種疾病一個獨特的編碼。ICD 編碼的普及和應用能夠極大促進世界範圍內疾病的信息共享和臨床研究,並對健康狀況研究、保險索賠、發病率和死亡率統計產生積極的影響。

  長期以來,ICD 編碼一直由專業編碼員人工完成。人工編碼耗時費力,而且非常容易出錯,同時不斷更新 ICD 代碼版本會導致代碼數量大幅度增加,對編碼人員的要求越來越高。數據顯示,在美國每年因為編碼錯誤以及用於提升編碼質量的相關成本超過250億美元。

  為了緩解人工編碼的問題,一些工作開始嘗試利用機器自動完成 ICD 編碼任務。但是現有的方法獨立地預測每個編碼,而忽略了編碼的兩個重要特徵——層級性和共現性。

  在本文中,研究團隊提出了使用雙曲空間和共現圖卷積神經網絡針對性地建模上述兩種性質。具體來說,提出了一種雙曲線表示方法來利用編碼的層次結構。此外,提出了一種共現圖卷積網絡來利用編碼的共現性。在國際公開數據集上的實驗取得了最好的效果。

圖2:自動ICD編碼任務的示例

  Clinical-Coder:面向中文臨床記錄 ICD-10 自動編碼

  Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes

  國際疾病分類(ICD)作為世衛組織成員國在衛生統計中共同採用的對疾病進行編碼的標準分類方法,是目前國際上通用的疾病分類方法。目前廣泛使用的國際疾病分類第十次修訂版(簡稱 ICD-10)的編碼數量達到了72,184個,是以前版本(ICD-9)的五倍多。

  為了緩解人工編碼耗時、費力、容易出錯的問題,很多工作開始研究利用機器進行自動的 ICD 編碼。這些方法雖然取得了很大的成功,但仍然面臨著預測結果可解釋性問題的嚴峻挑戰,可解釋的結果對臨床醫學決策具有重要意義。

  針對此問題,並結合中文的語言特點,研究團隊提出了一種基於空洞卷積和N-gram語言模型的ICD自動編碼方法,利用空洞卷積捕獲非嚴格匹配的語義片段證據,利用 N-gram 捕獲嚴格匹配的語義片段證據,進而二者聯合使用,共同提升預測結果的可解釋性。實驗結果顯示,該方法不僅能在中文數據集上取得顯著的效果,在國際公開的英文數據集上也有不錯的效果。

圖3:兩種語義片段證據類型-非嚴格匹配和嚴格匹配

  值得一提的是,在醫療領域,雲知聲-中科院自動化所語言與知識計算聯合實驗室基於自然語言處理技術構建的醫療知識圖譜已儲備約 50萬醫學概念,超過 169 萬醫學術語庫和 398 萬醫學關係庫,涵蓋了絕大部分藥品、疾病、科室與檢查,規模達國際領先水準,並在語音病歷,病歷生成、病歷質控、輔助診斷系統等具體應用中發揮了重要支撐作用。

  關於 ACL :ACL 是自然語言處理領域頂級國際學術會議,由計算語言學學會(Association for Computational Linguistics)主辦,每年舉辦一次。其接收的論文覆蓋了語言模型、句法分析、語義分析、篇章分析等計算語言學基礎研究以及信息抽取、問答系統、對話生成、機器翻譯、自動文摘、情感分析、社會計算等自然語言處理應用研究等眾多方向。第 58 屆 ACL 年會 ACL 2020 原定於 7 月 5 日-10 日在美國華盛頓西雅圖舉行,因疫情影響今年將改為在線會議。

(責任編輯:董雲龍 )

相關焦點

  • 雲知聲入選 ACL 2020 的三篇論文 都研究了什麼
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    此次會議公布了最佳論文、最佳主題論文、最佳 demo 論文、時間檢驗獎等多個獎項。此外,大會官方也介紹了今年的接收論文、熱門研究主題等數據。ACL 2020 共收到投稿 3429 篇,創下了 ACL 投稿數量的新紀錄。此次會議共接收論文 779 篇,包括 571 篇長論文和 208 篇短論文,論文接收率為 22.7%。
  • ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作
    來看看今年的最佳論文講了什麼,各個國家、機構的戰況又如何:最佳長論文最佳長論文獲獎者是中國的研究人員,這篇論文名為:Bridging the Gap between Training and Inference for Neural Machine Translation△ 圖片來自推特用戶Aarne Talman文章來自中科院計算所智能信息處理重點實驗室
  • ACL 2020最佳論文直播重磅來襲,二作學霸小姐姐駕到!
    在這個萬事萬物都需要準確「評價」和「度量」的時代,NLP 模型也不例外。正所謂工欲善其事必先利其器,只有對模型建立正確的評估方法,其本質和內在規律才能夠被剖析出來,研究者也才能有的放矢地對其進行深入探索並解決相關問題。
  • 百度11篇AI論文被ACL 2020收錄 都寫了什麼?
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • ACL 2020接收論文列表公開,接收率25.2%,你上榜了嗎?
    機器之心報導參與:魔王自然語言處理頂會 ACL 2020 將於 7 月 5 日-10 日線上舉行。不久之前,ACL 論文接收結果公布,但官方並未放出完整的論文列表。近日,ACL 接收論文列表公布,讓我們看一下都有哪些論文被接收了。
  • 在剛剛結束的ACL 2019上,知識圖譜領域都發生了哪些大事?
    我個人非常高興看到 KG 在頂級人工智慧會議上受到了如此大的推崇:在 660 中有大約 30 篇論文,這樣一個大型會議佔有 5% 的比重是很不錯的(好吧,ACL 不一直都是 AI 的風向標嗎?)。所以,我想概括一些 KG 最具代表性的主要的應用領域,並介紹一些在 ACL 期間演示的一些非常有前景的論文。由於會議的規模太大,本文很可能遺漏了一些內容。
  • 中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉
    不久之前,ACL 2019 官方網站公布了入圍論文獎項的 32 篇候選論文。剛剛,ACL 2019 最終獲獎論文公布,多所國內高校及眾多華人學者獲得榮譽。值得一提的是,來自中科院、華為諾亞方舟實驗室等機構的論文獲得了最佳長論文;一篇來自南京理工大學論文獲得了傑出論文獎。除此之外,還有很多華人學者都是獲獎論文的作者。由此可見,國內研究者在 NLP 領域還是取得非常不錯的成績。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    來源:TechWeb.com.cn【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。
  • CVPR 2020公布「開獎」結果:接收率二連降僅22% 百度入選19篇論文
    CVPR 2020公布「開獎」結果:接收率二連降僅22% 百度入選19篇論文  olivia chan • 2020-02
  • 武漢理工大學兩篇論文入選2019年中國百篇最具影響國際學術論文
    近日,國家科學技術部中國科學技術信息研究所發布了「2019年中國百篇最具影響國際學術論文」榜單,武漢理工大學兩篇論文入選「2019年度中國百篇最具影響國際學術論文」。論文作者分別為材料複合新技術國家重點實驗室的餘家國教授團隊和木士春教授團隊。
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 四川農業大學果蔬所獼猴桃課題組2篇論文入選ESI高被引論文
    ESI(Essential Science Indicators,基本科學指標)2020年7月公布的新一期數據顯示,果蔬所獼猴桃課題組發表的2篇研究論文入選為高被引論文,論文題目分別為《Exogenous melatonin promotes the growth and photosynthesis
  • 直播回顧丨「聽大咖講論文」ACL 2020百度論文分享場會B場
    「聽大咖講論文」百度ACL 2020論文分享會的B場直播回顧來了!更多Apollo智能駕駛相關訊息,就在Apollo開發者社區公眾號!在「聽大咖講論文」百度ACL 2020論文分享會中,我們邀請到百度技術委員會主席、百度自然語言處理首席科學家吳華博士攜6位NLP研發工程師為大家帶來了2場「聽大咖講論文」直播,對百度入選ACL 2020的其中6篇論文進行了詳細解讀。
  • 93篇入選!中國家電技術大會2020年優秀論文揭榜
    10月29日,由中國家用電器協會主辦的2020年中國家用電器技術大會在浙江省寧波市召開。依照以往的慣例,技術大會舉辦首日當晚會舉行優秀論文名單的揭曉晚宴。中國家電網在現場獲悉,今年共有93篇論文入選中國家用電器技術大會優秀論文名單。
  • 科大訊飛「打假」雲知聲,到底是怎麼回事
    其中,2019年10月,公司獲第九屆「吳文俊人工智慧科技進步獎」,是入選該獎項的唯一一家人工智慧語音公司。2020年8月,公司在語音合成領域的權威賽事Blizzard Challenge 2020國際語音合成大賽中,榮獲中文普通話、上海話多項關鍵指標第一的好成績。 根據招股書描述,AI智能語音行業已是一片紅海,網際網路巨頭視語音技術植入相關業務場景為下一代人機互動入口。
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 阿里巴巴多篇學術論文集合(IJCAI、SIGIR、ACL)
    阿里巴巴作為國內優秀企業,也有三篇論文被收錄為口頭報告論文;此外,在 ACL 上有兩篇論文被錄用;在 SIGIR上有三篇論文被錄用。以上事件在雷鋒網(公眾號:雷鋒網)旗下學術頻道 AI 科技評論資料庫產品「AI 影響因子」中有相應加分。
  • ACL 2019年度回顧:自然語言處理發展趨勢
    除此之外,NLP技術可解釋性和評判體系等更為基礎的研究也都有新突破。學者們也深入討論了NLP研究中潛在的歧視、偏差問題。畢業於史丹福大學,目前就職於亞馬遜Alexa AI的Mihail Eric小哥在參會之後寫下了ACL 2019的詳細回顧。