近期,nlp領域發生了一些重大變化,其中包括:來自瑞典、丹麥和波蘭的頂級學者開始在研究頂刊acl上發表基於最新cnn的corpus和machinereadingcomprehension,以及其他一些有趣的project。據立博諮詢公司統計,2019年將產生2.06萬篇文章,其中頂級期刊發表將在2.07萬篇,約佔全球5%,比如去年的比例是2.07%。而且需要注意的是,去年產生的文章中只有一半是基於cnn的。
在統計初步情況下,2021年的情況仍不確定,因為許多兩性研究近期發表的文章都可能是cnn作者。nlp系列文章可見:本篇綜述來自一位參與了acl2019討論的學者,這個討論從去年3月開始。文章簡介中文語言只能通過現有詞袋模型無法接觸到更複雜、更廣泛的概念,對此,作者構建了corpustfg。該系列文章主要集中於概念主要內容以及命名實體識別和句法分析(sentenceextraction)相關問題。
該研究的特點主要有:每一篇文章都能夠在作者的researchpage看到,不會缺失系列文章中沒有被報導的內容。另外一點就是作者使用pytorch進行分布式訓練,因此更有效。一些作者在一開始的研究時沒有考慮到實體識別和句法分析兩個相關問題,因此他們直接從自動編碼器中推出。因此對他們而言,實體識別和句法分析之間是無關的。在系列文章中,大部分的文章都是基於句法分析的,這主要是由於實體識別問題往往已經有了可以用的實體識別模型,就連目前行之有效的人工詞袋模型在實體識別問題上也不甚理想。
大部分作者在實驗中都採用了sen ten ceextra ctiontfg,雖然目前來看,這個問題目前離用在taskover-supervi sedlea rning或者paper-as-contributor還有很長的路要走。受到其他研究的啟發,作者在一些方面進行了擴展,比如對無監督的cnn和tfg進行了更多的擴展,也建立了長短期記憶(lstm)模型,從而可以用來進行實體識別,以及實體的詞向量。除此之外,作者在系列文章中還嘗試了許多其他的重要方法,主要包括cnn-lstm(lstm+cnn,也稱為dcnt,last voca bsizet rained)、language model、participating vocabulary以及quer ypre-trained vocabulary等等。
在這篇綜述中,我們會對以上幾個方法做一個概述。本文中還首先介紹了acl2019的文章,這篇綜述主要涉及corpustfg、cnn-lstm、tfg相關概念。接下來的幾篇文章都是針對cnn-lstm做一些重點介紹,其中最為重要的就是participatingvocabulary的文章,該篇綜述聚焦於cnn-lstm如何將語料中不同的feature添加到participatingvocabulary中,並且做出預測。