ACL2016最佳論文:通過整合基於路徑的方法和分布式的方法,改善詞對...

2020-12-17 雷鋒網

通過整合基於路徑的方法和分布式的方法改善詞對檢測

聯合編譯：章敏，高斐，陳圳

摘要

在自然語言處理（NLP）中，理清詞對關係是一項的關鍵任務，在一份使用兩種互補方法的文獻中也強調這一點。分布式方法：其監督式的變體是目前最好的任務執行器；基於路徑的方法：它只受到少許的研究關注。我們發現，改善後的基於路徑的算法——其依賴的路徑（dependency path）通過遞歸神經網絡進行編碼——與分布式方法相比應該能達到理想結果。然後，我們將所用方法延伸為整合基於路徑的和分布式的信號，這顯著地將此任務上的性能提高到了當前最佳的水平。

1.簡介

在自然語言處理任務中，詞對關係是非常重要的詞彙語義關係。例如，知道Tom Cruise是一個演員，有助於問題回答系統回答問題如：「哪個演員參演了Scientology」。而語義分類，如詞彙網絡（WordNet），在詞彙類型之間定義了詞對關係，但他們在範圍和領域中是有限的。因此，已經開發了自動化的方法來確定，對於一個給定的詞對（x，y），y是否是x的詞對，取決於它們在大型語料庫的產生過程。

幾十年來，這個任務已經有兩種類型的解法：分布式和基於路徑。在分布式方法中，y是否是x的詞對取決於這些術語的分布表示。之後，隨著流行詞彙的嵌入，大部分注意力被轉移到了監督分配方法，其中每一個詞對（x，y），都用了一些詞的嵌入向量組合進行表示。

相比於分布式方法（決定基於x和y單獨的上下文），基於路徑的方法，是基於語法詞彙路徑聯合語料庫中x和y的共同發生進行抉擇的。Hearst定義了一個很小的頻繁路徑集來表示詞對關係，例如，Y如X，Snow等人，將每一個詞對（x，y）表示成依賴路徑的多重集合，連接他們在語料庫中的共同出現，並基於這些特徵，訓練了一個分類器來預測詞對關係。

使用單獨的路徑作為特徵會導致一個巨大的，稀疏的特徵空間。儘管一些路徑是稀有的，它們也是由某些不重要的組件組成。例如，「「Spelt is a species of wheat」和「Fantasy is a genre of fiction」產生兩個不同的路徑：X be species of Y 和X be genre of Y,但兩個都暗示了X is-a Y。唯一的解決方法是和PATTY系統所做的一樣，通過使用他們講話的一部分標籤或百搭牌代替路徑上面的詞彙來歸納路徑。

總體而言，最好的路徑為基礎的方法的性能比分配方法更糟糕。基於路徑的方法的一個主要限制是：他們要求，詞對一起在語料庫中發生，限制了召回這些方法。然而分布式的方法沒有這樣的要求，他們通常不會精確檢測一個特定的語義關係如詞對關係，並且在檢測詞之間的廣義語義相似性方面性能非常高。雖然這些方法似乎是互補的，但整合他們的工作卻不少。

在本文中，我們提出了HypeNET，一種結合基於路徑和分布式的方法，用於上下文語境檢測。受到最近關係分層方面研究的啟發，我們使用了一個長短期的記憶（LSTM）網絡，進行依賴路徑的編碼。為了給我們的網絡創造足夠的訓練數據，，我們遵循了以前的方法，即構建一個基於知識資源的數據集。

首先，我們展示了基於路徑的方法，在它自己本身方面，相比於以前基於路徑的方法性能得到了很大的提高，並達到了分布式方法一樣的性能。我們的分析表明，神經路徑表示，可以確保更好的概括。雖然粗劣的概括，如通過它的POS標籤取代一個詞，是捕獲路徑之間主要的句法的相似性，HypeNET也是同樣捕獲語義的相似性。

然後，我們表明，我們可以很容易地在網絡中集成分布式信號。整合結果表明，分布式和基於路徑的信號實際上提供了補充信息，相比於每一個單獨的模型，結合模型的性能提高到了14F1點。

2.背景

我們介紹了兩個用於詞對關係檢測的主要方法：分布式方法，和基於路徑的方法。隨後我們討論了遞歸神經網絡在關係分級相關的任務方面的應用。

2.1分布式方法

詞對關係檢測是常用的分布式方法。在該方法中，基於兩個術語的分布表示檢測y是否是x的詞對，例如，在語料庫中每一個術語單獨出現的語境。

以前的方法開發出了詞對的無監督方法，從對稱相似測量開始，並遵循基於分布包含假設的定向方法。這一假說認為，一個下位詞的語境預計將在很大程度上包含那些上位詞。最近的工作介紹了新的措施，它是基於這樣的一個的假設：上位詞最典型的語言語境比下位詞的信息量更少。

最近，分布式方法的焦點轉變成了監督方法。在這些方法中，（X，Y）術語由一個特徵向量表示，並且在分類器上訓練了這些向量以預測詞對關係。有幾種方法將術語對表示為每個術語嵌入載體的組合：級聯x向量⊕y向量，差異y向量-x向量，點積x向量·y向量。使用神經詞彙嵌入，這些方法很容易容易投入應用，並產生好的結果。

2.2基於路徑的方法

有一個檢測術語對（x，y）之間詞對關係的方法，考慮到了詞彙-語法路徑（連接大的語料庫中x和y共同發生的接口）。從自由文本中自動探測和跟蹤上位詞，就是基於這樣的一個路徑，它是由Hearst首先提出的（確定一小套詞彙句法路徑表明上下文關係，例如Y such as X, X and other Y）。

在後期工作中，Snow等人學習檢測上下文關係。並非搜索尋找具體路徑表明上下文詞對關係，他們將每一個（x，y）語術對表示成所有依賴路徑的多重集合——連接語料庫中x和y，並基於其他路徑訓練一個邏輯回歸分類器，預測y是否是x上位詞。

路徑表明上位關係是那些被分類器分配高權重的東西。通過這種方法確定的路徑將被Hearst證明包括這些發現，溫和的提升性能。Snow等人方法的變化後期會被用於很多任務如：分類建設，類比識別，和定義提取。

依靠詞彙句法路徑的一個主要的限制是特徵空間的稀疏性。由於類似的路徑可能會有所不同，在詞彙層面，概括這種變化到更多抽象路徑可以增加召回。PATTY算法用於概括從自由文本中獲取長期關係的分類。對於每個路徑，他們添加了廣義版本，其中的一個沿路徑的單詞的子集將被替換，可以是是他們的POS標籤，或其本體論的類型或百搭牌。這種泛化會增加召回，同時保持相同水平的精度。

2.3用於關係分類的RNNs

關係分類是相關的任務，它的目標是：將一個給定的語句中兩個相近的目標項，表示到一個預定義的關係類中。為了說明，考慮下面的句子，來自SemEval-2010關係分類數據集：「[蘋果]_e1在[籃] _e2中」。其中，目標實體之間的關係表達：內容−容器（e₁，e₂）。

目標實體之間的最短的依賴關係的路徑，被證明是用於這個任務的信息。最近，深度學習技術在捕獲這樣路徑中的指示信息方面，表現出了良好的性能。

特別是，有幾篇論文表明使用遞歸網神經網絡（沿邊緣到邊緣處理依賴路徑）提高了性能。Xu等人對於每個序列詞，POS標籤，依賴標籤和沿著路徑的詞彙網絡，應用了分離長短期記憶（LSTM）網絡。LSTM中max-pooling層的輸出被用作網絡的輸入，預測分類。其他論文建議混合額外的網絡架構，以進一步提高性能。

儘管關係分類和詞對關係檢測都涉及識別語義關係（持有條款對），但他們在主要方面有所不同。在關係分類中關係應在給定的文本中表達，而在上位關係檢測，目標是在術語（在許多語境中持有的術語）之間識別一個通用的詞彙語義關係。因此，關係分類術語對由單獨依賴路徑表示，而在上下文關係檢測中，它是由所有依賴路徑的多集合（在語料庫中共同出現）表示。

3.基於LSTM的上下文關係檢測

我們提出了HypeNET，用於上下文關係檢測的基於LSTM的方法。我們首先專注於改善路徑表示（第3.1節），然後將分布式信號集成到我們的網絡中，最後產生組合方法（第3.2節）。

3.1基於路徑的網絡

和前期的工作類似，我們將每一個依賴路徑表示成邊緣的序列（在依賴數中引導x至y）。每一個邊緣包括論點和源點的部分演講標籤，依賴標籤，和兩個後面點之間的邊緣方向。我們定義每一個邊緣為lemma/POS/dep/dir。說明見圖1。

圖1：句子「parrto is a bird」的依賴樹實例，其中 x=parrot，y=bird，符號可表示為 X/NOUN/nsubj/< be/VERB/ROOT/-Y/NOUN/attr/>。

並非將整個依賴路徑看成單獨的特徵，我們還使用了長短期記憶（LSTM）網絡編碼邊緣序列。從不同的給定（x，y）對路徑獲得的向量是共用的，並且結果向量用於分類。圖2描述了整體網絡結構（下文中將進行描述）。

邊緣表示.我們通過串聯組成的向量表示每一個邊緣：

其中向量vl代表論點的嵌入向量，向量vpos代表詞性，向量vdep代表依賴標籤，vdir代表依賴方向（沿著x到y的路徑）。

路徑表示.對於由邊緣e₁.........e_k，組成的路徑p，邊緣向量v_e1........v_ek被依次放入LSTM編碼器，產生向量Op表示整個路徑p。LSTM結構在序列中捕獲時間模式非常有效。我們希望訓練程序可以促使LSTM編碼器集中於路徑部分——更多的信息用於分類任務，而忽略其他的信息。

圖2：詞對分類法的插圖。每一個詞對由幾個路徑表示。每個路徑由一系列邊組成，每條邊又由四部分組成：詞條，POS，依賴標籤與依賴方向。每一個邊向量依照序列被存儲到LSTM中，最終生成一個路徑嵌入式矢量O_p。平均路徑矢量成為屬於對的特徵矢量，用於對術語對進行分類。虛線矢量vw_x，vw_y用於指代3.2部分描述的整合網絡。

詞對分類.每一個(x,y)詞對被用於表示詞彙句法路徑的多重集合，這些路徑將語料庫中的x，y聯繫在一起，同是對所有的詞對實施監管。我們用每一個詞對的路徑矢量的平均權值表示該詞對(x,y)。在計算過程中，我們對該詞對的路徑矢量進行平均分攤：

其中，f_p（x，y）表示paths（x，y）中o的頻率。然後，我們將該路徑矢量存儲入一個單層網絡中，該網絡運用二分分類法確定y為x的上義詞。

為一個2維度的矢量，其組成成分的總和為1，倘若c[1]>0.5，我們將該詞對劃分為肯定詞對。

實施細節 .我們運用PyCNN來練習該網絡。我們運用迷你批量10與亞當更新規則，結合基於梯度的優化方法，最大限度地降低交叉熵（Kingma & Ba, 2014）。通過減少成分嵌入，以實現應用正規化。我們使用驗證集合（參照超參數值的附錄）調整超參數（學習速率與輟學率）。

採用在維基百科上訓練使用過的預先訓練GloVe單詞嵌入方式，實現詞條嵌入的初始化進程(Pennington et al., 2014)。我們嘗試使用50維度與100維度的嵌入矢量，選擇出那些在驗證集合中得出較好結果的矢量。其他的嵌入矢量及詞彙量之外的詞條都被隨機初始化。在訓練過程中，對所有的嵌入矢量實施更新。

3.2經整合的網絡

3.1呈現的網絡依據語料庫中,連接x,y的路徑對每一個術語對（x，y）進行分類。我們的目標是改善先前基於路徑的上下義關係檢測方法，第6部分顯示我們的網絡確實超過了先前使用的檢測方法。然而，由於基於路徑式的與分布式的方法被認為具有互補性，我們提出一種更為簡單的方法，即將分布式特徵整合入網絡中。

我們對該網絡進行拓展，旨在將每一個屬於的分部信息考慮在內。受到監督分布式級聯方法(Baroni et al., 2012)的啟發，我們簡單地將x，y，詞彙嵌入與（x，y）特徵矢量聯繫在一起，重新定義為vxy：

其中，vw_x，vw_y分別為x，y的詞彙嵌入矢量，v_{paths（x，y）}為方程中的平均路徑矢量。運用這種方法，每一個詞對（x，y）可以用其分布特徵，x，y，及其基於路徑的特徵表示。

表1：每一種詞彙來源中的上下義關係

4 數據集

4.1創建實例

神經網絡多需要大量的訓練數據，然而，現有的上義詞數據集，如BLESS (Baroni & Lenci, 2011)，相對來講都比較小。因而，我們通過知識資源遠程監控這一常見的方法，創建一個數據集(Snow et al., 2004; Riedel et al., 2013 )。Snow 等人(2004)基於詞網上義詞關係創建了自己的資料庫，仿照其創建方法，我們從以下幾種數據資源中選取上下義關係：Wordnet (Fellbaum, 1998), DBPedia (Auer et al., 2007)，Wikidata (Vrandecic, 2012)，及Yago (Suchanek et al., 2007).

我們數據集中的所有實例，肯定的與否定的，都是至少與其中一種數據資源存在直接聯繫的詞對。這些語言資源包含成百上千種語義關係，其中有一些具有不同程度的上下義關係。為了避免出現有問題的關係類型，我們僅考慮那些無爭議的上下義關係，將其視為肯定的實例（見表格1），這些無爭議的上下義關係是我們從Shwartz 等(2015)的論文中人工甄選獲得的。

與其他語義關係（包括同義詞關係）相關聯的詞對均被當作否定的實例。將相互關聯而非隨機性的詞對當作否定實例，可以測驗我們所選用方法的區分上下義關係與其他類型語義關係的效果。在我們的數據集中，肯定與否定詞對的比例保持在1:4。

與Snow等人對詞對的選取方法相似，我們的數據集中只包括在語料庫中聯合出現的詞對，這將要求每一個詞對至少擁有兩個不同的依賴路徑。

4.2隨機型分割與詞彙數據集分割

作為我們主要的數據集，我們使用標準化隨機分割法，其中訓練佔70%，測試佔25%，驗證集合佔5%。

Levy等人(2015)指出，監督分布式詞彙推理方法有運用「詞彙記憶」的趨勢，即在很大程度上，他們學習詞對中單一詞彙的性質：該詞彙是否是一個典型的上義詞，而非學習兩個詞彙之間的關係。例如，如果訓練集合中包含如下詞對，如(dog, animal)， (cat, animal)， (cow, animal)，且所有這些詞對都被注釋為肯定詞對，該算法便可能將animal當作上義詞，將任何新的(x, animal)詞對視為肯定詞對，不論x與animal之間存在何種關係。Levy等（2015）建議拆分列與測試集，旨在使每一列與每個測試集都包含一個具有特徵的詞彙（「詞彙分割」），防止出現過度擬合詞彙記憶的模型。

為了調查上述出現的行為，我們也將呈現我們的數據集的詞彙分割結果。如此一來，我們將訓練，測試及驗證集合分割開來，使每一部分都包含一個特徵明顯的詞彙。值得注意的是，我們採用不同於Levy等人的方法，Levy等人僅對列與測試集合進行分割，主要使用驗證集合。之所以採用不同於前人的方法，是由於我們注意到，當驗證集合中包含列中的詞彙時，當調整超參數時，詞彙記憶會對該模型產生積極影響，最終在詞彙特徵測驗集合中計算產生不理想的性能結果。當每一個集合中都包含一個特徵詞彙時，需要調整參數以避免詞彙記憶現象，在測驗集合中進行計算時將得出更為理想的結果。進行詞彙分割時，我們試圖將比例大致保持在70/25/5。以上所創建的數據集規模將呈現在表格2中。

表格2：每一個數據集中實例的數量

的確，訓練一個詞彙分割數據集模型可能會產生一個更具普適性的模型，這種模型在推理過程中將會更有效地處理包含兩個不可見詞彙的詞彙對。然而，我們認為，在普通的應用過程中，該推理過程應當設計一個不可見的詞對（x，y）,在這樣的詞對中，x和/或y已經在單獨的語料中出現過。訓練使用隨機分割法的模型可能會採用顯示上下義關係或同義關係的優先概率的模型，這一優先概率信息將在推理過程發揮有益的作用。

圖表3：將x歸納為y的實例

5 .基線

我們通過對比Hype NET與幾種最好的方法來檢測上下義關係，如第二部分所描述：基於路徑的方法與分布式方法。由於不同的工作使用不同的數據集和語料庫，我們選擇複製基線，而非與報導結果進行對比。

自2015年5月起，我們採用維基百科轉儲作為所有方法的語料庫，並運用spaCy對其進行分析。我們使用驗證集合進行模型選擇，旨在對每一種方法的超參數進行調整。最優超參數將在附錄中呈現。

5.1 基於路徑的方法

Snow .我們參照原始文章，並提取四條邊之間最短的路徑，或依賴樹中詞彙之間較短的路徑。與Snow等人(2004)採用的方法相似，我們為每一條路徑添加「衛星邊」，即那些早已脫離依賴路徑的單一詞彙，這些詞彙或與x相連，或與y相連，形成「將Y歸納為X」的路徑。這些特徵路徑的數量為324,578。我們運用x²特徵選擇法保存100,000條信息量最大的路徑，並訓練使用一種邏輯回歸分類器。

歸納. 我們也將採用的方法與使用普通依賴路徑的基線進行對比。在此過程中生成所有可能歸納方法的冪集，其中包括原始路徑。例如，經歸納後的特徵數量總計為2,039，220。與第一種基線相似，我們選用特徵選擇法，此次保留1,000,000條蘊含最大信息量的路徑，在普通路徑的基礎上練習使用一種邏輯回歸分類器。

5.2 分布式方法

無監管式方法 .SLQS (Santus 等，2014)是一種基於熵的上下義關係檢測方法，據報導，這種檢測方法由於先前使用的state-of-the-art無監管式方法。原始文章在BLESS數據集中得到評估，該數據集由大量常用詞組成。將同時包含罕見詞彙的SLQS設置方法用於檢測我們的數據集，最終產生較低性能的結果。因而，我們獲得了Enrico Santus的幫助，經過調整系統後，他為我們提供了我們的數據集在SLQS中的檢測結果。

該驗證集合被用於調整將一個詞對劃分為肯定次對的閾值，及每一個詞彙最相關的語境數量N的閾值。在原始文章中，每一個詞彙相關聯的語境數量被設定為N，經過調整後，該數量被設定為LMI零分以上的語境數量和N之間的最小值。此外，SLQS分數並不會詞彙之間相似分數的餘弦值的變化而增長。

監管式方法 .為了表示帶有分布式特徵的詞對，我們嘗試過幾種state-of-the-art方法。我們下載了幾種不同型號的前訓練嵌入方法，並訓練使用了一定數量的分類器：邏輯回歸，SVM，帶有RBF樞紐的SVM。據Levy等人(2005)最後一種分類器這組分類器中性能最優的。我們運用驗證集合選擇模型，旨在甄選出最優矢量，最優方法與正則因子（見附錄）。

表4：基於數據集的兩個變體上，將我們所使用的方法與以線路為基礎的基準線和先進的分布方法比較在上下位檢測方面的性能——詞彙分割和隨機分割都會用於訓練，測試和證實。

6.結果

表4展示了HyperNet的性能評分及其基準線。HyperNet Path-based是基於路徑的遞歸神經網絡系統，HyperNet Integrated是一個複合方法。比較基於路徑的得出推廣路徑能提高重複率但是也能保持相同水平的準確率，Nakashole等人發現了這一現象並進行重新評估。HyperNet Path-based 表現優於其餘兩個Path-based基準線，因為它在重複方面有重大提高，儘管在準確度方面有所下降。重複的提高是由於路徑的推廣，就如在7.1部分所示。

考慮到分配的方法，為受監督的SLQS基準線在我們的數據集上表現要稍遜一些。精準度不夠的原因在於區分上義詞和部分名詞的不足，這一現象在我們數據集中也十分常見，進而造成了許多錯誤的陽性詞配對，例如（zabrze,poland）和（kibbutz,israel）。在每一個數據分集中我們分別採樣50個誤報對，發現38%的誤報對出現在隨機分裂中而48%的誤報對出現在詞彙分割中，且都是整體部分詞對。

根據之前所報導的結果，監督下的嵌入式方法在我們的數據集上表現最好。HyperNET Path-based表現次之，實現了最優的結果。在我們的方法中添加分布式特徵顯示出這兩個方法確實是互補的。在數據分割方面，HypeNET Integrated和HypeNET Path-based表現有差別，此外分布式方法也是一樣，有實質性區別，並且p值相差較大在1%左右（配對tc測試）。

我們對在詞彙分割部分表現較差的受監督分布式方法進行再評估。進一步觀察到在使用HypeNET時會有類似的減少，但這不是哪一個詞彙記憶的結果，而是由於過度概括導致的。

7．分析

7.1 對所學路徑進行質量分析

通過比較被以路徑為基礎的方法所學的指示性路徑的顯著差別，我們對HypeNET在路徑結構方面的概括能力進行分析。我們這樣做的原因在於尋找能促進在數據集中進行實報對分類的高得分的路徑。基於以路線為基礎的基準線，數據回歸分類器能學習加權最高的特徵。在以LSTM為基礎的方法中，不易直接鑑別出最有指示性的路徑。我們對特定路徑p在分類方面的貢獻進行評估，通過將它視作是出現在術語對中的唯一路徑，並從分類方面計算它的真實標記分數。

Snow的方法是學習特定的路徑，這是一個有名的模式，例如X來自於Y。儘管Snow的方法是依靠逐字路徑，會限制重複，但是Snow的廣義版本能做出簡略的概括，例如，X是Y的動詞形式。顯然，這一路徑太過於廣泛，並且幾乎所有的動詞都會被分配到裡面，最後導致路徑沒有指示作用（例如，X來自於Y）。通過努力學習這一方法能避免這種泛化和減低重複。HypeNET提供了一個更好的中點，通過學習額外的相似語義路徑能更好地規劃路徑，例如，X成為Y的一種形式或X是Y的一種形式。在表5中將會對這些額外的例子路徑進行行為解釋。

我們還注意到儘管是在隨機分割上，我們的模式還是能學習到比較寬廣的路徑，例如X在Y發表（是從以下實例得出的：Y=雜誌）或是X是由Y產生的（Y=電影），在詞彙分割中僅僅能知道X和廣泛的路徑關係。我們注意到X是Y是一個比較「吵鬧」的路徑，可能會出現在特定的場景下，但並未指明廣泛的上下義關係（例如，巧克力就兒童的健康而言是一個大問題。）而這樣的模式可以基於一般路徑，識別看不見的上下義關係，這也證明過度泛化會影響表現，如表4所示。正如在4.2部分所討論的一樣，我們會懷疑在這一中環境下，兩者的關係是不可見的，並且用於訓練設置也是不常見的。

7.2 錯誤分析

誤報我們對誤報進行分類，其主要依據是在資源中用於建立數據集每一對術語之間的關係。我們從不同的方面到廣義的分類對語義關係進行分類，例如，同義詞也包括別名和維基百科重定向等方面。表6向我們展示了在誤報對之間的語義關係分布。

超過20%的錯誤源於上下位關係詞或同義詞之間的混淆，著一關係的辨別也是十分的困難的。

額外30%的術語詞對會將上下位詞對弄顛倒（y是x的下位詞。）檢查這一些詞對實例就能發現這些詞對是近似同義詞，但是卻不是兩者之間的關係並沒有如此明確。例如，在WordNet中小說（fiction）是故事（story）的上位詞，但是我們卻經常認為兩者是同義詞。

表5：通過研究每一種方法得出的實例具有指示性的路徑，同時也從隨機分割測試集中選取相應的實報術語對。上位詞用紅色標記，下位詞用藍色標記。

表6：在誤報詞對之間每一對術語之間的關係分布。

表7：（重合）的漏報的種類：（1）x和y同時出現少於25次（每一對實報詞對平均共同出現的次數是99.7）。（2）x或是y都不常見。（3）x的上位關係十分罕見。（4）（x,y）錯誤注釋為陽性。

未來的一個可能研究方向就是擴展我們的網絡在進行詞對分類的同時也進行多語義關係分類。這種分類模式能更好地劃分具有相似語義的詞對。

另一個值得注意的種類就是類似上下位的關係：在資源中，有其他一些關係能看做是上位詞，但是卻由於對於來自資源中不具爭議上位詞的嚴格選擇往往會被注釋為陰性。這包括的實例有（歌德（Goethe）職業(occupation)，小說家(novelist)和Homo，subdivisionRanks以及物種(species)）。

最後，其他的錯誤往往對應詞會在語料庫中共現幾次，例如，xebec，動畫製作的工作室，會錯誤地歸類為動畫的下位詞。

漏報我們取樣50個被錯誤注釋為陰性的術語詞對，並分析主要的錯誤類型（見表7）。

大多數的這類詞對在語料庫中僅僅會共現幾次。導致這一現象的原因是因為不常見的術語（例如，cbc.ca）或是xde 上位詞關係不常見（例如night，paly）其主要意思是「Night」，是Harold Pinter所寫的一部戲劇。而這一術語詞對有太多的上位詞暗示路徑，導致分類成陰性。

8.總結

我們在上位詞檢測時使用HypeNET，一個以神經網絡為基礎的方法。首先我們專注於使用LSTM提高路徑表現，最後導致以路徑為基礎的模式比之前的路徑模式表現要更好，並把之前的表現出色的分布方法進行匹配。此外特別值得注意的是，重複的提高是由相似語義路徑的過度泛化導致的，這一之前的方法剛好相反，之前的方法既不會路徑過度泛化也不會泛化不足。

接下來通過整合分布式信號拓展我們的網絡，產生額外14個F1點的提升，進而也證明了以路徑和分布為基礎的方法確實是互補的。

最後我們的框架是直接適用於多種類分類，在今後的工作中可以用來分類詞對的多種語義關係。

哈爾濱工業大學李衍傑副教授的點評：理清詞對關係是自然語言處理（NLP）領域中一項關鍵的任務，該論文提出了一種結合基於路徑方法和分布式方法兩種方法的HypeNET方法，用於上下文語境檢測。論文受最近關係分層方面研究的啟發，使用了一個長短期記憶（LSTM）網絡進行依賴路徑的編碼，從而改善了基於路徑的方法，導致以路徑為基礎的模式比之前的路徑模式表現要更好，然後將分布式信號結合到這個網絡中，這種結合證實了分布式信號和基於路徑的信號確實提供了互補的信息，極大地提升了性能。作者還指出該框架似乎可以直接適用於多類分類。

PS : 本文由雷鋒網(公眾號：雷鋒網)獨家編譯，未經許可拒絕轉載！更多ACL相關資訊掃碼關注微信群

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

ACL2016最佳論文:通過整合基於路徑的方法和分布式的方法,改善詞對...

通過整合基於路徑的方法和分布式的方法改善詞對檢測

摘要

1.簡介

2.背景

2.1分布式方法

2.2基於路徑的方法

2.3用於關係分類的RNNs

3.基於LSTM的上下文關係檢測

3.1基於路徑的網絡

3.2經整合的網絡

4 數據集

4.1創建實例

4.2隨機型分割與詞彙數據集分割

5 .基線

5.1 基於路徑的方法

5.2 分布式方法

6.結果

7．分析

7.1 對所學路徑進行質量分析

7.2 錯誤分析

8.總結

相關焦點

ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二

ACL2019最佳論文獎出爐,華人包攬眾多獎項

ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作

剛剛,ACL2019最佳論文獎出爐,劉群團隊獲最佳長論文獎

ACL 2018 公布四篇最佳 demo 候選論文,三篇論文第一作者來自中國

中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉

ACL 2018 | 利用Lattice LSTM的最優中文命名實體識別方法

ACL 2019 知識圖譜的全方位總結

【in·喜訊】信息科學與技術學院博士生獲IEEE GLOBECOM 2016最佳論文獎

ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了

業界|計算語言學思想碰撞的浪潮:ACL2016

從詞嵌入到含義嵌入:概覽含義向量表示方法

技術動態 | ACL 2019 知識圖譜的全方位總結

漫談詞向量之基於Softmax與Sampling的方法

在剛剛結束的ACL 2019上,知識圖譜領域都發生了哪些大事?

ACL2016最佳論文:智能翻譯要搶字幕翻譯員的飯碗?

計算語言頂會ACL 2018最佳論文公布!這些大學與研究員榜上有名

博士論文摘要| 仇阿根:基於分布式內存計算的空間數據近似查詢處理方法

跟著大神回顧 ACL 2018:大會亮點一覽

ACL2016最佳論文:CNN/日常郵件閱讀理解任務的徹底檢查