ACL2016最佳論文:通過交互學習語言遊戲

2020-11-30 雷鋒網

通過交互學習語言遊戲

聯合編譯：章敏，高斐，陳圳

摘要

我們介紹了一種與構建適應性的自然語言接口有關的新型語言學習設置。它受到維根斯坦語言遊戲（Wittgenstein’s language games）的啟發：一個人希望完成某種任務（例如：搭建某種積木結構），但是只能與計算機交互，讓計算機完成實際操作（例如：移動所有的紅色積木）。計算機最初對語言一無所知，因此必須通過交互從零開始學習，同時人類適當調整計算機的性能。我們創造了一種叫做 SHRDLURN 的積木遊戲，並收集了 100 位玩家與計算機的交互。首先，我們分析了人類的策略，發現使用組合型和避免同質化與任務表現呈正相關。其次，我們比較了計算機策略，發現在語義分析模型基礎上的構建語用學（pragmatics）模型能為更多策略玩家加速學習過程。

1.簡介

Wittgenstein說一段著名的話：語言源於它使用的意義，並且它還介紹了語言遊戲來說明語言流動性和目的性的概念。他描述了搭建者B和助手A如何使用原始的語言（由「塊」，「柱」，「板」，「梁」四大塊組成）成功的進行交流，將方塊從A移動到B。這僅僅是其中一個語言；還有很多語言同樣可以完成合作目標。

本文在學習設置中探討和實施了語言遊戲的想法，我們稱之為通過語言遊戲進行互動學習（interactive learning through language games/ILLG）,在ILLG設置中，兩個參與者最初說不同的語言，但仍然需要合作完成一個目標。具體來說，我們創造了一個叫作SHRDLURN的遊戲，致敬Winograd的開創性工作。如圖1所示，目標是將初始狀態轉變成目標狀態，但人唯一可以進行的操作是進入一種話語。計算機根據其目前的模型，分析話語並產生可能的理解排名列表。人類通過列表從上至下移動，並選擇預定的狀態，與此同時推進塊的狀態，並向計算機提供反饋。人類和電腦都希望用儘可能少的移動達到目標狀態（目標狀態只有人類知道）。電腦要成功的話，它就必須在遊戲的過程中迅速學習人類的語言，以便人類可以高效的完成目標。相反，人類也必須容納電腦，至少部分理解它可以做什麼，不能做什麼。

我們在ILLG中將電腦模擬成一個語義分析器（3節），它將自然語言的話語映射（例如，「刪除紅」）成邏輯形式（例如，刪除（紅色））。語義分析器沒有種子詞典和注釋邏輯形式，所以它只是產生許多候選的邏輯形式。基於人類的反饋，它在對應簡單的詞彙特徵參數上進行在線梯度更新。

在過程中，我們發現：雖然電腦最終可以學會語言，但它的學習速度和期望值差很多。例如在學習將刪除紅轉換成邏輯形式刪除（紅色）後，電腦會將刪除青色也轉換成邏輯形式刪除（紅色），而人類可能會使用互斥性排除該假設。因此，我們介紹一個語用學（pragmatics）模型，在模型中計算機非常了解人類的思維。受到前面語用學（pragmatics）工作的啟發。為了模型適合ILLG設置，我們介紹了一種新的在線學習算法。憑經驗，我們證明了相比於10個最成功的遊戲者時最好的非-語用學模型（第5.3節），我們的語用模型將在線的準確性提高了8%。

ILLG設置的特別之處是學習的實時性，其中人類也同樣學習並適應電腦。結構人類可以教計算機任何語言—英語，阿拉伯語，波蘭，一個自定義的編程，但優秀的玩家會選擇使用讓計算機可以更快學會的語言。在交際用語理論中，人類包容計算機。使用Amazon Mechanical Turk，我們從SHRDLURN的100款遊戲中收集並分析了大概10k的語句。結果顯示成功的玩家趨向於使用具有一致詞彙和語法的組合語句，這符合電腦的感性偏見（5.2節）。此外，通過這種互動，許多玩家通過變得更加一致，更精確，更簡潔以適應計算機。

在實用方面，自然語言系統經常被訓練和部署，用戶在生活中必須忍受他們的不完美。我們相信對於創建自適應和可定製的系統，學習ILLG設置是不可或缺的，特別是對與資源貧乏的語言和新的領域（從接近零開始是不可避免的）。

2.設置

我們現在正式的描述語言遊戲互動學習（ILLG）的設置。有兩個遊戲玩家——人類和電腦。遊戲通過固定數量的級別進行。在每一個級別中，兩個玩家都被提供了初始狀態s∈γ，但只有人類玩家知道最終狀態t∈γ（例如。在SHRDLURN中，γ是塊的所有配置集）。人類發送一個話語X（例如，刪除紅色）到電腦。隨後電腦建立可能候選動作的排名列表Z =[z₁, . . . , z_K] ⊆ Z （例如, remove(with(red))，add(with(orange))，等），其中Z是所有可能的行為。對於每一個z_i∈Z，都計算yi=[zi]s，狀態s上執行行動的繼承狀態。計算機返回給人類繼承狀態的有序列表Y = [ Y₁，。..Y_K]。然後人類從列表Y中選擇y_i（如果i=1則計算正確）。隨後狀態更新為s=y_i。當S = T是該級別結束，且玩家前進到下一個級別。

由於只有人類知道目標狀態t且只有電腦可以進行運動，因此要成功的進行遊戲，人類就必須在語句x中編程希望的行動。然而，我們假設兩個玩家沒有共享的語言，使用人類必須挑選語言並教會電腦這種語言。作為一個額外的曲折，人類不知道確切的行動Z（雖然他們對計算機的功能可能有一些概念）。最後，人類只看到計算機的行動的結果，而不是實際的邏輯行動本身。

我們期望遊戲按如下程序進行：在一開始，電腦不懂人類的意思並執行任意的行動。當電腦獲得反饋並且學習後，他們兩個應該變得更精通於溝通，從而玩遊戲。我們的關鍵設計原則是：要實現良好的遊戲性能，玩家需要語言學習。

SHRDLURN.我們現在講述一下遊戲SHRDLURN的具體細節。每一個狀態s∈γ由排列在一行的彩色塊的堆棧組成（圖1），其中每一個堆棧都是是塊的垂直列。行動Z通過表1中的語法成分進行定義。每一個行動既不會從堆棧集增加，也不會移除，並通過各種設置操作計算堆棧和選擇顏色。例如，行動刪除（最左邊（與（紅色）））即刪從最左邊的堆棧移除頂端是紅色的塊。動作的組合給予了計算機不同尋常的能力。當然，人類必須教一種語言來利用這些能力，儘管不完全知道能力的確切程度。實際遊戲按照課程進行，其中早期的級別只需要更簡單的行動（有著更少的謂語）。

我們用這種方法描述SHRDLURN有著幾個原因。第一，視覺塊操作直觀並且容易眾包，而且它可以作為一個真正人們會玩的有趣的遊戲。第二，行動空間被設計成組合，反映自然語言的結構。第三很多的行動z會導致相同的繼承狀態y=[|z|]_s,例如，在一些狀態s中，「左邊的堆棧」可能與「紅色塊的堆棧」一致，因此行動涉及其中任何一個都會導致同樣的結果。因此人類只要指出正確的Y，計算機就必須應對這種間接監管（反映了真實語言學習）。

3.語義分析模型

追隨Zettlemoyer和Collins以及最近語義分析的相關工作，我們使用了一個邏輯形式的對數線性模型（動作）z∈Z給定一個話語x：

外延y（繼承狀態）是由狀態s上擴展z獲得的；正式來說，y=[|z|]_s

特徵.我們的特徵是在邏輯形式側結合n-grams（包括skip-grams）和tree-gram。具體而言，在話語側（如在橙色疊紅色），我們使用一元（'stack '，∗，∗），二元（『紅'，'on'，∗），trigrams（『紅』，』on』，「橙色」），和skip-trigrams（'stack '，∗，'on'）。在邏輯形式上，特徵對應於邏輯中的謂詞形式和他們的論點。對於每個謂詞h，讓h.i是h的第i個論點。然後，我們為謂詞h定義了tree-gram的特點ψ（h，d）和深度d = 0,1,2,3遞歸如下：

所有功能集合都只是話語特徵與邏輯形式特徵的交叉產品。例如

請注意，相比於大多數傳統的語義分析工作，我們不模擬一個明確的對齊方式或導出連接話語成分和邏輯形式，而是遵循一個寬鬆的語義模型類似於（Pasupat和Liang）。因為派生的數量遠遠大於邏輯形式的數量，當我們從注釋的邏輯形式或有一個種子詞彙學習時，建模明確的路線或推導是唯一可行的計算。在ILLG設置中，沒有一個是可用的。

生成/解析.我們使用光束搜索由最小到最大生成邏輯形式。具體而言，對於每個大小n = 1，.....8，我們可以根據表1中的語法規則，結合較小規模的邏輯形式構建一組大小為n的邏輯形式（有著確定的n謂詞）。對於每一個n，我們都根據當前模型θ保持100邏輯形式z（有著最高的分數 θTφ（x, z））。讓Z成為最後光束的邏輯形式的集合，它包含所有n大小的邏輯形式。

表1：該形式語法為遊戲SHRDLURN定義了組成動作空間Z。用c表示顏色，用s表示集合。例如，SHRDLURN中涉及的一個動作：『add an orange block to all but the leftmsost brown block』add (not(leftmost(with brown))), orange)。除了最左邊棕色塊之外，將剩餘的其他塊設置為橙色。

在訓練過程中，由於刪減了中等尺寸的邏輯形式，並不能保證Z包含那些能夠獲得可觀察到的狀態y的邏輯形式。為了減少這種影響，我們列出一個圖表，以便於在初級水平僅需要使用一些簡單的動作，在轉向更大的組合型動作之前，為人們提供機會交給計算機一些基本的屬於，例如，顏色優先。

這一系統在最後的束搜索運算中運行所有的邏輯形式，並按照任一邏輯形式產生的最大概率將最終的指令結果y進行排序。

學習當人們以一種特定指令y的形式提供反饋信息，系統將生成一下損失函數：

系統將運用AdaGrad優化算法進行單一梯度更新，(Duchi et al., 2010)，這種優化算法保持perfeature 步長。

4. 建模語用學

憑藉在我們對第三部分描述的語義解析模型的經驗，我們發現機器具備很好的學習能力，然而，缺少人類學習者的推理能力。為了更好地闡釋這一觀點，我們不妨考慮一下本款遊戲的初級階段，在這一階段，在對數線性模型 p_θ（z|x）中，θ=0。假定，人類發出「刪除紅色」這一口令，並將 Z_rm-red=remove（with（red））視為正確的邏輯形式。計算機將運用損失函數進行梯度更新，特徵(「刪除」, 刪除)與(「刪除」，紅色)。

其次，假定人們發出「刪除青色」這一口令。注意，Zrm-red要比其他公式得分更高，由於（「刪除」，紅色）這一特徵將再次被用到。儘管這一行為得到統計學方面的佐證，其並不能滿足我們對一個聰明的語言學習者的本能期盼。此外，這一行為不能具體運用到我們的模型中，卻能夠運用到其他統計模型中，這些統計模型先前並未積累關於具體語言的額外知識，卻嘗試簡單地符合所得出的數據結果。儘管我們不能期盼計算機能夠神奇般地猜出「刪除青色」為remove (with (cyan))，但其至少能夠降低Z_rm-ed的概率，因為另外一項口令已經很好地且本能地解釋了remove red。

Markman與Wachtel(1998)已經對這一相互排斥的現象進行了研究。他們發現，在語言習得過程中，孩子對某一物體的第二個標籤持排斥態度，將其視為另一種全新的事物的標籤。

語用計算機 為了正式建立相互排斥的模型，我們轉向一些可能的語用模型(Golland et al., 2010; Frank & Goodman, 2012; Smith et al., 2013; Goodman & Lassiter, 2015)，這些語用模型將把這些思想應用到實際操作中。將語言視為發生在說話者（人）與聽話者（計算機）之間的一場合作型遊戲，在遊戲過程中，聽話者對說話者的話語策略建立一種清晰無誤的模型，這一模型反過來又影響聽話者的思路，這是這些模型的核心思想。在規範的計算機語言中，我們將定為說話S（z|x）者的話語策略，將定為L（z|x）聽話者的話語策略。在交流過程中，說話者將字面語義解析模型及先前Pθ（z|x）發出的話語 p（x）一起考慮在內，聽話者則考慮說話者S（z|x）及先前的話語p（z）：

在上述公式中，為一個β≧1超參數，使正態分布結果更為均勻(Smith et al., 2013)。計算機將運用集合而L（z|x）非集合P_θ為遊戲候選人排列等級。注意，我們運用的語用模型僅僅影響人類執行的動作等級排列結果，不會對模型的梯度更新產生影響。

表2 假定計算機看到一個實例「刪除紅色」→Z_rm-ed，認為發出「刪除青色」的指令。上方：字面聽話者P_θZ_rm-ed錯誤地選擇Zrm-ed而非Z_rm-cyan。中間：語用說話者S（x|z）基於Z_rm-cyan賦於「刪除青色」更高的概率；下方：語用聽話者L（z|x）正確賦於Z_rm-red以較低概率，其中p（z）是一致的。

我們僅用一個簡單的例子來分析語用建模的作用。表2顯示，當聽話者僅領會到說話者的字面意思Pθ（zIx）時，他將賦予Z_rm-red高概率，以對指令「刪除紅色」，「刪除青色」做出反應。假定具有統一的，語用p（x）與β=1，說話者S（x|z）將與的每P_θ一欄保持正常的一致性。注意，倘若語用說話者試圖傳達 Z_rm-cyan這一信息，他們極有可能會選擇「刪除青色」。其次，假定恆定不變，語用聽話者L（z|x）將與P_θ.1的每一行保持正常的一致性。基於以上假設，將產生以下結果：在「刪除青色」這一指令下，相比於，說Z_rm-red話者將更有可能選擇傳達Z_rm-cyan這一信息。而這一結果方是語用模型的理想效果。

語用聽話者將說話設定為一個合作型的交流者，在交流過程中，儘可能實現成功的交流溝通。有一些說話者的行為，比如，避免使用同義詞（例如，非「刪除項」），運用統一的語序（例如，非「紅色刪除」），違反了遊戲理論。對於那些不遵循話語策略的說話者，我們的語用模型是不適用的，然而，當我們在遊戲中獲得更多的數據，僅領會字面意思的說話者P_θ（z|x）的理解能力將不斷增強，由此，字面聽話者與語用聽話者兩者領會的話語含義將不謀而合。

算法1 能夠對語義解析參數θ 及總數C,Q 實施更新的在線學習算法要求計算機進行語用推理。

在算法1中，語用聽話者L（z|x）可以被理解為優化的字面聽話者PθB-的一種重要形式，其重要性受到函數Q（z）的削減，這一函數反映了字面聽話者更偏重於選擇領會哪一種話語含義。通過建立模型，算法1與(4)中提及的算法相同，除了這種算法在參照實例後，基於先前的參數θi使用正常化常數Q。根據(5)，我們也需要p（z），這一函數通過在總數C（z）添加-α，計算p（z）的估計值。注意，噹噹前例子所對應的模型參數得到更新後，Q（z）與C（z）才會得到更新。

最後，由於僅僅觀察指令結果y，而非邏輯形式z，計算結果將呈現稍許複雜性。基於模型C（z）←C（z）+p_θ（z|x，||z||s=y），我們簡單地為每一個恆定的邏輯形式{z|||z||s=y}指定一個偽代碼。

與先前要求具體設置語用參照的工作相比，語用學自然而然地在ILLG中興起。我們認為這種形式的語用學在是學習過程中是極為重要的，然而，當我們獲取更多的數據後，其重要性將降低。的確，當我們獲取大量的數據，zs的可能性減少時，將會產生以下函數L（z|x）≈p_θ（z|x）as∑_xp_θ（z|x）p（x）→p（z），此時β=1。然而，對於語義解析，倘若能夠得到大量的數據，我們將不會採用此種方法。尤其值得注意的是，在遊戲SHRDLURN中，我們遠遠無法運用這種計算方法，我們的大多數口頭指令或邏輯形式都僅僅能夠被看到一次，語用模型的重要性依然不會削減。

5 實驗

5.1設置

數據使用亞馬遜土耳其圍棋機器人，我們付給100名工人每人3美元，要求他們玩SHRDLURN。從初始狀態s開始，我們總計有10223條口頭指令。當然，由於玩家可以不用執行任何動作，便可以操作任一指令，其中有8874條指令被標記為指令y,剩餘為未被標記的。在相同的設置條件下，100名玩家完成了整個遊戲。我們特意使每一位工人從零開始，以便於在相同的控制條件下，研究策略的多樣性。

每一個遊戲均由50項任務組成，其中以每10項任務為一組，總計劃分為5個等級。基於開始狀態，每個等級都將設定一個結局。每完成一個遊戲，平均需要操作80個指令。運用亞馬遜土耳其圍棋機器人，完成這100個遊戲一共需要6個小時。根據亞馬遜土耳其圍棋機器人的時間追蹤器顯示，每一個遊戲將花費1個小時左右（這種計時方式並不適用於多任務玩家）。在遊戲控制操作中，提供給這些玩家最少量的指導。重要的是，為了避免給他們的語言運用帶來偏見，我們未提供實例指令。大約有20名玩家對遊戲操作感到迷惑，給我們提供大量無用的指令反饋信息。幸運的是，大部分玩家能夠理解如何進行設置，據其選擇性評論顯示，有些玩家甚至享受SHRDLURN帶來的樂趣。

那是我在亞馬遜土耳其圍棋機器人遊戲中玩的最有趣的經歷了。

哇，這真是最棒的遊戲啦！

指標我們用捲軸數量來衡量每一位玩家在遊戲中的表現。在每一個實例中，捲軸數量是每一位玩家所執行動在Y軸上顯示的位置。可以通過捲軸計數法來完成這一版本的SHRDLURN。100名玩家中有22名未能教會一種實際語言，而是通過獲得捲軸數量來完成遊戲。我們稱其為垃圾玩家，他們通常輸入單個字母，隨意字詞，數據或隨機性的短語（如，「你好嗎」）。總體而言，這些垃圾玩家得獲得大量的捲軸數量：平均每一項指令得到21.6個捲軸，而對於那些非垃圾玩家，他們僅需要得到7.4個捲軸。

5.2 人工策略

有些實例口頭指令可以在表3中找到。多數玩家使用英語，但是他們的語言習慣不同，例如使用定冠詞，複數形式，專有名詞順序。有5名玩家發明了自己的語言，這些新發明的語言比普通英語更為精確，更具連貫性。一名玩家使用波蘭語，另一名玩家使用波蘭語表示法（表3下方）。

表3：示例語句，括號內是每一個玩家所用的平均步驟。遊戲的成功是通過步驟數來決定的，一般成功玩家所用的步驟數會更少。（1）排名前20的玩家更傾向於使用連續，簡潔的語言，其語義與人類的邏輯語言十分的相似。（2）排名中等的玩家所使用的語言更加冗長或是不連續，這與人類的語言模式會稍有不同。（3）失敗的原因各不相同。左邊：；中間：使用坐標系統或是連詞；右邊：開始十分地不解，所使用的語言也與我們的邏輯語言相差甚遠。

總的來說，我們發現玩家在使用連續，簡潔且不重複的語言後會更加適應ILLG遊戲，儘管在一開始是使用標準英語。舉個例子，一些玩家會隨著時間的推移語言會變得更加連續（例如，從使用「remove」和「discard」到只使用「remove」）。就冗長方面而言，省略虛詞是遊戲中常見的一種適應過程。在以下從不同玩家中選取的例子中，我們會把早期出現的句子和後期出現相似的句子進行比較：『Remove the red ones』變成了『Remove red』；『add brown on top of red』變成了『add orange on red』;『add red blocks to all red blocks』變成了『add red to red』；『dark red』變成了『red』；玩家曾在開始的前20句話中會使用『the』，但是在後75句中從未出現過『the』。

玩家在精確度方面也相差較大，有的是過分精確（例如，『remove the orange cube at the left』，『remove red blocks from top row』），有的是不夠精確或是需要閱讀前後文（例如，『change colors』，『add one blue』，『Build more blocus』，『Move the blocks fool』，『Add two red cubes』）。我們發現隨著時間的推移，玩家能更好地理解ILLG也會變得更加的精確。

大多數的玩家所使用的語言實際上並未與表1中的邏輯語言完全匹配，計算是表現較好的玩家也是如此。特別的是，數字會經常使用。儘管一些概念在積木世界中也通用，但是大多數是不一樣的（例如，『first block』的意思是『leftmost』）。更加具體的說，在排名前10的玩家中，7名使用一些數字形式，僅有3名使用的語言與我們的邏輯語言完全匹配。有些玩家所使用的語言與人類的邏輯語言並不匹配，但是卻表現地更好。其中之一的可能性解釋就是所需的動作會受邏輯語言的制約或是所採取的行動會有意想不到的解釋。例如只要玩家僅僅只提到最左或是最右，計算機能準確地解讀數字位置的引用。所以如果玩家說『rem blk pos 4』和『rem blk pos 1』，計算機就能準確地解讀出二元語法（『pos』『1』）為最左。另一方面玩家不採取行動或是坐標系統（例如，『row two column two』），而僅僅是描述想要的狀態（例如，『red orange red』，『246』）會表現地很差。儘管玩家不必使用與人類邏輯語言完全匹配的語言，但是部分相似肯定會有不小幫助。

組合性。據我們所知，所有的玩家都使用了同一種組合語言；沒有人會使用與動作無關的語言。有趣的是，3個玩家並未在單詞之間空格。因為我們認為單語素的單詞都是通過空格分離的，所以必須進行多次滾動。（例如，14.15所說的『orangeonorangerightmost』）

5.3 計算機策略

我們現在對計算機的學習速度做出了質量評估，並且我們的學習目標是僅看數據一眼就能實現較高的精確度。用於評估玩家的步驟數對於異常數據十分的敏感，但卻並不是和對於準確度一樣的直觀。相反，我們會考慮在線準確性，如下所述。正式說來，如果玩家說出T話語x(j)，並且標記為y(j)，那麼

注意到在線準確性是與玩家所用的標記相關，如果玩家是所使用的語言是簡潔，正確的，其標記又是與實際的準確度一一對應的。但對於大多數表現較差的玩家卻又不適用。

圖2：語用學提高在線準確度。在上圖中，每一種標記代表一類玩家。紅色0：表示排名前20玩家在縮小滾動次數方面的表現；綠色x：排名20-50；藍色+：排名低於50（包括表現極差的玩家）。標記的大小取決於玩家的排名，表現較好的玩家其標記更大。2a：在完整模式下有和沒有語用學的情況下的在線精確度；2b：在半完整模式下的情況。

表4：各種設置情況下的平均在線精度。存儲：以完整表達和不具組合性的邏輯形式為特色；半完整模式：以一元，二元或是跳詞的話語表達，但這些話語表達是以邏輯聯繫在一起的。完整模式：這一模式會在第3部分進行描述+prag: 上述模式使用第4部分描述的在線語義算法。組合性和語用學都會提高準確度。

組合性。為研究組合的重要性，我們會考慮兩條基準線。首先會考慮非組合型模式（存儲），僅存儲幾對完整表達的語句和邏輯模式。我們在特徵（x，z）上使用特徵使用指標特徵，例如（『remove all the red blocks』，zrm-red），此外還會使用較大的學習率。其次，我們會考慮使用一元，二元或是跳詞等特徵來處理語句的半完整模式，但是其邏輯模式是不具組合性的，所以我們會有以下的特徵（『remove』，zrm-red），（『red』，zrm-red）等等。表4顯示出完整模式（第3部分）表現明顯優於存儲和半基線模式。

語用學。接下來我們會研究語用學對在線準確度的影響。圖2顯示建模語用學對於使用簡潔，連續語言的成功玩家（例如，在滾屏方面排前10的玩家）十分的有用。有趣的是，語用學建模對於使用不準確或是不連續語言的玩家沒有幫助甚至是用害。這是預期的行為：語用建模會假設人類表現是合作並且理性的。對於排名較低的玩家而言，這一假設又是不成立的，因為在此情況下語用建模是沒有幫助的。

6. 相關工作和討論

我們的研究工作會與大量的「落地」語言的相關工作聯繫起來，因為一些情況下語言是為實現一些目標的一種方法而已。例子包括玩遊戲，與機器人互動，和聽從指令；我們利用語義學對話語進行邏輯分析，在這些設置中十分關鍵。

在語言遊戲中（ILLG）使用新的交互式學習是我們研究的獨特之處，在這一設置中模式必須從抓捕式學習轉變為交互式學習。儘管會經常使用在線梯度下降，例如，在語義分析中，我們會在真實的在線設置中使用在線梯度下降，會在數據中進行略過並進行在線精度測量。

為提高學習速率，我們會利用語用學的計算模型。其主要區別在於，以前的研究都是基於訓練過的基礎模式使用語用學，但是我們會學習在線模式。Monore和Potts通過學習提高語用學模式。於此相反，我們通過捕捉像相互排斥的現象使用語用學來加速學習過程。我們與之前的研究在一些小細節方面也不相同。首先，我們在在線學習設置下進行語用學建模，此外還會對語用學模式進行在線更新。第二，參考遊戲不太可能通過設計起至關重要的作用，shrdlurn並不是特地按照所需的語用學模式進行設計的。我們所實現的改進都是由於玩家試圖使用一致的語言。最後，我們會把話語和邏輯模式都當做是組合性目標的特徵。Smith等人會對話語（例如，單詞）和邏輯形式（例如，目標）進行分類；Monroe和Potts會使用特徵但同時也會覆蓋平均種類。

在未來，我們相信ILLG設置會值得研究並且對於自然語言接口有重要的意義。今天，這些系統進行了一次培訓和部署。如果在這項研究中，這些系統能迅速適應使用者的實時反饋，我們就有可能為資源貧乏的語言和新的領域創建更加穩定的系統，但這一系統是定製的且能通過使用提高性能。

哈爾濱工業大學李衍傑副教授的點評：這篇文章使用新的交互式學習方法來研究語言遊戲問題，論文分析了人類的策略，發現使用語義合成性和避免同義詞與任務性能呈正相關；比較了計算機策略，發現在語義分析模型基礎上的建模語用學（pragmatics）能為更多策略玩家加速學習過程。與以往方法相比，本文主要不同點在於本文採用了新的交互式學習方法，通過交互模型能夠從雜亂中學出語言。為提高學習速率，論文利用了語用學計算模型並能在線學習模型，通過捕捉相互排斥的現象使用語用學來加速學習過程。

PS : 本文由雷鋒網(公眾號：雷鋒網)獨家編譯，未經許可拒絕轉載！更多ACL相關資訊掃碼關注微信群

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

ACL2016最佳論文:通過交互學習語言遊戲

通過交互學習語言遊戲

摘要

1.簡介

2.設置

3.語義分析模型

4. 建模語用學

5 實驗

5.1設置

5.2 人工策略

5.3 計算機策略

6. 相關工作和討論

相關焦點

一窺ACL 2018 最佳論文

7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述

ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了

ICLR 2018最佳論文:基於梯度的元學習算法

7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief

論文| 自然語言處理頂會ACL 2018該關注什麼?螞蟻金服專家告訴你!

ACL論文 | 深度學習大神新作,神經網絡的自然語言翻譯應用

CoRL 2020獎項公布,斯坦福最佳論文,華為等獲得最佳系統論文獎

UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席

網絡表示學習領域(NRL/NE)必讀論文匯總

CoRL2020獎項公布,斯坦福獲最佳論文獎,華為等摘得最佳系統論文獎

ACL2016最佳論文:CNN/日常郵件閱讀理解任務的徹底檢查

ACL2016最佳論文:智能翻譯要搶字幕翻譯員的飯碗?

KDD2016論文精品解讀(一)

深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統

被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了

專訪ACL2020最佳論文二作:全新NLP模型評測方法論,思路也適用於CV

ACL2019|圖表示解決長文本關係匹配問題:騰訊提出概念交互圖算法

如何用深度學習做自然語言處理?這裡有份最佳實踐清單

ACL 2019 27 篇論文實現代碼(持續更新中)