近日,百度研究院發表論文提出冷聚變(Cold Fusion)方法,即在 Seq2Seq 模型訓練過程中加入語言模型,實現更快地收斂、更好的泛化,以及僅需少量標註數據即可實現向新域的完全遷移。機器之心對這篇論文進行了介紹。
論文地址:https://arxiv.org/abs/1708.06426
摘要:帶有注意力機制的序列到序列(Seq2Seq)模型在多項生成自然語言句子的任務中表現優秀,如機器翻譯、圖像字幕生成和語音識別。在以語言模型的形式利用非標註數據後,其性能進一步提高。在本研究中,我們提供了一種冷聚變(Cold Fusion)方法,並展示該方法在語音識別中的有效性。我們展示了使用冷聚變方法的 Seq2Seq 模型能夠更好地利用語言信息,並且能夠實現(1)更快收斂、更好的泛化;(2)使用少於 10% 的標註數據進行訓練時能幾乎完成向新的域的完全遷移。
表 1. 深度聚變(Deep Fusion)和冷聚變的預測示例。
圖 1. 基線模型(橙色)和我們提出的模型(紫色)在開發集上的交叉熵損失和迭代數之間的函數關係。使用語言模型的訓練可以一定程度上加速收斂。
表 3. 論文中討論的不同模型的語音識別結果。
表 4. 解碼器維度對該模型的性能影響。冷聚變模型的性能隨著解碼器變小而緩慢下降,這證明冷聚變模型的有效任務能力比無聚變的模型大得多。
表 5. 微調後的聲學模型在目標訓練數據的子集上的結果。最後一行代表在所有目標域數據上進行訓練的注意力模型。
結論
在該研究中,我們展示了一種新型 Seq2Seq 通用模型架構,其解碼器和預訓練的語言模型一起訓練。我們研究並確認,架構變化對該模型充分利用語言模型中的信息至關重要,這也幫助模型實現更好地泛化;通過利用 RNN 語言模型,冷聚變模型產生的詞錯率比深度聚變模型低 18%。此外,我們證明冷聚變模型能夠更輕鬆地遷移至新的域,僅需要 10% 的標註數據,即幾乎可完全遷移至新的域。