聯合編譯:陳圳,章敏,高斐
我們提出一種通過由視覺空間所定位的多模式樞紐方法來提高對圖像描述的統計機器翻譯。其主要思想是在圖像中用目標語言對字幕翻譯數據實行圖像檢測,並使用最相似的圖像字幕翻譯進行跨語言的翻譯輸出再排序。我們的方法不依靠於域內所能獲得的龐大平行數據,而是依靠於所能獲得的大量單語進行圖像字幕說明的數據,並用先進的卷積神經網絡系統計算圖像的相似性。我們的試驗評估表明基於基線的1 BLEU點有所提高。
多模式數據是由圖像和自然語言描述構成的(以下稱為字幕),擁有豐富的信息資源,以致最近在整合語言和視覺方面的研究激增。最近,在WMT16會議中一個共享任務的多模式語言處理過程增加了多語言方面。顯然,多語言字幕說明有現實需求,例如,對於藝術作品的自動機器描述會基於社會和文化的原因,跨越語言障礙生成數位化藝術目錄。多語言的產品描述是具有高度商業利益的,因為它能擴寬電子商務交易自動打入國際市場。但是,圖像和單語字幕數據已包括數以百萬的元組,作者所知的最大的多語圖像和字幕資料庫包括20,000或是30,0002用英語或是德語進行的描述。
本文我們會從統計機器翻譯的角度解決多語言字幕的問題。與之前的研究相比,Karapathy 和Fei-Fei以及Vinyals等人都是直接從圖像中產生字幕,我們的目標是將視覺信息整合到SMT管中。視覺語境所提供的正交信息能避免自然語言的產生歧義,因此它可以消除歧義並通過將圖像與字幕相對應來指導翻譯過程。因為數據集包括了源語言字幕,圖像和目標語言字幕,但是這一數據集不可用數量巨大,我們會轉而利用包括圖像和目標語言字幕的大數據集來提高在最合適數量的平行字幕中進行訓練的SMT模式。
字幕翻譯可以定義如下:為產生圖像i的目標語言翻譯ei,系統會使用在源語言fi中圖像i的說圖像字幕作為輸入,同時也會使用圖像i。該系統可以放心的假設fi與i有關,例如,i相關字幕的確認是並非是字幕翻譯任務的一部分。與在基於語境的SMT中發現^e=argmaxe(e|f)的推理問題相反,多模式字幕翻譯會在發現^ei將i和fi都考慮進去:
在本文中,我們在進行字幕翻譯時,會按照一般跨語言的方法進行重組框架,在此框架中會給定一對源語言字幕和圖像,目標語言字幕是用於SMT系統的輸出重新排名。我們目前提供了兩種目標語言字幕檢索的方式,通過定位圖像與輸入圖像的相似部分進行重新排名。其中一種方法就是基於卷積神經網絡(CNN)的展示進行圖像相似性計算。另一種方法是在視覺空間中手動標註對象類別,來計算相似性。我們將會基於文本比較多模式樞紐方法和重新排名方法,此外將多模式樞紐方法與在平行數據上訓練的SMT基準線進行比較。與在29,000平行字幕上進行訓練的基準線相比,我們發現基於視覺基點的重新排名,其提高超過了1 BLEU點。值得注意的是,我們的重新排序的方法不僅僅依靠域內大量的平行數據,因為在實際場景中這類數據是不可得的,例如,電子商務的本土化。然而,在此類場景中,單語的產品描述自然數量很大,因此我們的工作就是在現實中進行描述翻譯。
單從圖像中生成字幕是最近在圖像處理過程中產生的現實性問題。最新的方法也是基於深度表示通過比較圖像和文本之間的相似性來進行圖像字幕的重新排序。這些研究中所使用的工具是神經網絡,其深度表徵大大提高了圖像特徵表示的質量,使得能對圖片內容進行強大的語義分析。我們依靠CNN框架來解決在NLP(自然語言處理)中的語義分類和消除歧義等問題,進而從視覺反饋等方面提高了監督的作用。然而,我們認為圖像生成字幕比字幕翻譯更難,因為並未給予源語言的相關信息。因此,我們不會將我們的研究與字幕生成模式進行比較。
在SMT領域內,Waschle和Riezler提出一個將數據量龐大,單語的語料庫和從跨語言信息檢索技術的機器翻譯整合起來的框架。在產生他們方法的背後直覺是通過使用SMT系統產生一個或是多個翻譯假設,SMT能為查找匹配或是在目標語料庫中尋找相似句子的請求。這些能反過來用於增強翻譯假設,以此來提高翻譯質量的整體影響。我們的工作能看做是這一方法的擴展,視覺相似性的反饋能看做是跨語言檢索模式的額外限制。Calixton等人建議使用圖像作為統計機器翻譯的補充信息。他們從新的領域內引用例子,因為在新的領域內視覺信息能幫助SMT消除歧義並討論上下文圖片之間的可能特徵和距離,但是報告卻並未涉及整個SMT管使用視覺信息。與我們的工作相平行的是,Elliot等人從神經機器翻譯等方面解決了字幕翻譯的問題。他們的模式是涉及到我們研究或是完全依賴於可用的平行字幕作為訓練數據。但這兩種方法都依賴於神經網絡,他們使用視覺豐富的神經編碼解碼器SMT方法,而我們跟隨字幕翻譯的檢索模式,使用CNNs計算視覺空間的相似性。
將多模式信息的和NLP整合問題是最近研究的另一個熱點。例如,Silberer和Lapata顯示基於視覺表徵的單詞鑲嵌分布表現比術語相似性評分和詞分類任務表現更加好。視覺反饋的正交性通過Kiela等人開發多語言設置,他引導產生雙語詞典使用術語專用的多模式表示,是通過谷歌圖像搜尋引擎獲得的。Funaki和Nakayama利用視覺的相似性在多模式和雙語向量空間進行跨語言文件檢索,但這些向量都是通過將典型相關性加以推廣獲得的,大大減弱了對於平行數據的需求。其共同點在於以CNN為基礎的相似性信息是一個「中心」或是一個連接語料庫的支點,在兩種自然語言的語料庫中缺少直接的並行主義,這就是我們為解決字幕翻譯問題所採取的策略。
圖1:模式結構概述
根據Waschle和Riezler所制定的基本方法,我們使用跨語言檢索模式在目標語言文件集C中找出句子,並使用這些句子對原字幕f所翻譯的目標語言翻譯e重新進行排序。
在我們研究中的系統與Waschle和Riezler所使用的在多個方面都有所不同。並非簡略或是粗糙的兩步檢索方式,我們的系統在檢索匹配的文本集C中使用相關的評分功能,並基於術語出現頻率倒敘對候選翻譯進行排序,這顯示了TF-IDF相關測量方式的變體。
我們方法的整體結構概述如圖1所示,包含以下幾個成分:
輸入:源字幕fi,圖像i,圖像字幕對的目標語言集合C
翻譯:生成kn-best翻譯的獨特列表Nfi,使用MT解碼器生成Kr-best翻譯的獨特列表Rfi
多模式檢索:對於翻譯列表Nfi,在目標文集C中發現Km-most相關的圖像字幕對Mfi,使用啟發式關聯函數進行評分
跨語言重新排序:使用Mfi的圖像字幕對對翻譯列表Rfi進行重新排序,應用相關評分功能
輸出:通過插入解碼分數dr來決定最好的翻譯假設
其核心觀念是評分功能S(m,Nfi,i)能決定目標檢索(TSR)的三個變體,所有的這一些能充分利用上面所提到的程序。在基線和文本基礎的重新排序模式中(TSR-TXT),我們使用相關評分功能STXT。這一項功能是僅依靠文本並未充分利用多模式的語境信息(例如,它與Waschle和Riezler所使用的目標語言檢索是最接近的)。通過來自深度卷積神經網絡的視覺信息能加強檢索信息(TSR-CNN),這一評分功能SCNN基本採用了從神經網絡中提取文本的相關信息來進行視覺相似性信息評分。最後,基於人類目標分類注釋(tsr-hca)對這些模式的相關性進行評分,使用評分函數為SHCA。
該函數利用了可供MS COCO語料庫使用的對象標註,指示我們的自動提取視覺相似性度量的有效性。後文中將詳細討論這三種模型。
基於文本的目標側檢索模型.在TSRTXT檢索方案中,匹配候選值m∈C以下列方式得分:
其中δ是Kroneckerδ函數,Nfi是圖像i的源字幕fi最好的Kn翻譯假設集(通過解碼器進行評分)。typ(a)是函數產生的一組包含在字幕a中的類型集(獨特的符號),tok(a)是函數產生的字幕a的符號,idf(w)是術語w的逆文檔頻率。並且Zm等於|typ(m)|的倒數是包含在內的正常化的術語,用於避免系統偏向於長時間的匹配候選(包含很多低頻率術語)。術語頻率的計算是在Europarl,News Commentary 和News Discussions English數據集(由WMT15創作室提供)提供的語言數據上進行的。注意,在這些模型中,沒有使用圖像i的信息。
使用CNNs的多模型目標側檢索
在TSR-CNN方案中,我們使用來自深度卷積網絡的視覺相似性信息,補充文本目標面TSR模型。我們通過介紹圖像ix,iy的半正定距離函數v(ix,iy)→[0,∞)將其正式化(較小的值,表示更多的類似的圖像)。相關評分函數SCNN在模型中採用的形式如下:
im是字幕m相關的圖片,且d是截止最大距離,上面中匹配候選被認為是不相關的,且b是權重術語,它可以控制視覺距離分數v(im,i)在整體分數上的影響。
我們的視覺程度v是使用Simonyan和Zisserman的VGG16深度卷積網絡模型(在ImageNet上進行預訓練)進行計算的。我們提取所有輸入的特徵值,並從模型的倒數第二個完全連接層(fc7)參考圖像 ,和計算圖像特徵向量之間的歐氏距離。如果沒有相鄰圖像落在距離d,基於文本的檢索程序STXT被作為回退策略,這在我們的測試數據中每500次會發生47次。
通過人類分類注釋的目標側檢索。為了對比,我們使用了人類分類注釋的MSCOCO評估TSR-HCA檢索模型。在MSCOCO語料庫中,每一個圖像都用對象多邊形注釋,分類成91類常見對象。在該方案中,匹配候選m按如下方式打分:
其中cat(i)返還圖像i被注釋的對象類別集。強制類別注釋i和參考圖像im進行嚴格匹配的總數,因此,通過嚴格的類別匹配預過濾STXT在圖像字幕得分。在i用獨特的對象類別集注釋,以及SHCA沒有返還非零分的匹配候選的情況下,STXT被用作回退策略,這種情況在我們測試集中每500次會發生77次。
在三個模型中,用於重排序模型的相關性得分F(r,MfI)用如下方式進行計算:
其中r是翻譯候選,並且Mfi是km最高目標側檢索匹配的列表。因為模型應該返還一個反映r對於Mfi相關性的分數,不考慮Mfi的長度,標準化Mfi的標籤數是必要的。術語ZMfi就是為該目標服務的。
我們基於MS COCO圖像語料庫建立了一個德語-英語平行數據集。從2014訓練部分隨機選擇1000張圖片,在第二步中,他們五分之一的英語字幕是隨機選擇的。隨後這些字幕由一個德國人翻譯成德語。注意我們的實驗將德語作為源語言,而英語作為目標語言,因此,我們的參考數據不是由單獨一個人說出來的,而是最大程度的反映出MSCOCO的不均勻性。該數據被拆分為250字幕的開發集——它在過程中用於測試工作,和500字幕的測試集。為了進行檢索實驗,我們只使用不包括在開發集中的圖像和字幕,總共81,822張圖像(每個圖像有著5個英語字幕)。所有數據通過cdec,tokenized-anything.pl和lowercase.pl處理和轉換成小寫。對於德語數據,我們使用Dyer描述的方法進行複合-拆分,提供cdec utility compound-split.pl進行實施。表1給出了數據集的概述。我們的並行開發,開發測試和測試數據都是公開可用的。
表1:實驗中使用的MSCOCO中圖像和字幕數據的圖像和句子的數量。
我們將我們的方法和兩種基準的機器翻譯系統進行對比,一個域外的數據進行培訓,一個Domain-adapted系統。表2給出了用於機器翻譯系統的訓練數據概述。
域外基準(Out-of-Domain Baseline.)我們基準的SMT框架是使用同步語境的自由語法,基於短語的分層的翻譯 ,通過cdec解碼器實現。Eutoparl,News Commentary和Common Crawl corpora,以及WMT15工作室提供的數據,被用於訓練翻譯模型,德語作為源語言,英語作為目標語言。
如檢索數據集,訓練,開發和測試數據集都被標記並轉換成小寫一樣,我們使用相同的cdec工具。超過80個詞的句子無論是源語言還是目標語言,在前面的訓練中都被拋棄了。源文本使用compound-split.pl進行複合拆分。
使用cdec 的fsat-align功能雙向提取組合,並使用grow-diag-final-and的均衡啟發式均衡atools效果。該組合隨後被cdec語法提取器用於在平行數據中提取同步的語句自由語法。
表2:用於訓練機器翻譯系統的並行和單語數據。給原始數據未進行預處理的句子數。O /I:域外和域內的系統,I:只域內系統。
目標語言模型在來自Europarl,News Crawl,和有KenLM工具包的News Discussions(由WMT15工作室提供,該數據集在檢索模型中也被用於評估術語)數據集的單語數據上進行訓練。
為了翻譯質量,我們如IBM BLEU一樣使用Margin Infused Relaxed 算法(MIRA) 進行測量,優化翻譯系統的參數。為了調整翻譯模型用於提取最終的假設列表評估,MIRA在開發集上進行了20次迭代,並選擇最好進程進行最終測試。
域內基準.我們同樣將我們的模型和domain-adapted的機器翻譯系統進行對比。除了是它從圖像字幕域提供額外的並行訓練數據外,domain-adapted系統和域外(out-of-domain)系統是完全相同。為了這個目的,我們使用29,000個平行的德語-英語圖像字幕(和多模態機器翻譯上WMT16共享任務的字幕數量相同)。數據集中英語字幕屬於Flick30k語料庫,並且和MSCOCO語料庫非常相似。德語字幕是專業翻譯的。英語字幕同樣被用於目標側語言模型額外的翻譯數據。使用該域內(in-domain)基準系統,我們產生了kn和翻譯候選kr-best的列表。
表3:優化在最終評估中使用的超參數值
對於我們的每一個檢索模型,我們在用於開發集IBM BLEU的四個系統參數上,進行了一項超參數空間的逐步窮舉搜索:kn-best的長度列舉了整個被用於檢索的查詢;km-best的數量對應字幕檢索;最終kr-best列表的長度被用於分級;相關性分數F的加權插值λ相對翻譯假設日誌的概率由解碼器返回。通過檢查系統對於典型例子的輸出,手動決定參數的探索範圍。表3給出了獲得的超參數值概述。
對於TSR-CNN,我們最初設置的截止距離d為90.0,經過手動檢查最近的鄰近集返回各種最大距離值。在優化檢索參數後,我們在開發集以步長單位為1,從d=80.0到=100進行窮舉搜索,同時保持其它的超參數固定,結果證明了最初的選擇d=90.0是最佳值。
對於所有模型,探索參數空間都是一樣的,並且每一個模型都在測試集上使用它自己最佳配置的超參數進行評估。
在不同的翻譯質量進行性能測試,是通過使用近似隨機化技術,測量機器翻譯系統的差異而進行的。它由Riezler和Maxwell提出,並被Clark等人實施成為Multeval工具包的一部分。
表格4:據Multeval報導的所有系統及其顯著性水平的度量分數。Po值與cdec域外基線相關,Pd值則與域內基線相關,Pt值,Pc值分別與TSR-TXT,TST-CNN相關。最優結果用黑體標註出來。
表格4對在一個擁有500條字幕的不可見測試集合中,所有模型的測試結果進行總結。經調整過後的域極大改善了+4.1BLEU,METEOR與翻譯編輯率(TER)進行了極大程度的改善。我們發現,運用深度卷積神經網絡TSR-CNN 和 TSR-HCA中的多模態樞紐可以改善目標端檢索模型,而這種檢索模型一直以來在性能均優於經過調整的域cdec基線及基於文本的目標側檢索模型TSR-TXT。因而,這些模型在性能方面得到了改善,在效果上最終超過了一般的域調整方式。TSR-CNN與TSR-HCA在性能方面的提高與BLEU,METEOR,TER呈顯著性差異(p<0.05)。對於所有的評估度量方法來講,TSR-CNN和TSR-HCA之間的差異並不顯著,這一結果證明,運用我們由CNN衍生出的距離度量檢索方法能夠與基於人類目標分類注釋的檢索方法相匹配。
圖2:鑑於兩個排名聯合分布得出的人類成對偏好排名實驗結果:a+表示人們對TSR-CNN精確度的偏好,f+表示人們對TSR-CNN流暢度的偏好;a-表示人們對於域內基線精確度的偏好,f-表示人們對域內基線流暢度的偏好。
基於文本的檢索基線TSR-TXT在顯著性上從未優於域內cdec基線,但是,BLEU,METEOR及TER的性能在名義上得到了少許提升。這一發現實際上與Waschle 和 Riezler (2015)的報告結果一致,其報導了在高技術,窄域語料庫總基於文本的目標端檢索模型性能的改善,甚至報導了介質多樣性語料庫在性能方面的下降,如Europarl語料庫。我們的實驗結果顯示,將多模態樞紐整合入圖像增強模型TSR-CNN 和 TSR-HCA中,額外增加了視覺相似性信息,如此便使得這些技術在MS COCO中能夠得到有效利用,從而肯定了我們的假設,視覺信息可以用於改進字幕翻譯。
域內基線與TSRT-CNN之間的差異體現於兩種檢索方法在測試集合中169/500案例的輸出結果上的不同。在一項雙盲配對偏好排序實驗中,這169個案例隨德國源字幕一同呈現在人類面前,以便於配對排序結果做出評價。在兩個系統中,字幕的呈現順序具有隨機性。評審人員被要求分別對翻譯的流暢度與精確度進行排序。所得結果見圖2。整體上講,人們對TSR-CNN輸出結果表現出明顯的偏好。
表格5中為由cdec基線,TSR-TXT,TSR-CNN及TSR-HCA檢索模型得出的實例翻譯結果,隨之提供有源字幕,圖像和參考翻譯。由樞紐圖像的目標端字幕歸納得出的視覺信息能夠消除可以相互替換的翻譯結果的歧義,並且能夠修正錯誤的翻譯結果。
表格5:根據多模態反饋信息改善過的字幕翻譯實例
我們證實了,在我們由MSCOCO得出的平行數據集中,就BLEU,METEOR及TER而言,與一個強大的域內基線相比,將多模態樞紐與一個目標端檢索模型相結合能夠改善SMT的性能。基於深度卷積網絡的距離度量所提高的性能可以與基於人類目標分類注釋所提高的性能相媲美,這一結果進一步證明了由CNN衍生得出的距離測量工具的有效性。採用我們的方法,在某些案例中,SMT可以得益於多模態語境信息。尤為重要的是,不需要使用大量的域內平行文本信息,僅僅運用大量可以很容易獲取的一語圖像字幕便可以提高SMT的性能。
應用深度學習技術學習距離度量成為一個熱點研究領域(Wu等,2013;Wang等,2014;Wang等,2015)。儘管我們的簡單的距離度量方法在性能上可以與人類目標註釋方法相媲美,運用這種高水平語義距離度量進行多模態樞紐字幕翻譯在未來研究中將具有遠大前景。
當前實驗結果是僅僅基於一個語言對(德語-英語)和一個語料庫(MS COCO)得出的。與所有基於檢索的方法相似,有關各種領域,各種規模,各種質量的語料庫的任何普適性觀點都難以得到證實。這一問題在多模態案例中尤為棘手,由於在不同的語料庫中,與圖像相互關聯的字幕呈現多樣化(Hodosh 等,2013)。在未來的工作中,我們計劃在更為自然的語境中評估我們所採用的檢索方法的性能,例如於在線多媒體庫中進行機器字幕翻譯,維基Commons,數位化藝術目錄及電子商務本地化。
另一未來研究平臺為通過運用神經MT(例如「注意機制」)的重要組成部分來改善Elliot 等人(2015)在其文章中提及到的模型的性能。例如,由Bahdanau等人(2015)提出的注意機制通過影響源字符的翻譯序列,以便對翻譯過程起到引導作用。Xu等人(2015)的文章中運用了相似的機制來確定圖像的哪一部分將對所生成的字幕中的哪一部分產生影響。在神經字幕翻譯模型中把這兩種類型的注意機制相結合將是字幕翻譯發展自然而然的結果。儘管這一研究方向已經超出當前研究範圍,我們的檢索模型將為之提供一種信息基線,在今後的研究中可以參照該基線評估所採用的檢索方法。
哈爾濱工業大學李衍傑副教授的點評:本文通過視覺空間定義的多模態樞紐(multimodal pivots ),提出了一種方法來改善圖像描述的統計機器翻譯,從統計機器翻譯(SMT)的角度解決多語言字幕的問題。其核心思想是對用目標語言加字幕的圖像數據集中進行檢索,應用最相似圖像的字幕來進行跨語言的翻譯輸出再排序,利用視覺語境所提供的正交信息來避免自然語言產生的歧義。論文方法表明多模態樞紐與目標端檢索模型相結合能夠改善SMT的性能。基於深度卷積網絡的距離度量所提高的性能可以與基於人類目標分類注釋所提高的性能相媲美,這一結果進一步證明了由卷積神經網絡(CNN)衍生得出的距離測量工具的有效性。該方法可不需要使用大量的域內平行文本信息,僅僅運用大量容易獲取的單語圖像字幕便可以提高SMT的性能。
PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!更多ACL相關資訊掃碼關注微信群
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。