機器翻譯與自動文摘評價指標 BLEU 和 ROUGE

2020-12-03 NLP學習筆記

在機器翻譯任務中,BLEU 和 ROUGE 是兩個常用的評價指標,BLEU 根據精確率(Precision)衡量翻譯的質量,而 ROUGE 根據召回率(Recall)衡量翻譯的質量。

1.機器翻譯評價指標

使用機器學習的方法生成文本的翻譯之後,需要評價模型翻譯的性能,這就要用到一些機器翻譯評價指標,其中比較常見的評價指標有 BLEU 和 ROUGE。這兩個指標具有比較舊的歷史,BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。這兩種指標雖然存在著一些問題,但是仍然是比較主流的機器翻譯評價指標。

一般用C表示機器翻譯的譯文,另外還需要提供 m 個參考的翻譯S1,S2, ...,Sm。評價指標就可以衡量機器翻譯的C和參考翻譯S1,S2, ...,Sm的匹配程度。

2.BLEU

BLEU 的全稱是 Bilingual evaluation understudy,BLEU 的分數取值範圍是 0~1,分數越接近1,說明翻譯的質量越高。BLEU 主要是基於精確率(Precision)的,下面是 BLEU 的整體公式。

BLEU 需要計算譯文 1-gram,2-gram,...,N-gram 的精確率,一般 N 設置為 4 即可,公式中的 Pn 指 n-gram 的精確率。Wn 指 n-gram 的權重,一般設為均勻權重,即對於任意 n 都有 Wn = 1/N。BP 是懲罰因子,如果譯文的長度小於最短的參考譯文,則 BP 小於 1。BLEU 的 1-gram 精確率表示譯文忠於原文的程度,而其他 n-gram 表示翻譯的流暢程度。2.1 n-gram 精確率計算

假設機器翻譯的譯文C和一個參考翻譯S1如下:

C: a cat is on the table

S1: there is a cat on the table

則可以計算出 1-gram,2-gram,... 的準確率

直接這樣子計算 Precision 會存在一些問題,例如:

C: there there there there there

S1: there is a cat on the table

這時候機器翻譯的結果明顯是不正確的,但是其 1-gram 的 Precision 為1,因此 BLEU 一般會使用修正的方法。給定參考譯文S1,S2, ...,Sm,可以計算C裡面 n 元組的 Precision,計算公式如下:

2.2 懲罰因子

上面介紹了 BLEU 計算 n-gram 精確率的方法, 但是仍然存在一些問題,當機器翻譯的長度比較短時,BLEU 得分也會比較高,但是這個翻譯是會損失很多信息的,例如:

C: a cat

S1: there is a cat on the table

因此需要在 BLEU 分數乘上懲罰因子

3.ROUGE

ROUGE 指標的全稱是 (Recall-Oriented Understudy for Gisting Evaluation),主要是基於召回率 (recall) 的。ROUGE 是一種常用的機器翻譯和文章摘要評價指標,由 Chin-Yew Lin 提出,其在論文中提出了 4 種 ROUGE 方法:

ROUGE-N: 在 N-gram 上計算召回率ROUGE-L: 考慮了機器譯文和參考譯文之間的最長公共子序列ROUGE-W: 改進了ROUGE-L,用加權的方法計算最長公共子序列3.1 ROUGE-N

ROUGE-N 主要統計 N-gram 上的召回率,對於 N-gram,可以計算得到 ROUGE-N 分數,計算公式如下:

公式的分母是統計在參考譯文中 N-gram 的個數,而分子是統計參考譯文與機器譯文共有的 N-gram 個數。

C: a cat is on the table

S1: there is a cat on the table

上面例子的 ROUGE-1 和 ROUGE-2 分數如下:

如果給定多個參考譯文 Si,Chin-Yew Lin 也給出了一種計算方法,假設有 M 個譯文 S1, ..., SM。ROUGE-N 會分別計算機器譯文和這些參考譯文的 ROUGE-N 分數,並取其最大值,公式如下。這個方法也可以用於 ROUGE-L,ROUGE-W 和 ROUGE-S。

3.2 ROUGE-L

ROUGE-L 中的 L 指最長公共子序列 (longest common subsequence, LCS),ROUGE-L 計算的時候使用了機器譯文C和參考譯文S的最長公共子序列,計算公式如下:

公式中的 RLCS 表示召回率,而 PLCS 表示精確率,FLCS 就是 ROUGE-L。一般 beta 會設置為很大的數,因此 FLCS 幾乎只考慮了 RLCS (即召回率)。注意這裡 beta 大,則 F 會更加關注 R,而不是 P,可以看下面的公式。如果 beta 很大,則 PLCS 那一項可以忽略不計。

3.3 ROUGE-W

ROUGE-W 是 ROUGE-L 的改進版,考慮下面的例子,X表示參考譯文,而Y1Y2表示兩種機器譯文。

在這個例子中,明顯 Y1的翻譯質量更高,因為 Y1 有更多連續匹配的翻譯。但是採用 ROUGE-L 計算得到的分數確實一樣的,即 ROUGE-L(X, Y1)=ROUGE-L(X, Y2)。

因此作者提出了一種加權最長公共子序列方法 (WLCS),給連續翻譯正確的更高的分數,具體做法可以閱讀原論文《ROUGE: A Package for Automatic Evaluation of Summaries》。

3.4 ROUGE-S

ROUGE-S 也是對 N-gram 進行統計,但是其採用的 N-gram 允許"跳詞 (Skip)",即單詞不需要連續出現。例如句子 "I have a cat" 的 Skip 2-gram 包括 (I, have),(I, a),(I, cat),(have, a),(have, cat),(a, cat)。

4.參考文獻

B: a method for automatic evaluation of machine translation

ROUGE: A Package for Automatic Evaluation of Summaries

相關焦點

  • 微信翻譯大型翻車現場?機器翻譯到底有哪些不確定性
    如果訓練語料多來自相對便宜的電影字幕、多語言會議等材料,那麼模型最終呈現的翻譯內容也會相對應比較「活潑」和「口語化」。 而在面對庫中不存在的詞,比如caixunkun,算法會自動匹配最經常出現,或者在同語境下最容易匹配的內容,比如形容詞「帥哥」、「傻蛋」。 那麼,經過這一烏龍事件,微信團隊是否會真的重視起翻譯產品,然後重金重製語料庫呢?我們拭目以待。
  • 人去做文本摘要都挺困難了,機器要怎麼做?
    引文本摘要是自然語言處理中比較難的一個任務,別說是用機器來做文摘了,就連人類做文摘的時候都需要具備很強的語言閱讀理解能力和歸納總結能力。結果評價指標是否科學可行對於一個研究領域的研究水平有著直接的影響,目前在文本摘要任務中最常用的評價方法是 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。ROUGE 受到了機器翻譯自動評價方法 BLEU 的啟發,不同之處在於,採用召回率來作為指標。基本思想是將模型生成的摘要與參考摘要的 n 元組貢獻統計量作為評判依據。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    通過機器學習繪製特定語言的聯結 不難想像,近年來機器翻譯的最新進展對此有所幫助。 短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    選自谷歌機器之心編譯參與:機器之心編輯部近日,谷歌官方在 Github 開放了一份神經機器翻譯教程,該教程從基本概念實現開始,首先搭建了一個簡單的NMT模型,隨後更進一步引進注意力機制和多層 LSTM 加強系統的性能,最後谷歌根據 GNMT 提供了更進一步改進的技巧和細節,這些技巧能令該NMT系統達到極其高的精度。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    當時之所以採用「統計翻譯模型」的一個重要原因就是 Google 的雲計算架構。機器翻譯需要海量的數據存儲空間以及高效的運算能力,而 Google 擁有 GoogleMapReduce(分布式計算系統)和 BigTable(分布式存儲系統),恰好滿足了這兩方面需求。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。、競爭最為激烈的機器翻譯任務之一。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。整個評估過程歷時四個月,評價結果有非常高的置信度。語言專家評估得分第一 火山翻譯拿下「中文-英語」語向冠軍歷年比賽中,「中文-英語」語向的翻譯任務都是參賽隊伍最多、競爭最為激烈的機器翻譯任務之一,今年更勝往年。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    在講課開始之前先簡短的做個自我介紹,我是博士畢業於中國科學院計算技術研究所,方向是機器翻譯的方向,目前在阿里巴巴翻譯平臺擔任翻譯模型組負責人,主要是為阿里巴巴的跨境電商貿易提供豐富的語言支持,讓跨境貿易沒有語言障礙。今天非常高興受到CSDN AI科技大本營的邀請,給大家分享自己在機器翻譯方面的研究和工作。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。
  • 福建地方標準自動扶梯和自動人行道運行振動測量與評價通過審定
    振動測量的目的主要為了檢查機器運轉時的振動特性,以檢驗產品質量;測定機械系統的動態響應特性,以便確定機器設備承受振動和衝擊的能力,並為產品的改進設計提供依據;分析振動產生的原因,尋找振源,以便有效地採取減振和隔振措施;對運動中的機器進行故障監控,以避免重大事故。
  • 機器輔助翻譯之TRADOS知多少
    然而,傳統的純人工翻譯方式因成本高、耗時長等原因似乎已經不能滿足翻譯市場某些客戶稿件數量大、時間緊的需求。於是,機器輔助翻譯應運而生。那麼,什麼是機器輔助翻譯呢?在說機器輔助翻譯之前,我先說下我對機器翻譯的理解。機器翻譯(Machine Translation,簡稱MT)是利用計算機把一種語言轉變成另一種語言的過程,是由機器自動完成的。
  • 劉慶峰的人工智慧機器模仿川普講話_機器漢英翻譯已達6級
    雲知聲通過布局物聯網來自動獲取數據,未來將從「以設備為中心」進步為「以用戶為中心」、「以數據為中心」。萬物對人類的服務將變得「主動」,它們通過晶片感知你的生活指標,並主動提供最舒適的服務。渴了有機器人自動把水送上,餓了電飯煲自動做飯,熱了空調自動開啟降溫,甚至連燈光也會隨外界光線和你的需求變得明亮或者暗淡。而這一切,並不需要你手動或語言輸入什麼指令,只需「智享未來」。
  • 微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    語言障礙正被擊破將人類分隔開來的語言屏障尚未倒塌,但卻正以驚人的速度被擊破,對全球交流、小語種的命運以及商業和外交的未來產生了巨大的影響。自動使用多語種可能是網際網路最重要卻最鮮為人知的影響之一。即時翻譯一直是科幻小說描繪的情景。在《星際迷航》中,「萬能翻譯器」使柯克船長能夠在語言方面無所畏懼,從而大膽地進入最後的邊疆。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    其中,作為自然語言處理領域頂級國際會議之一的 EMNLP 2017 將於今年 9 月在丹麥首都哥本哈根舉行,與此同時,第二屆機器翻譯大會(WMT 2017)將會作為本次會議的分論壇同時召開。今年的一大亮點是,WMT 首次增設了中文和英文間的新聞數據翻譯任務。
  • Memsource翻譯軟體,為你提供最佳機器翻譯引擎
    在人工智慧高速發展的今天,機器翻譯技術取得了突破性進展,市面上湧現了大量的商家提供機器翻譯服務,機器翻譯的質量在不同行業、語種下的差距越來越大。而在進行翻譯時,所選擇的機器翻譯引擎是影響翻譯效果的重要因素。因此,如何選擇翻譯引擎是我們面臨的重要任務。
  • 硬核測評,谷歌翻譯被碾壓!全球首個翻譯引擎進化歸來,「細節狂魔...
    聲明:本文來自於微信公眾號大數據文摘(ID:BigDataDigest),作者:劉俊寰,授權站長之家轉載發布。最近,一款在線機器翻譯軟體在日本大火。至於更多可能是如何被開發出來的,文摘菌做了一次小小的測評,然後再一起來圍觀DeepL的發家史,小板凳已經放好,歡迎就坐~方言、文言文、學術論文,機器翻譯神仙打架!不管是民間測評還是DeepL官方的盲測結果,都暗示著DeepL可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。