#機器翻譯#
谷歌和其他公司為個人提供了用於翻譯的AI,可以在手機上訪問。然而,翻譯仍然是一個比許多人意識到的要難得多、複雜得多的問題。商業社會有許多複雜而獨特的需求,增加了準確可靠翻譯的挑戰,但AI翻譯也正顯示出日益增強的能力。
商務翻譯的一個顯而易見的關鍵問題,是每個商務部門都有自己的術語、短語、甚至習語。通過眾包或其他公開方法進行通用訓練的通用雲翻譯系統無法達到商務翻譯所需的準確性。另外,雲本身還是一個問題。很多企業的目標譯文都涉及到智慧財產權(IP) 保護。為了做到這一點,他們希望他們的信息保留在內部,在他們的防火牆之後。
現在再加上複雜的隱私要求,比如歐盟的GDPR和加州的CCPA。各國政府越來越多地制定規定,規定公民的數據必須保存在哪裡,哪些可以共享。信息的定位和匿名化也增加了一個公司理解多語言業務的挑戰。
然後是協作。幾乎每個商界人士都使用一些電子通信工具,無論是電子郵件、簡訊還是更正式的聊天系統。通過準確、即時的翻譯來增強這些應用程式可以改善一家全球性公司的內部溝通並推動成功。
SYSTRAN首席信息官JP巴拉扎說:「ediscovery是利用人工智慧進行商業翻譯的一個明顯的切入點。例如高科技和生物技術等行業的全球研發集團,他們可以在強大翻譯的協助下變得更有效率。」客戶支持是翻譯可以大有用處的另一個拓展方向。
人工智慧只是解決方案的一部分
與基於雲的模型一樣,SYSTRAN系統也在使用無監督學習。不過,它為每個行業使用一個更加精確的數據集用於訓練系統。神經網絡只是系統邏輯的一個組成部分。鑑於許多語言中有特定術語,在神經網絡的前後處理中使用程序邏輯,有助於應用業務部門的明確規則和術語。畢竟,對於定義清晰的語言約定,它們更容易管理,而神經網絡可以處理整體語言的流暢性。
需要規則的一個例子是美式英語和法式法語中的名字是如何使用的。在美國,我們經常使用領導人的名字,比如「拜登總統」。在法國,新聞報導通常不使用姓名,而是提到頭銜,比如「美國總統」。考慮一下雙向翻譯。該公司執行長讓·塞內拉特說:「從英文翻譯過來,去掉名字,擴大標題是很簡單的。如果我們在從法語到英語的過程中加上一個名字,那麼當總統更換時會發生什麼?該系統將繼續添加前任總統的姓名,直到有足夠的數據重新訓練。為了保持準確,我們決定在翻譯成英語時保留法語的參考風格。」使用明確的規則是解決這個問題的一種乾淨的方式。
這種神經網絡和程序規則的結合也為公司提供了靈活性。我們可以訓練一個核心系統,針對不同的公司,則可以有不同的插件。這讓開發過程更簡單,讓更新過程更乾淨。可以添加特定的公司和行業規則,而不必重新訓練深度學習系統。
商務翻譯不同於個人翻譯
提高精確度對於業務來說是必要的。巴拉扎先生說:「消費者可以接受錯誤,只要通過翻譯傳達大致意思就行,商業則需要準確性。這不僅僅是為了遵守法規和合同,缺乏準確性還會減緩產品開發,降低安全性,並造成客戶不滿意。」
出於對精確度的需求,以及行業的現狀,解決方案還要有另一個組成部分。我們還沒有達到可以完全信任自動化系統的地步——必須人工審核翻譯。
在一般的系統內,翻譯是複雜的,並且通常只限於足夠少的一組語言上,因此他們使用成對的引擎。例如,一個引擎從英語翻譯成法語,另一個引擎從法語翻譯成英語。訓練系統使用了一種不太容易理解的反向傳播形式。在單個引擎中,反向傳播意味著對結果進行校正並將其作為輸入反饋回去。在翻譯中,這意味著通過另一個引擎將結果翻譯回去,然後進行修正。實際比這更複雜(至少對我來說是這樣),但我理解這是一個非常有趣的循環,在這個循環中兩個引擎互相幫助訓練。
這就是當前翻譯訓練的方式,但是將會發生一個變化。這種方式意味著要訓練很多單獨的引擎,並且語言的數量越多,各種排列方式就越多,意味著引擎數量的大量增加。一個解決方案是使用英語作為中間語言,通過它翻譯所有的東西,以限制不同引擎的數量。但這加劇了低效率和不準確。Facebook最近宣布了一個單一的模型,可以同時對多種語言進行翻譯。既然個人對錯誤更容忍,所以也就最好先在個人翻譯服務中測試這樣的模型,但最終技術將得到加強,企業翻譯將受益。
商業也推動了非AI設計問題。 SYSTRAN並不是只能在雲上部署。必須採用混合方式,為了滿足隱私和其他監管要求,通常需要內部部署。
基於系統進化的現狀,以及深度學習缺乏透明度,沒有一家公司會只用人工智慧驅動的翻譯服務商業和政府。根據80/20規則,AI的基礎翻譯將節省大量的時間和精力,同時仍然需要人類審校和編輯,才能得到商業和政府翻譯的最終版本。
翻譯工具在過去的十年裡取得了很大的進步。由於個人的翻譯要求不那麼嚴格,因此最初的重點放在個人使用上也就不足為奇了。現在技術已經進步,正在解決商業和政府更正式的翻譯要求。方興未艾,前景可期。