軟體翻譯並不是新鮮事物,但為何在當下開始有了像「機器翻譯能否代替人工翻譯」這類的話題呢?
我們都知道只有技術革命才能解放生產力。在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
第一階段是以地球村和東方快車為代表時代,也就是windos95、win98時代,中國剛剛有網際網路的那段時間,地球村以輸入詞為主、東方快車以劃線句子和段落為主。至於翻譯質量我們不做評價,小編只記得這兩款軟體的使用量還是很大的,跨度大概3,4年的時間。之後是以金山詞霸為主,經常被列為裝機必備軟體,也是中國最有生命力的軟體之一。
第二階段是在線翻譯時代,當網絡已成為基建的時候,百度、金山、有道等等軟體也把翻譯當時流量業務或者經營性業務,已經逐步脫離的個人工具的概念。
第三階段為人工智慧時代的開始,重新定義了機器與語言的關係。完全改變了技術呈現結構。尤其是Transformers神經網絡模型的出現和商業實驗性應用,終於讓人們改變了翻譯軟體的只能查單詞、翻譯句子就差強人意的印象。也正是第三階段的出現才有了「機器翻譯」這個新詞、新含義。
科技發展,神經網絡的出現目的是不是代替人工我們不得而知,但機器翻譯就目前來說,是可以當成唯一解決人工大批量文本翻譯的唯一可行性方案。並且技術可預期性,發展性、成熟性都有很大的想像力空間和進步空間。因此就目前階段而言,機器翻譯賦能人工翻譯、輔助人工翻譯可能更為準確。
第一階段、第二階段和第三階段的技術革命到底在哪裡呢?
前兩個階段主要是通過規則編寫和預製格式來進行遍歷性的翻譯,只要出現了規則不匹配的就會出現亂用詞彙的情況出現。如果窮舉的方式必然不是人類語言處理的最優方式。從根上來講語言是對動態的,而基於規則、統計方式的翻譯軟體是靜態的,天然就不具備替代的可能性。
第三階段的革命性也就於神經網絡的問世,同人類一樣具有了一點學習能力和變化能力,都是在相對動態的處理語言規則、表達語言邏輯和含義。既然同宗,那麼剩下的就是解放生產力的時間問題了。
我們也稍微理解下「機器翻譯」概念,原文(人類)-->原文字典碼(機器)-->神經網絡高緯度坐標軸(神經模型)-->譯文字典碼-->譯文(人類)。機器居間理解原文內容轉換機器識別代碼在轉換譯文的過程。這個過程也就是「人工智慧機器翻譯」。過程中神經模型和人類大腦神經模型的差距,也就是解放生產力的時間跨度。就語言表達來講,相同的詞彙在各個領域都有不同含義。
人類的大腦是有限的,不可能把所有的領域都學會、學全;神經網絡模型也是一樣的,必須要根據垂直行業特點來進行單獨學習,避免過擬合現象。泛化太大就會出現「聰明過頭」現象,把其他領域的含義引申到了本領域內。
這也是藍燈魚機器翻譯目前為什麼只注於專利領域引擎的原因。
即便如此,我們在訓練一個神經網絡模型也相當吃力,一個模型對機器配置的要求非常高,十幾個高顯存的GPU同時運算基本是保底配置。算機整體的算力,神經網絡的結構上還需要不斷提升,才能追上人腦智商。
神經網絡模型也可以稱為基於知識的翻譯模型,因為神經網絡直接是通過具有邏輯關係詞語、短句進行優選選擇拼接,詞語之間的邏輯關係都具有一定的強關聯性。因此小樣本的平衡語料也可能訓練出一個較為優秀的模型,也可以說神經網絡模型是理解了語料,學習了知識,學會你會的,解放你的生產力。
好的軟體是磨出來的,不是開發出來的,這是一個好產品的基本邏輯。
對於一個翻譯模型,通常影響較大的有3個方面,人工精修平衡語料,越多越好,多到多少呢,2000W不多,5000W不少,1個億對於機器來說也是小意思,能磨好這麼多語料顯然是要下功夫和投入的。另外就是對於神經網絡參數的上千次、萬次的調整以及工程在初始和最後的查缺補漏。磨出來的藍燈魚引擎目前基本達到了翻譯初稿水平,可以說是部分解放了生產力。從版本更新曆程上,在準確性、流暢性正在不斷的提高。
當然革命尚未成功,模型仍需努力。革命道路不會一帆風順,但革命道路一定需要我們大膽嘗試。
藍燈魚模型接下來的嘗試呢?
模型會話研究:通過會話記憶,對同一篇文章內容表達更加統一。
模型符號標記通譯:翻譯後,符號對照更加準確標準。
原文譯文切詞算法:提高翻譯結果的表達流暢性、準確性。
敬請期待!