在進行論文寫作,資料學習及新語言學習的過程中,機器翻譯軟體已經成為不可或缺的一部分。然而,機器翻譯軟體質量良莠不齊,翻譯效果在大多數情況下並不盡如人意,甚至頻頻鬧出笑話,成為眾多網紅短視頻調侃的對象,甚至某短視頻平臺還進行了「不靠譜翻譯大賽」短視頻活動,每每令人捧腹。為何到了21世紀,機器翻譯仍然不靠譜?下面就從技術原理方面進行解析。
機器翻譯於上世紀80年代開始將基於規則的機器翻譯走向實際應用,這也是第一代機器翻譯技術。它擁有3種技術路線,第一種是直接翻譯,將源語言與目標語言從字面意義上對每個分詞、短語進行翻譯,再進行拼接,但效果並不理想。第二種則是根據語言學的相關規則,對源語言的句子進行語法分析,結合目標語言的語法規則進行翻譯,但每一種語言的語法規則都比較複雜,並且存在相當多的特例情況,這種技術路線也不太合適。另外一種技術路線,則是藉助人的大腦翻譯來實現機器翻譯,但這會涉及到中間語言轉化,對翻譯精確性有一定影響。
針對第一代機器翻譯技術的不足,產生了第二代翻譯技術,即基於統計的機器翻譯。它通過對源語言進行段譽切分,再翻譯每一個源短語,隨後按照統計結果,結合相應的語法規則等按照一定的順序將翻譯後的短語組合成句子。但這種翻譯方式,在翻譯時往往會由於模型假設較多,上下文建模能力不足,導致調序困難,導致翻譯出的句子比較生硬,但相比第一代翻譯技術已經有了長足進步。
而第三代基於端到端的神經機器翻譯,它不僅包含編碼和解碼兩部分,還額外引入了注意力機制以幫助調序,在翻譯時,它首先會通過分詞得到輸入源語言詞序列,並通過「詞向量」來表示,再通過RNN神經網絡得到正向碼表示,隨後,通過反向的RNN得到反向碼表示,然後結合注意力機制來預測編碼的拼接順序,經過一定的算法,可以得到目標語言的譯文。
然而,截止到今天,即便是第三代神經機器翻譯依然無法解決不同語言之間的大段落文檔翻譯問題,尤其對於句型複雜、表意豐富的中文,仍然需要藉助輔助筆譯(人工)最終完成翻譯過程,機器翻譯之路仍然任重而道遠。