3月3日,微信強大的翻譯引擎突然翻車,將網友們的各種奇葩英語翻譯原汁原味的翻譯了出來,絲毫沒有違和感。
目前騰訊微信團隊回應:「由於引擎在翻譯英文時將一些沒有經過訓練的詞彙進行誤翻,導致翻譯出現問題,已在緊急修復中。」
從圖片中不難看出,翻譯引擎的失誤是將這些口語化的詞彙進行翻譯而造成的,而這些詞彙則是翻譯引擎自我學習的結果,其中相當一部分數據應該都是翻譯引擎通過接口從網絡上獲取人們經常提到的高頻詞彙分析得出的。
趁著這個機會,我們不如就來深入了解一下這個突然「智障」的翻譯引擎的人工智慧學習過程。
在這裡要指出的是,翻譯引擎分為兩種,一種是傳統的統計機器翻譯,另一種是更為準確的神經機器翻譯。
首先,當我們要創造一個新事物的時候,需要給這個事物定下一條條或簡單或複雜的規則,這樣才能讓這個事物有規律、有方向的發展起來。
比如英語的構成分為連個部分,單詞和語法。如果我們想要用單詞精準的表達出想要表達的意思,就要在有一定程度的詞彙量以後用正確的語法來把單詞進行排序,這樣才能夠正確的表達我們的意思。所以,如果希望人工智慧來進行翻譯的工作,就需要先教會給翻譯引擎語法規則,然後讓它根據語法規則來進行翻譯。
但這件事情的難點出在:「如何教會人工智慧正確的英語語法。「難道要我們像教人類一樣言傳身教嗎?當然不是,人工智慧的理解方式和人類是不一樣的。而且除了固定的語法外,在使用英語的過程中還會碰到許多和常規語法有異的句子出現,在這種情況下如果死板的用常規語法進行翻譯就會有詞不達意的情況發生。
機器學習的首要條件之一是數據,我們需要提供足夠多的數據來工人工智慧進行分析,然後讓它總結出一套邏輯供自己使用。而翻譯引擎也是這樣,我們首先要取得大量的文檔數據提供給翻譯引擎,然後再讓它分析文檔中的規則。
但是,因為神經機器翻譯的複雜性而導致出現了一個困擾了工程師們很長時間的問題——要怎麼樣才能深入了解複雜而龐大的機器神經網絡。
不管一個人工智慧再怎麼高級,在最基層的部分還是又無數的「0「和」1「構成的,在神經網絡中做出進行可視化的視圖是很困難的,這被成為神經機器翻譯的」黑箱子「。這裡我們只能通過幾張簡單的圖片來模擬一下翻譯引擎進行翻譯的正確和錯誤的翻譯過程(顏色越深代表相關性越強)。
像這樣,如果能把翻譯的過程進行可視化,就能給工程師們提供出對翻譯引擎進行性能調優的有效數據,幫助他們理解人工智慧的學習模式,從而提高翻譯的精準度和效率。
最後,對於人工智慧的存在您有什麼看法?不妨留下評論進行探討。