機器翻譯能解放生產力嗎?

2020-12-12 騰訊網

軟體翻譯並不是新鮮事物,但為何在當下開始有了像「機器翻譯能否代替人工翻譯」這類的話題呢?

我們都知道只有技術革命才能解放生產力。在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。

第一階段是以地球村和東方快車為代表時代,也就是windos95、win98時代,中國剛剛有網際網路的那段時間,地球村以輸入詞為主、東方快車以劃線句子和段落為主。至於翻譯質量我們不做評價,小編只記得這兩款軟體的使用量還是很大的,跨度大概3,4年的時間。之後是以金山詞霸為主,經常被列為裝機必備軟體,也是中國最有生命力的軟體之一。

第二階段是在線翻譯時代,當網絡已成為基建的時候,百度、金山、有道等等軟體也把翻譯當時流量業務或者經營性業務,已經逐步脫離的個人工具的概念。

第三階段為人工智慧時代的開始,重新定義了機器與語言的關係。完全改變了技術呈現結構。尤其是Transformers神經網絡模型的出現和商業實驗性應用,終於讓人們改變了翻譯軟體的只能查單詞、翻譯句子就差強人意的印象。也正是第三階段的出現才有了「機器翻譯」這個新詞、新含義。

科技發展,神經網絡的出現目的是不是代替人工我們不得而知,但機器翻譯就目前來說,是可以當成唯一解決人工大批量文本翻譯的唯一可行性方案。並且技術可預期性,發展性、成熟性都有很大的想像力空間和進步空間。因此就目前階段而言,機器翻譯賦能人工翻譯、輔助人工翻譯可能更為準確。

第一階段、第二階段和第三階段的技術革命到底在哪裡呢?

前兩個階段主要是通過規則編寫和預製格式來進行遍歷性的翻譯,只要出現了規則不匹配的就會出現亂用詞彙的情況出現。如果窮舉的方式必然不是人類語言處理的最優方式。從根上來講語言是對動態的,而基於規則、統計方式的翻譯軟體是靜態的,天然就不具備替代的可能性。

第三階段的革命性也就於神經網絡的問世,同人類一樣具有了一點學習能力和變化能力,都是在相對動態的處理語言規則、表達語言邏輯和含義。既然同宗,那麼剩下的就是解放生產力的時間問題了。

我們也稍微理解下「機器翻譯」概念,原文(人類)-->原文字典碼(機器)-->神經網絡高緯度坐標軸(神經模型)-->譯文字典碼-->譯文(人類)。機器居間理解原文內容轉換機器識別代碼在轉換譯文的過程。這個過程也就是「人工智慧機器翻譯」。過程中神經模型和人類大腦神經模型的差距,也就是解放生產力的時間跨度。就語言表達來講,相同的詞彙在各個領域都有不同含義。

人類的大腦是有限的,不可能把所有的領域都學會、學全;神經網絡模型也是一樣的,必須要根據垂直行業特點來進行單獨學習,避免過擬合現象。泛化太大就會出現「聰明過頭」現象,把其他領域的含義引申到了本領域內。

這也是藍燈魚機器翻譯目前為什麼只注於專利領域引擎的原因

即便如此,我們在訓練一個神經網絡模型也相當吃力,一個模型對機器配置的要求非常高,十幾個高顯存的GPU同時運算基本是保底配置。算機整體的算力,神經網絡的結構上還需要不斷提升,才能追上人腦智商。

神經網絡模型也可以稱為基於知識的翻譯模型,因為神經網絡直接是通過具有邏輯關係詞語、短句進行優選選擇拼接,詞語之間的邏輯關係都具有一定的強關聯性。因此小樣本的平衡語料也可能訓練出一個較為優秀的模型,也可以說神經網絡模型是理解了語料,學習了知識,學會你會的,解放你的生產力。

好的軟體是磨出來的,不是開發出來的,這是一個好產品的基本邏輯。

對於一個翻譯模型,通常影響較大的有3個方面,人工精修平衡語料,越多越好,多到多少呢,2000W不多,5000W不少,1個億對於機器來說也是小意思,能磨好這麼多語料顯然是要下功夫和投入的。另外就是對於神經網絡參數的上千次、萬次的調整以及工程在初始和最後的查缺補漏。磨出來的藍燈魚引擎目前基本達到了翻譯初稿水平,可以說是部分解放了生產力。從版本更新曆程上,在準確性、流暢性正在不斷的提高。

當然革命尚未成功,模型仍需努力。革命道路不會一帆風順,但革命道路一定需要我們大膽嘗試。

藍燈魚模型接下來的嘗試呢?

模型會話研究:通過會話記憶,對同一篇文章內容表達更加統一。

模型符號標記通譯:翻譯後,符號對照更加準確標準。

原文譯文切詞算法:提高翻譯結果的表達流暢性、準確性。

敬請期待!

相關焦點

  • 機器翻譯時代,英語學習的最大障礙是單詞和語法
    其實,解放人類體力的工具,確實是人類智慧在現實中轉換的代表,可以代表進步,是我們人類智慧的應用。可是,解放腦力的工具,真的是好事嗎?語言與電腦,真的可以相提並論嗎?所以,在上面那兩句的翻譯,不過是在做應用題讀題的工作。經過深度理解和推理分析以後,便能理解機器翻譯式閱讀永遠無法企及的潛層信息,上文兩句其實意在表達:1.坊間,普遍將高爾夫、馬術、國際學校與精英教育畫上了等號,實際上精英教育未必與此有關。
  • 機器翻譯什麼時候能取代人工翻譯?知行翻譯公司認為不可能
    機器翻譯是通過計算機將一種自然語言(源語言)轉換成另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。機器翻譯具有很大的實用價值。隨著經濟全球化和網際網路的迅速發展,機器翻譯技術在促進政治、經濟和文化交流方面發揮著越來越重要的作用。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    多虧了機器翻譯這個技術奇蹟,我把這本用西裡爾字母寫成的書的數字版上傳到了一個免費在線翻譯網站,得到了一個英文版本:一個令人驚訝的、不完美的、充斥著語法錯誤的版本,但完全可以看得懂。這就像跟能說兩種語言的9歲孩子一起閱讀。語言障礙正被擊破將人類分隔開來的語言屏障尚未倒塌,但卻正以驚人的速度被擊破,對全球交流、小語種的命運以及商業和外交的未來產生了巨大的影響。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    朋友們,你能看出這三句的原文是什麼嗎?當然,以上純屬網友們尋開心的惡搞。但它也的確體現了翻譯中存在的諸多問題。但還有另一類翻譯災難則純屬技術性災難——因為譯者在翻譯過程中,幾乎只是做了辭典的工作,導致翻譯出來的東西既無語感,又沒有語境。我們都期待著有一天,能有最理性的人工智慧翻譯軟體幫助我們解決語言的障礙,從而做到無礙的全球化交流。不過機器翻譯究竟能做到什麼地步,永遠是讓人質疑的。起碼就今天的技術水平來看,機翻幾乎是最不靠譜的選項。
  • 機器翻譯和人工翻譯,該如何選擇?
    需要發表SCI論文的朋友一定會遇到論文翻譯的問題,如今智能翻譯領域發展迅速,但比起一些優秀的人工翻譯機構,似乎還是略顯不足。那麼究竟該選機器翻譯,還是人工呢?對比於人工翻譯,機器翻譯的主要優勢有兩方面:一是速度快,人工翻譯幾天才能完成的任務,翻譯軟體只需要幾分鐘就能完成,大大提高了文檔翻譯的效率;二是成本低,人工翻譯的收費不便宜,如果需要翻譯的文檔數量較多,價格就更不是個小數目,而目前機器翻譯的收費普遍會低很多。
  • 小語種翻譯人才稀缺 機器翻譯發揮空間較大
    由於機器翻譯具備成本低、翻譯速度快等優點,未來發展前景較好。隨著網際網路大數據的不斷完善,以及經濟全球化,機器翻譯在政治、經濟、文化交流等多方面起到重要作用,因此市場需求持續攀升,行業未來發展潛力巨大。從產業鏈角度來看,機器翻譯上遊為人工智慧晶片、機器翻譯算法以及數據等;中遊為機器翻譯軟體、硬體等產品。
  • 「網際網路+機器翻譯」時代,繼續學習英語的目的是什麼?
    可是,我們別忘了,現在是「網際網路+」時代,「網際網路+」時代,有著強大的英譯漢翻譯機器,如「百度翻譯」,如果你僅僅是「想知道」那句英語的「中文是什麼?」,你根本不需要「懂」英語,直接複製粘貼,一切「不懂」的英語通通搞掂。因此,我們還需要用中文學英語嗎?
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。39支隊伍角逐國際頂級機器翻譯大賽WMT國際機器翻譯大賽(WMT)由國際計算語言學協會 (ACL) 舉辦,是全球學術界公認的國際頂級機器翻譯比賽,也是各大科技公司、頂尖院校與學術機構展示自身機器翻譯實力的較量舞臺
  • 訊飛智能滑鼠成就外語達人 能聽會寫懂翻譯的「神器」
    前段時間有小夥伴問有沒有英語翻譯類網站或軟體推薦,現在職場對外的溝通尤為重要,外語基礎不好的人可能備受「摧殘」。然而,埋頭苦學語言並不是一個好辦法,你應該尋求或者創造更多的方法和途徑,比如使用「能打字會翻譯」的訊飛智能滑鼠Lite幫你。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    微軟亞洲與美國實驗室的研究者稱,其中英新聞機器翻譯系統在常用的新聞報導測試集 newstest 2017 上達到了人類水平。該測試集由來自業界和學界的團隊共同開發,去年秋季在 WMT17 會議上發布。為了保證結果既準確又能達到人類水平,該團隊聘請了外部雙語評估員,他們對比了微軟的結果與兩組獨立翻譯的人類譯文。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。第二部分提供了使用Python創建語言翻譯程序的詳細步驟。機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸
    但到了第三代,也即神經機器翻譯出來以後,大家都能夠看到它翻譯的效果變好了,於是開始有人願意去使用,甚至願意去買單。這時候就有投資人覺得這裡能賺錢,開始往裡投錢。所以簡單來說,近幾年有越來越多的資源投入到機器翻譯這個領域。所以我覺得現在機器翻譯的應用是在往上走的。但有一點是,同樣作為剛需,為什麼機器翻譯的應用,並沒有像語音等領域突然爆發,出現一系列的獨角獸公司?
  • 百度何中軍:機器翻譯——從設想到大規模應用
    話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?
    題圖來自:視覺中國14年到16年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。
  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    具體表現是,在機器翻譯的世界裡,一直無法賦予機器足夠的「靈性」。例如,林則徐虎門銷煙被某度軟體翻譯成了「Lin Zexu sells cigarettes in Humen」 。圖註:筆者後續對百度進行測試時,發現已經是正確翻譯:「Lin Zexu destructed opium at Humen」顯然,機器把「銷」等同於「銷售」。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。機器翻譯作為有效增強全球化信息的能力,通過對文本、圖片、語音、文檔的翻譯,在開拓海外市場、提升客戶體驗、獲取海外洞察、支持公司策略等應用場景下都將為企業賦能。IDC數據顯示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。
  • 百度機器翻譯技術大突破:能預測發言者未來幾秒的內容
    百度機器翻譯技術大突破:能預測發言者未來幾秒的內容 日前,百度官方宣布其機器翻譯技術有大突破,能預測發言者未來幾秒的內容。百度方面表示,類同傳譯員常用的一個技巧就是「合理預測」:在發言人話說到一半時,預測到後半句可能要講的內容,超前翻譯,這樣能使同傳又快又準。百度的工程師們模仿這一點,研發出了「wait-k words」模型,讓機器同傳也擁有了「合理預測」的能力,一定程度上解決了上面所說的「準確度與速度不可兼得」的問題。