每日經濟新聞 2017-09-19 00:05:43
在AI機器翻譯這條賽道上,國內外的科技巨頭都在虎視眈眈,不遺餘力地推進深度學習在機器翻譯領域的研發和應用。而在這場以語音翻譯為突破口的人工智慧技術的較量中,中國的網際網路公司已經佔據了領先地位。
近期獲悉,搜狗語音交互技術中心代表搜狗參加了含金量極高的WMT2017國際評測比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統獲得中英/英中翻譯的雙向冠軍。
能夠識別語音的機器翻譯正在逐漸從實驗室走向普羅大眾,搜狗語音交互中心技術總監陳偉表示,機器翻譯在搜狗輸入法上的語音翻譯、中譯英功能和搜狗同傳已經應用,流量已超過200多萬。可滿足多種移動場景下的實時翻譯需求,為用戶提供「口袋裡的翻譯專家」。而作為搜狗人工智慧重要布局,未來圍繞著語音交互入口,搜狗在更多領域都會有進一步的進展。
搜狗語音翻譯技術邁入世界頂尖
每年的第三季度都是機器學習相關的高端學術會議密集召開的時期,今年也不例外。其中,作為自然語言處理領域高端國際會議之一的EMNLP 2017將於今年9月在丹麥首都哥本哈根舉行。其中,同期召開的第二屆機器翻譯大會(WMT 2017)是機器翻譯領域的國際高端評測比賽之一。
近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以WMT數據集作為實驗數據,並以BLEU評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,當前WMT數據集已經成為機器翻譯領域公認的主流數據集。
從2006年開始到2017年,WMT一共舉辦了12屆機器翻譯比賽,每一屆的角逐,都代表著全球翻譯尖端水準的較量。今年的一大亮點是,WMT首次增設了中文和英文間的新聞數據翻譯任務。
因此,此次獲得雙向冠軍的搜狗機器翻譯,在比賽中表現出的準確率和速度震動了整個業界。這也意味著中國的語音翻譯技術,已經邁入世界最前端的頂尖領域。
在深耕技術的同時,搜狗也在積極推進產品落地,目前機器翻譯技術已經成功應用於搜狗同傳和搜狗輸入法中語音和文本翻譯產品中。其中,搜狗同傳技術於2016 年11月17日在第三屆世界網際網路大會上完成首次演示,目前已經在多場重要會議場中使用,支持了數十場機器同傳演示,輸入法中的語音翻譯和文本翻譯上線以來日均流量已達200萬次。
對於AI技術能夠快速在搜狗生態體系中被落地應用,在陳偉看來,有兩個方面的原因。陳偉表示,目前AI技術逐漸越來越相通,很多方向可以跟翻譯形成很好的交叉,翻譯將會被快速地推起來。而另一方的源於搜狗,搜狗在輸入法的場景下面,積累了有大量的用戶數據,可以快速把數據壁壘做起來,而算法是很難形成壁壘的。
不難看出,搜狗的機器翻譯團隊在自然語言處理和深度學習方面有非常深厚的積累。系統中用到的許多技巧,追本溯源,都有相應的自然語言處理領域的經典方法,同時也緊跟機器翻譯領域的前沿趨勢。
因此,搜狗機器翻譯團隊的獲獎代表著搜狗在人工智慧方面的最新進展,同樣,今年也是搜狗人工智慧技術從前沿科技到走向實用的重要一年。
可滿足多種移動場景下的實時翻譯需求
與谷歌用人工智慧做翻譯「秀肌肉」的方式不同。搜狗是實實在在希望通過翻譯技術把搜索做得更好,將翻譯和搜索做出聯動,應用到各類場景中,形成差異化競爭優勢。
而此前搜狗CEO王小川談及搜狗AI的未來時也指出,語言上是搜狗最需要做的,因為搜狗主業做輸入法和搜索都是和文字信息打交道,而人工智慧真正重要的方向是讓機器做準確決策。
場景中的語音識別最考驗技術的紮實度,用戶最關心的也是語音轉寫準確率。據了解,目前搜狗的語音識別率已達97%,而且在業務層面,搜狗已經接入UTH國際的多語言大數據中心,後者擁有近百億垂直領域高質量語料句對的大數據積累。
而你可能不知道的是,搜狗正在通過翻譯技術,讓華語世界與全世界連接。搜狗輸入法中「語音翻譯」和「文本翻譯」兩個非常強大的翻譯功能,可以幫助你在微信聊天、出國遊玩等各種需要英語的場景下,隨時隨地張口就來,瞬間變身英語達人。
該功能採用了搜狗自研的機器同聲傳譯技術,實現了輸入法與機器翻譯的完美結合,你只需對著手機說中文就可以實時翻譯成英文。而為了保證在各種複雜場景下都能精準翻譯轉寫,搜狗採用了大量的前沿技術,與業內領先的端到端深度神經網絡技術深度整合。
業內認為,機器翻譯是搜狗重點布局的一個方向,也是一個差異化的優勢所在。但搜狗的人工智慧並未止步於此,圍繞著語音交互入口,搜狗在更多領域都會有進一步的進展。目前搜狗技術落地的產品主要包括搜狗輸入法、搜狗同傳、搜狗聽寫等產品。