對於不是英語或特定語種專業出生的普通大眾而言,一篇無一丁點母語的長篇大論甩你面前時,首先想到的是谷歌翻譯,百度翻譯,然後翻出的句子連不起來啊,還是不懂,接著瞬間滿臉蒙嗶了是不是?
如今得益於人工智慧、深度神經網絡學習、大數據等的快速發展,翻譯已逐漸被顛覆。機器翻譯能模仿人腦「理解語言,生成譯文」。
其準確度、流暢度都得到大幅提高,甚至達到「譯文流暢,符合語法規範,易於理解」的狀態。再拿到一篇陌生語種的文章時,不會出現看不懂的情形。
所以,「未來人工智慧解決語言障礙就像水電一樣去融入人們的生活,成為生活的一部分,甚至感覺不到它的存在」,Atman的創始人兼CEO馬磊這樣對創業邦(微信搜索:ichuangyebang)說。
Atman是國內少有關注機器翻譯並追求自動化的一家創業公司,2016年6月18日正式運營,目前已獲得北極光天使輪投資。
十年機器學習經驗,兩進兩出微軟,後創辦Atman
在網際網路圈做算法的「攻城獅」們是令人佩服的,他們身上也擁有了典型的理科男特質:簡單、淳樸。初次見到馬磊就是這樣,談話間不會用過多華麗的辭藻形容自己的公司,自己的團隊。一個多小時的採訪基本被十年多的工作內容和對行業激情佔滿。
馬磊,清華大學計算機系畢業,曾在微軟研究院和微軟搜索中心供職過,在後者擔任Cortana及相關產品構架師,專長是機器學習。曾完整撰寫過語音識別、統計機器翻譯(SMT)的解碼器(Decoder)代碼。有豐富的Bing搜索的海量數據做傳統和深度機器學習的經驗。
第一次離開微軟是為了創業,也就是10年前出來做基於內容搜索的在線教育,當時的他想,一個工程背景很強、對算法清楚的人,不會跨越不了研究、產品運營推廣等這些階段,但事實證明,還真沒跨越過去。
再次回到微軟後,馬磊吸取創業教訓,來到工程院搜索技術中心,在產品部門待了三年多,潛心學習。也是在這期間,認識了如今一起創業的團隊成員,他們之間對彼此的品質了如指掌。
這其中就有Atman的CTO劉煒,畢業於北大電子系,擅長工程實作和團隊管理,思維穩定細緻。馬磊告訴創業邦(微信搜索:ichuangyebang),「其實一開始劉煒是不願意創業的,被我天天澆水,有天開花了就出來一起幹了」。
第二次離開微軟後,馬磊創辦了Atman,已經有著10多年的機器學習經驗,帶著微軟的文化基因,對二次創業可以說做了充分的準備。
Atman的核心:解決翻譯的流暢度
生活中我們所熟知的好點的翻譯工具無非是谷歌翻譯、百度翻譯,但當你使用的時候,會發現一個問題:即便你有一定的語言知識,這類工具翻譯出的句子依然是晦澀難懂的。它需要我們對句子重新進行組合,以便符合人類的感知行為。這其實超過50%的工作需要我們自己完成。
更別說一些專業領域,比如醫藥、法律等,都是人工在翻譯,因為目前不存在機器翻譯可以勝任這樣一份工作。
所以,不同於這些做廣譜翻譯的大公司,Atman的翻譯平臺目的在於打通翻譯的障礙,平臺不分語言,只要有數據,機器就能自己學習。機器從0開始進入一個領域(零成本進入)也只需要2周時間。所以,進入哪個領域都能高度垂直的做下去。
比如,財經類文章翻譯,世界好的財經網站的文章總和不超過1000萬篇,讓機器學習一遍這些文章,就可以保證財經類文章的翻譯有95%的流暢度,而且能做到實時同步。而這一過程,機器模型自身也會變得越來越好。
馬磊很開心地表示,你以前用谷歌的翻譯,能把人工降到50%(可能還沒一半),加入我們平臺後降到10%,不用再疲憊地去看網頁翻譯,閱讀的心情都不是一個量級的。
當然,他也坦言,「我們期望人儘量少去對翻譯出的文章進行編輯,但現在完全取代人還不可能,畢竟人類的感情、情緒、隱喻的東西對機器而言還是有難度的,但未來應該可以解決」。
所以,在馬磊眼裡人工智慧時代,商業模式是會被顛覆的。
目前,Atman針對C端用戶有一個「量子鏡」項目計劃。目標是精選國內用戶會感興趣的國外高質量內容網站,通過機器翻譯技術,提供翻譯後的中文內容給國內用戶閱讀(按照目前單機的翻譯速度,鏡像一個百萬文章級別的內容網站,需要一個月左右時間)。
而對於B端用戶:機器翻譯主要對某個垂直領域進行翻譯。另外,接下來幾個月計劃開發智能的CAT軟體,以輔助B端客戶做最終的人工校對。
為什麼是Atman而不是巨頭在做這件事
世界上能寫成文字的語言大概有300多種,它們就像網際網路裡面的一個大群,這些群目前還沒有溝通,相當於信息孤島(語言障礙)。而機器翻譯能把信息孤島連接起來,之後整個世界就可以像微信朋友圈那樣了。
而10年前,一家公司流暢性地翻譯全世界的語言,有人感想但做不到。因為根本沒有技術基礎可以進行突破。
如今,人工智慧的快速發展讓這一想法得以實現,但世界的公司都處於這樣優越的條件,包括很多世界級的巨頭,為什麼偏偏是Atman這樣的創業公司先發制人?
首先:團隊,人才沒有區別,但從項目投入的人力資源上反而比大公司好,因為大公司審批機制比較落後。
第二:項目進度,立完項目,創業團隊所有人精力都會搭在這個項目上,單點項目上絕對人數比大公司多。
第三:馬磊認為創業公司狼性文化更強,這點很重要
第四:資金投入,大公司關注所有項目,單點的投資就不如創業公司。
但馬坦言,像Atman這樣的創業公司在方向性上的風險更大,對於大公司而言,無非白投了。而對於創業公司,可能意味著人員重組或者更嚴格的變動等。
但不管怎樣,馬磊告訴創業邦(微信搜索:ichuangyebang),「至少從技術角度,在垂直領域翻譯這塊Atman是第一梯隊的」。
BLEU評分也證明了這一點:
(政治領域的機器翻譯和主要翻譯服務提供商的評分)
註:BLEU評分是國際上通用的客觀評測機器翻譯質量的指標。