人工智慧時代的中文和英文,誰能成為AI的母語?

2021-01-07 猴軍集

人工智慧是當前最熱門的技術,各國都在投入資金和人力進行研究。誰錯過了人工智慧,誰就丟掉了未來。

語言文字在人工智慧中佔有非常重要的地位,它是人和人工智慧交互的工具,人工智慧只有準確理解語言文字才能做出準確應對,才能表現出高智商。今天就談談中文和英文是不是優秀的人工智慧語言,以及未來前景。

一、語音識別

雖然我不想承認,但英文語音識別確實比中文更準確、高效。

英文由26個字母構成,邏輯結構更簡單,發音以字母為基礎,音標和音標區之間區分比較明顯,只要說的不是很快,AI能比較容易、準確識別每一個字母,加上同音單詞比較少,所以英文的語音識別效率領先中文許多。

中文發音則要複雜的多。漢語拼音有23個聲母,6個單韻母,18個複韻母,還有16個整體認讀音節,整套方案共63個發音元素。除此之外,漢語還有四種音調,加上種類繁多的方言,發音不準的話,非常影響AI識別。

AI在進行中文識別的時候,需要先進行發音識別,再根據單詞進行漢字判斷,識別效率低於英文,識別錯誤率也高於英文。

語音識別,英文勝。

二、文字識別

到文字識別環節,我們終於可以揚眉吐氣了,中文文字識別的效率和準確度比英文更勝一籌。

中文有幾個特點,讓AI識別更高效:

1、漢字信息密度高,更少的字數可以承載更多的信息,中文文章永遠比英文短,綜合來看,中文信息密度比英文高37.5%。

2、中文以漢字為單位,可以靈活排列,橫豎都可以,而英文是線性文字,只能橫排,豎排、錯亂排列的識別效率會驟降!

3、漢字獨立表意能力強。比如「他去吃早飯」,你看一個字就能多明白一個字的意思。而英文「He went to have breakfast」,你即使看到「have」這個詞,你依然不明大概的意思,只有到「breakfast」你才知道原來have是吃,went to是去,整句是去吃早飯。英文表意比較依賴「短語」,甚至整句,不看完整句話,你往往不能知道句意。這就給AI識別造成了難度,因為AI跳躍識別能力較差。

文字識別,中文勝。

三、同音字詞

中文發展人工智慧最大障礙就是同音字詞現象!比如,他姓zhang,到底是「張」還是「章」呢?如果是口語的話,還要補一句弓長張,或立早章。中文裡有多少同音字、同音詞,很難準確的統計。同音字詞也是英語使用者攻擊中文表意不清最大的藉口。

英語雖然也有同音字,如right正確的、write寫字;meet遇見、meat 肉;hole 洞穴、whole 全部的;pear梨子、pair雙;flower花、flour麵粉等,但英語同音字詞數量遠比中文同音詞數量少。英語是通過造更多單詞的方法,來減少同音詞現象的。

AI現在不能準確處理多音字,出錯在所難免。難道為了AI準確,人類只能通過語言文字改革消滅多音字詞?這工程也太大了,人類也很難適應這麼大的改革!

同音字詞,英文勝。

四、多義字詞

一詞多義,是每種成熟語言都難免的,世間萬事萬物這麼多,情感這複雜,如果每個詞彙只表達一個準確的意思,那幾百萬字詞都收不住。無論是中文還是英文,一個字詞不會只表達一個意思,通常有很多意思,有時候區別還很大!

比如「close」,其意思非常多:關閉、合攏、合上、不開放、(使)關門、關閉(一段時間)、結束、終結、接近、幾乎(處於某種狀態)、可能(快要做某事)、親密的、密切的、接近、靠近、不遠地、死胡同、斷頭路、大教堂所屬的周圍場地及建築物等。

現在人工智通過上下文識別詞義的能力還比較弱,遇到多義詞的時候經常出錯,這也是人工智慧發展的難關。

多義字詞,中文和英文彼此彼此。

五、整段識別

讓人工智慧翻譯一個短句,一句話,其實沒多大意義,實用價值也不高,只有具備整段文字識別,才有實用價值。讓我們以中英文互譯來考察AI對中文和英文的識別能力了!

原文如下:

"Things that trend in these two countries are insanely different. For example: knowledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this was wild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), whereas in theUS, it seems that it's mostly teenagers who are creating the dances," she wrote.她寫道:「這兩個國家的趨勢截然不同,比如:知識性內容在中國很流行,但在美國稍差一些。而且,這一點對我來說很瘋狂:中國最喜歡拍舞蹈視頻的是60後(!!),但在美國,好像是年輕人最喜歡拍舞蹈視頻。」

AI將「英文原文」翻譯成中文如下:

「這兩個國家的趨勢截然不同。例如:以知識為基礎的內容在中國非常受歡迎,而在美國卻很少。此外,這對我來說很瘋狂:在中國製作舞蹈視頻最多的創作者是 她出生於60年代(!!)的用戶,而在美國,似乎是大多數年輕人在創作舞蹈。」她寫道。

有一句失真比較嚴重:「在中國製作舞蹈視頻最多的創作者是 她出生於60年代(!!)的用戶。」

這句話的英文原文是: 「those creators that did the most dance videos in China are users born in the 60s 」。這是一句英語長句,詞序比較複雜,又夾雜了亂七八糟的介詞,導致人工智慧的大腦錯亂,沒能準確識別!

這個英文識別錯誤很有典型性,暴露了英文在語法上、詞序上太過複雜的弊端。如果是翻譯更複雜的英語長句,AI將束手無策!這也是每個表音文字的弱點!

AI將「中文原文」翻譯成英文如下:

"The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most," she wrote.

中文翻譯非常精準,和原文在表意上幾乎沒有任何差別,如實還原了原文的意思!可見,在整段話、整篇文章的識別上,中文比英文更有優勢!

中文是由一個個漢字構成,長句很少,語法簡單,詞序簡單,在語句結構上比線性的英語簡單的多,更有利於AI識別。

六、誰才是人工智慧的未來?

在人工智慧領域,英文勝在口語,中文勝在書面語,各有所長,誰能成為AI的母語還言之過早。但在比較複雜的內容表達上,AI對中文的識別領先英文,所以我更看好中文的未來。

城市、經濟、科技、地理、人文,歡迎關注猴軍集!

相關焦點

  • 中文和英文,誰會成為未來引領國際社會的語言文字?
    中文和英文,是目前世界上影響最大的兩種語言文字。中文是世界上使用人數最多的語言文字,全世界使用中文的人數,最少也在16億以上。英語作為官方語言的人口超過10億,有73個國家作為官方語言。從說英語國家的疆域來說,無疑是第一位的。從說英語國家的經濟來說,也是第一位的。
  • 中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?
    人類文化距離人工智慧資訊時代基本上只差一些技術上的完善了,在人們對於以後的生活學習環境裡,可能處處都會充斥著人工智慧,正如我們可以看到的科幻電影那般,人們的生活方式將會非常便利,且充滿中國科技感。如今,我們一般可以接觸到的人工智慧無疑是幾乎所有智慧型手機都附帶的語音功能。
  • 余光中|中文和英文
    中文和英文,是我們每天都要使用的兩種語文。中文不用說,我們都是中國人,這是我們的母語,每天都要用的。英文呢,現在也越來越實用了。英國在政治上走下坡路了,大英帝國早已解體,甚至於聯合王國也有點問題。可是很奇怪地,英文卻如此流行,簡直要變成一種世界通用的語言。這是一個很有趣的現象。可見,政治是經常變遷的,可是文化,像語言這種東西,卻能夠持久。
  • 中文漢字將成為這個時代的世界語
    對於英語母語者,這種美好可以成立,亦是美好的特權,他們在世界面前可以始終保持解釋權。對於非英語母語者,且不論英語學習難易,即使能基本運用,稍有不慎也可能掉入蘇亞雷斯式超現實電影劇本,犯下莫須有的文化罪。一些人充滿美好期待,另一些人面臨諸多困難。任何一種民族語言擔任國際通用語,都會出現同類問題。
  • 重建英文發音體系——成人時代的英語口語學習
    這期NEJM沒什麼和神經科相關的,發個英語口語學習心得吧。其實已經寫好一段時間了。
  • 《當人工智慧考上名校》:認識人工智慧,擁抱AI時代
    隨著人工智慧的發展,各大名校紛紛設立了人工智慧專業,學霸總是選擇那些比較比較有前景的行業。當人工智慧成為我們生活中必須面對的一個名詞,已經也會在我們的生命和生活中扮演著重要的角色,未來的我們,要如何擁抱這個AI當道的社會?
  • 人工智慧搶飯碗的時代, 孩子們該如何學英語?
    人工智慧時代,僅僅是基於溝通的語言學習已經沒有必要了,但是學習一門語言背後的邏輯則更為重要。在未來二三十年,相信無論多聰明的機器人,也無法依據一個國家的文化和溝通方式,主動形成語言運用的邏輯思考。那麼我們今天要討論的就是孩子們到底該如何學英語了?
  • 人工智慧AI愛編程培養班成果豐碩!
    為順應新一代信息技術趨勢下的人才培養,在專業升級與數位化改造的現實背景下,在以人工智慧為技術路徑的數字經濟時代,使職業教育更好適應數字經濟、服務數字經濟,為國家經濟與社會發展服務,在學校領導的設計與規劃下,由計算機學院主辦的人工智慧AI愛編程培養班在全校範圍內掀起了一股學習人工智慧新技術和探索Python編程的新風尚!
  • 人工智慧與英文閱讀
    32.8%增長到58.1%,提高了25.3百分點;可以說數字閱讀成為趨勢將勢不可擋。是年,國家十二五計劃重點研究課題「中小學生英文閱讀標準研製」這隻鞋子也終於落地,可以預計在不久的將來,英文閱讀將會成為中小學英語課改的重要方向。出國不出國的家長再也不用糾結了,不管在哪,你的閱讀水平不論是從學術素質還是從應試能力上,是你唯一不需要東張西望的必會技能。
  • 母語和英語誰更重要?娜扎MAMA韓國盛典頒獎說英文被群潮?
    一經亮相瞬間成為焦點,觀眾高呼簡直仙女下凡!豔壓韓國藝人!不僅這樣娜扎在韓媒鏡頭表現也非常優秀,氣質優雅的狀態、清透乾淨的妝容,無論是靜態還是動態,360度無死角。所以韓國網友也是對娜扎大放「彩虹屁」。但是這豔壓群芳的顏值也沒能抵不住「塑料英語」的尷尬!
  • AI賦能一切的時代 人工智慧將會開啟一個新的教育時代
    AI賦能一切的時代 人工智慧將會開啟一個新的教育時代 電子發燒友 發表於 2018-11-29 14:27:24 圍繞教育的創新創業熱度一直不減,機會不斷湧出。這其中,某些網際網路大佬已經默默深耕多時。
  • 看TDGo如何助力品牌方 180ai成為智能化數字營銷時代的先鋒
    2018年4月,180.ai攜首款重量級產品TDGo 以「三五生態模式」解密人工智慧數字營銷應用:TDGo三大產品優勢人工智慧技術驅動的TDGo平臺,使程序化投放更精準在程序化投放中,TDGo智能平臺幫助企業在程序化PDB投放中進行多數據源聯合判別,採用先進的人工智慧機器學習方法,全局優化和局部優化相結合,根據歷史和實時的投放數據,做到人群標籤,跨媒體頻次控制等多維度實時聯合優化,更精準地鎖定目標人群。
  • 人工智慧搶飯碗的時代, 孩子該如何學英語?
    試想這樣的場景,一個完全不懂英文的中國人和一個完全不懂中文的老美相遇,他們交談甚歡,原因是都攜帶了一個特別的裝置,這個裝置能讓說中文的一方還是繼續說中文,而且聽到的回應也是中文,說英文的一方繼續說英文,聽到的回應也是英文。只要語音識別、解析、翻譯這幾個功能足夠強大,雙方的交流基本是沒問題的。這個裝置就相當於第一層次裡的那個解決聽說讀寫問題的工具,我相信實現起來不會太久。
  • AI人工智慧竟能給作文打分
    科大訊飛AI人工智慧:機器人能給學生評閱試卷  隨著人工智慧時代的到來,越來越強的科技正在影響著市民生活的方方面面。  在科大訊飛展廳內,AI人工智慧就展現了與教育、汽車、醫療等行業的「親密合作」。「這個教育機器人除了能夠評閱一名中學生的數學試卷,還能給他的中文、英文作文打分。」科大訊飛相關工作人員說。
  • 中文、英文,哪個更重要?
    有了一個概念以後,關於母語與外語學習之間的關係問題越來越多的進入了眼底。原來有那麼多專家、老師、家長,都認為母語決定思維深度,母語水平成為限制外語學習潛力的天花板。我們一直覺得瓜哥(小學二年級)中文差,起步晚沒下勁,可是他能跟上新聞聯播,個別詞解釋一下就行。母語和外語,不是一個量級,不能同日而語。 李光耀認為中英文雙母語是不可能的,只能有一種母語。
  • 不用學英文了嗎?中文正挑戰英語的全球霸主地位!
    全球因手機、人工智慧、各種翻譯軟體和「混合語言」的出現,英文在國際中的地位已不像以前那麼重要了。現在英語還是全球最多人選擇的第二語言,同地「混合語」也一同出現。這個混合語是指在美國有很多來自不同國家、地區的人,會混合自己或者家人的語言與英語結合,比如印度式英語等。
  • 人工智慧(AI)同行評審的時代來了
    如今,人工智慧的出現有望改善同行評審這一過程,提高文章質量並節省評審時間。有一部分學術出版商已經在嘗試使用 AI 來幫助他們完成一些事情,例如選擇評審學者、統計和核查數據準確率、總結文章的新發現。今年 6 月,總部位於阿姆斯特丹的出版業巨頭愛思唯爾旗下的同行評審管理系統 Aries Systems 採用了一款名為 StatReviewer 的軟體,用於檢查來稿中的統計數據和方法是否真實可信。
  • 怎樣才能入門讀懂社會學英文原著?從翻譯碩士論文破解「母語幹擾」
    有一個原因,叫「母語幹擾」。 原義是指讀英文時,常常用平調(基於漢語習慣),但英文本身是高低錯差(有重音、意群、升降調等)。反過來,就像老外說中文,老是語調很怪,其實是他們的母語幹擾了他們說中文(這是我的碩士導師萬毓澤教我的,他是臺大外文系畢業,會9種語言,已經在youtube上傳了這個問題的視頻)。
  • 人工智慧搶佔電子商務行業新高地
    樂拼共識科技有限公司提供行業電商運營整體服務解決方案,整合行業應用大數據、社群人工智慧技術,在智慧機器人STEM教育、智慧養老等行業,成為國內領先的技術平臺運營服務商,並在北京與杭州設有運營中心。薄言(RSVP.ai)在2013年創立於深度學習發源地加拿大,先後在加拿大滑鐵盧、中國寧波和北京深圳設立研發和應用方案中心,探索實際應用場景的商業化落地解決方案。
  • 人工智慧替代人工翻譯 機器翻譯世界盃誰能贏
    人工智慧時代的百家爭鳴,產品體驗決定一切隨著國際化的進一步加深,人們對於不同語種間的溝通需求也愈發迫切,傳統的人工翻譯行業,或許要受到一次史無前例的挑戰。Google、Facebook、微軟、騰訊、阿里巴巴、搜狗,都不願錯過這一場人工智慧的歷史進程。各大科技巨頭公司的市場角逐中,產品體驗上的易用性,成為了當下評價機器翻譯產品的最好指標。