人工智慧時代的中文和英文,誰能成為AI的母語?

2020-12-03 猴軍集

人工智慧是當前最熱門的技術,各國都在投入資金和人力進行研究。誰錯過了人工智慧,誰就丟掉了未來。

語言文字在人工智慧中佔有非常重要的地位,它是人和人工智慧交互的工具,人工智慧只有準確理解語言文字才能做出準確應對,才能表現出高智商。今天就談談中文和英文是不是優秀的人工智慧語言,以及未來前景。

一、語音識別

雖然我不想承認,但英文語音識別確實比中文更準確、高效。

英文由26個字母構成,邏輯結構更簡單,發音以字母為基礎,音標和音標區之間區分比較明顯,只要說的不是很快,AI能比較容易、準確識別每一個字母,加上同音單詞比較少,所以英文的語音識別效率領先中文許多。

中文發音則要複雜的多。漢語拼音有23個聲母,6個單韻母,18個複韻母,還有16個整體認讀音節,整套方案共63個發音元素。除此之外,漢語還有四種音調,加上種類繁多的方言,發音不準的話,非常影響AI識別。

AI在進行中文識別的時候,需要先進行發音識別,再根據單詞進行漢字判斷,識別效率低於英文,識別錯誤率也高於英文。

語音識別,英文勝。

二、文字識別

到文字識別環節,我們終於可以揚眉吐氣了,中文文字識別的效率和準確度比英文更勝一籌。

中文有幾個特點,讓AI識別更高效:

1、漢字信息密度高,更少的字數可以承載更多的信息,中文文章永遠比英文短,綜合來看,中文信息密度比英文高37.5%。

2、中文以漢字為單位,可以靈活排列,橫豎都可以,而英文是線性文字,只能橫排,豎排、錯亂排列的識別效率會驟降!

3、漢字獨立表意能力強。比如「他去吃早飯」,你看一個字就能多明白一個字的意思。而英文「He went to have breakfast」,你即使看到「have」這個詞,你依然不明大概的意思,只有到「breakfast」你才知道原來have是吃,went to是去,整句是去吃早飯。英文表意比較依賴「短語」,甚至整句,不看完整句話,你往往不能知道句意。這就給AI識別造成了難度,因為AI跳躍識別能力較差。

文字識別,中文勝。

三、同音字詞

中文發展人工智慧最大障礙就是同音字詞現象!比如,他姓zhang,到底是「張」還是「章」呢?如果是口語的話,還要補一句弓長張,或立早章。中文裡有多少同音字、同音詞,很難準確的統計。同音字詞也是英語使用者攻擊中文表意不清最大的藉口。

英語雖然也有同音字,如right正確的、write寫字;meet遇見、meat 肉;hole 洞穴、whole 全部的;pear梨子、pair雙;flower花、flour麵粉等,但英語同音字詞數量遠比中文同音詞數量少。英語是通過造更多單詞的方法,來減少同音詞現象的。

AI現在不能準確處理多音字,出錯在所難免。難道為了AI準確,人類只能通過語言文字改革消滅多音字詞?這工程也太大了,人類也很難適應這麼大的改革!

同音字詞,英文勝。

四、多義字詞

一詞多義,是每種成熟語言都難免的,世間萬事萬物這麼多,情感這複雜,如果每個詞彙只表達一個準確的意思,那幾百萬字詞都收不住。無論是中文還是英文,一個字詞不會只表達一個意思,通常有很多意思,有時候區別還很大!

比如「close」,其意思非常多:關閉、合攏、合上、不開放、(使)關門、關閉(一段時間)、結束、終結、接近、幾乎(處於某種狀態)、可能(快要做某事)、親密的、密切的、接近、靠近、不遠地、死胡同、斷頭路、大教堂所屬的周圍場地及建築物等。

現在人工智通過上下文識別詞義的能力還比較弱,遇到多義詞的時候經常出錯,這也是人工智慧發展的難關。

多義字詞,中文和英文彼此彼此。

五、整段識別

讓人工智慧翻譯一個短句,一句話,其實沒多大意義,實用價值也不高,只有具備整段文字識別,才有實用價值。讓我們以中英文互譯來考察AI對中文和英文的識別能力了!

原文如下:

"Things that trend in these two countries are insanely different. For example: knowledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this was wild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), whereas in theUS, it seems that it's mostly teenagers who are creating the dances," she wrote.她寫道:「這兩個國家的趨勢截然不同,比如:知識性內容在中國很流行,但在美國稍差一些。而且,這一點對我來說很瘋狂:中國最喜歡拍舞蹈視頻的是60後(!!),但在美國,好像是年輕人最喜歡拍舞蹈視頻。」

AI將「英文原文」翻譯成中文如下:

「這兩個國家的趨勢截然不同。例如:以知識為基礎的內容在中國非常受歡迎,而在美國卻很少。此外,這對我來說很瘋狂:在中國製作舞蹈視頻最多的創作者是 她出生於60年代(!!)的用戶,而在美國,似乎是大多數年輕人在創作舞蹈。」她寫道。

有一句失真比較嚴重:「在中國製作舞蹈視頻最多的創作者是 她出生於60年代(!!)的用戶。」

這句話的英文原文是: 「those creators that did the most dance videos in China are users born in the 60s 」。這是一句英語長句,詞序比較複雜,又夾雜了亂七八糟的介詞,導致人工智慧的大腦錯亂,沒能準確識別!

這個英文識別錯誤很有典型性,暴露了英文在語法上、詞序上太過複雜的弊端。如果是翻譯更複雜的英語長句,AI將束手無策!這也是每個表音文字的弱點!

AI將「中文原文」翻譯成英文如下:

"The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most," she wrote.

中文翻譯非常精準,和原文在表意上幾乎沒有任何差別,如實還原了原文的意思!可見,在整段話、整篇文章的識別上,中文比英文更有優勢!

中文是由一個個漢字構成,長句很少,語法簡單,詞序簡單,在語句結構上比線性的英語簡單的多,更有利於AI識別。

六、誰才是人工智慧的未來?

在人工智慧領域,英文勝在口語,中文勝在書面語,各有所長,誰能成為AI的母語還言之過早。但在比較複雜的內容表達上,AI對中文的識別領先英文,所以我更看好中文的未來。

城市、經濟、科技、地理、人文,歡迎關注猴軍集!

相關焦點

  • 中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?
    人類文化距離人工智慧資訊時代基本上只差一些技術上的完善了,在人們對於以後的生活學習環境裡,可能處處都會充斥著人工智慧,正如我們可以看到的科幻電影那般,人們的生活方式將會非常便利,且充滿中國科技感。如今,我們一般可以接觸到的人工智慧無疑是幾乎所有智慧型手機都附帶的語音功能。
  • 如何打造雙語大腦,讓英語成為「第二母語」?
    回歸課堂的馬雲,也曾談到讓英語成為孩子第二母語的本質——是對他國文化的理解。那怎樣才能讓孩子輕鬆地學好英文?並且讓英語成為孩子的第二母語呢?Make Our Children Bilingual抓住孩子『唯一』的語言黃金期●什麼?原來啞巴英語是大腦造成的?
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 沒有母語背景,自然拼讀真的靠譜嗎?
    說起英語學習裡的自然拼讀,腦中浮現的場景,能像拼音一樣輕鬆的,見詞會讀,聽音會寫,。(仿佛讀英文書就像看注音讀物,配合讀音就可以就萬事大吉。)和學習母語一樣輕鬆學習英文,聽起來像是一幅完美的學習場景。想像是美好,現實卻想暈倒。
  • 誰撩了我們?從霍金和賈伯斯到人工智慧和區塊鏈
    對於他們,我們從來不會吝嗇最美的詞語,或許只有他們,才能真正刺激到我們已經沉寂和世故的內心。唐詩宋詞元曲,每個時代都會有特有的印記,霍金和賈伯斯以及傑克遜的離去,讓我們更加害怕,這代人失去了標籤屬於自己時代的想像力和創造力,即便還有馬斯克,但是世界還是缺少了顏色,宇宙還能超越認知的極限嗎?蘋果能不能再帶給我們驚喜?誰的音樂還能撩動我們?
  • 在AIScratch中如何把中文翻譯成英文
    瀏覽器版本過低,暫不支持視頻播放在AIScratch中我們可以利用人工智慧的功能進行文字翻譯,文字翻譯是將各個國家的文字相互轉換的工具,系統目前支持15種語言文字的相互轉換,下面給大家演示一下在AIScratch中如何把中文翻譯成英文。
  • 智慧口袋English-Time:沒有母語環境,該如何培養孩子的英語母語思維?
    將中文翻譯成英文會拖慢學習英語的進程。作為非英語母語者,我們在使用英語的過程中,無論在紙面上還是腦子裡,都習慣去做"翻譯"。形成英語母語思維的關鍵是能夠形成本能和條件發射,不需要藉助中文進行表達。可是我們知道還有很多詞彙是無法用實物和圖片來表達的。比如混亂、露營等,如果是成人,我們可以用講解的方法來讓學生明白。
  • 人工智慧時代還要費勁學各種外語嗎?
    最近,家長群和育兒論壇有些家長躍躍欲試,想在英語之外給孩子多學一門外語。隨著人工智慧時代到來,也有人質疑:機器翻譯是否會取代人工翻譯?如今是否還有必要費勁學好外語?面對人工智慧時代是否還需學好外語的質疑聲,上外附中校長束定芳認為,人工智慧時代應重新思考的是,為什麼要進行外語教育。即使機器可以自動翻譯相關內容,但外語教育仍不可缺少。「當機器翻譯的能力越來越強大,外語教育的目的不僅要讓學生掌握一種交流工具,還包括認知和思維能力的發展。外語教育應成為人的思維能力、認知能力教育的重要組成部分。」在他看來,「雙語並行」的教學模式有助於拓展學生國際視野,提升思維能力。
  • 未來科技的發展,人工智慧還是熱點嗎?AI的意義是什麼呢?
    【文|鴻語 編輯|柯文】未來的科技的趨勢和熱點是什麼呢?當然人工智慧榜上有名,ai的意義個人認為是人類在已有知識用計算機智能算法去重複演練的的一個過程。無論是簡單還是複雜的事情,人類選擇讓ai去做的事情都是人類已經反覆實驗反覆測試過的,能讓人類去做更有意義的事情,人類的文明也將進入一個新時代。ai天然屬性是量子意識數位化虛擬化認知,唯一性決定,自打我們人類有了智力以來,以後我們人類將不用工作,不用學習,甚至不用思考,人工智慧都幫我們解決了,我們只要快樂的活著直至永遠,也就是永生。
  • 換個角度看AI:追溯人工智慧研究的歷史和哲學邏輯
    「我們日後成為什麼樣的人主要取決於父輩們在不經意間的教導,除此之外,我們由零零碎碎的智慧所塑造。」  ——Umberto Eco  本文接下來的內容將討論AI的發展史,包括一些重要人物所提出的相關問題、論證和看法。其中涉及的事件大部分都發生在20世紀60年代左右,同時期,也逐漸形成了AI的正式定義、發展目標、科研群體與反對者等。
  • AI「英文教師」進駐日本課堂,國民卻「不買帳」
    例如,他們可以檢查學生們的英文發音,而這是老師們很難做到的。「一位未透露姓名的國際教育主管講道。AI機器人「是試驗中的一例,我們也在準備其他的計劃」,例如使用移動端app與英語母語的講者展開課程。2020年東京奧運會期間預計將有大批外國遊客湧入日本,日本政府嘗試在此之前提高國民英文水平。對這樣的計劃,日本的國民並沒有作出樂觀的反應。大多數人表現出的是對AI技術進入課堂的無奈和對計劃合理性的質疑。
  • 重塑華東:中文和英文無高低之分,只是個人覺得英文更適合搖滾!
    本期《樂隊我做東》邀請了重塑樂隊和maderine樂隊一起吃飯,大家聊得很開心!因為華東的不苟言笑的嚴肅勁,連帶著他們的音樂也是非常嚴謹的感覺!華東在《樂隊的夏天》上的很多言辭,被網友在抖音、微博等網絡平臺上傳播!有些人覺得他很酷,有些人覺得他很裝!
  • 當漢字筆畫邂逅英文字母 「漢字慧」讓老外也能輕鬆掌握中文
    封面新聞記者 楊渝 實習生 李茂佳致力於讓外國人用母語輕鬆掌握中文,通過解構漢字筆畫、筆順,類比字母形態等方式,把每個漢字的筆畫轉換為與之高度相似的英文字母。「每個漢字都能解構重組為英文字母的組合。這樣一來,對於從小接觸英文字母的人群來說,學習漢語就容易得多。」重慶字曌教育科技有限公司董事長高曉明介紹,經歷十餘年時間,「漢字慧」現已成功解構了8105個漢字,基本涵蓋了日常高頻用字。用傳統方式書寫漢字,平均每個漢字13畫;而將漢字解構為英文字母,平均每個漢字只需4.8個字母。
  • AI:人工智慧
    AI  英文全稱:Artificial Intelligence,中文解釋:人工智慧。模型研究模擬是研究和發展模擬的理論、方法、技術和應用的一門新興技術科學。擴展人類智能你知道AI?人工智慧是計算機科學的一個分支,它試圖理解智能的本質,並製造出一種新的智能機器,以類似於人類智能的方式作出反應。
  • 為什麼系統編程全都用英文而不用中文?聽完專家的解釋恍然大悟
    英語由於簡單,所佔字符少,不存在全形和半角的問題,而且在鍵盤輸入操作的效率也比中文要高很多,所以系統編程用英文也成為了主流。事實上,中文也是可以用來編程的,比如我們知道的易語言就是中文程式語言,可惜它的發展卻非常慢,還是無法跟英文編程相比。
  • 專家:重在打造母語環境
    2019年5月20日, 國內首個能跟英語母語者互動的分級英語短視頻APP,鮮榨語感,在蘋果及各大應用商店上線。鮮榨語感APP上的老外拍攝自己的日常生活,為學習者提供24小時的英文母語環境。在每一個真實語言場景中,按照科學的鮮榨語感三步法,模擬在母語環境中的進階式學習過程,並且通過與老外互動,學用一體,實現英語聽力和口語的快速突破。
  • 中文促使英語詞彙猛增 中國式英語折射時代特徵
    據樂觀預計,用不了多久,中文將和英語、西班牙語一樣成為世界上最重要的三大工作語言。  在北京大學國際問題專家初曉波看來,漢語已經成為世界範圍內一種重要的語言,讓不少外國人青睞和著迷。去年4月,中國國家主席胡錦濤訪問肯亞時,一位在奈洛比孔子學院學習、名叫茹絲的肯亞姑娘用流利的中文回答了胡主席的提問,她那句「我們非常喜歡學習漢語,非常熱愛中國文化」道出了時下漢語在外國人心目中的位置。
  • 原創 | 人工智慧漫談之圖靈測試與中文房間
    機器人能獨立思考啦!!天網時代在向我們招手了嗎?!!!不過該消息很快就被澄清,其實只是由於該模型的「獎勵」引導設置不合理而出現的bug(大失所望~~)。雖然只是由bug所引發的鬧劇,但其受到熱捧的背後反映的卻是現代人對於人工智慧的敬畏(人工智慧會給我們帶來什麼,毀滅?還是新生?)
  • 插上人工智慧的翅膀,讓搜狗英文搜索帶你「看世界」
    同時邀請傳統企業CIO、系統集成商項目高管、AI企業解決方案負責人、投資機構合伙人、學界教授等數十位評委,對參選企業和脫敏後的信息進行了第二輪分析評審。歷時兩個月,融合兩輪評選結果後,最終公布30強名單。以下是搜狗英文搜索的詳細介紹。在這個高度數位化的時代,雖然信息已經能夠以秒為單位在全球傳播,但不同文化之間的隔閡依舊明顯。
  • 50歲莫文蔚朗誦英文詩致敬白衣天使,網友:不會中文嗎?
    雖然節目主辦方有打字幕,還附有中文翻譯,但一些網友就不甚欣賞,紛紛吐槽看不下去了。還有人在留言區評論:「聽不懂」、「不會中文嗎?」、「非要英文?」、「唱歌好嗎?念什麼英文詩」等,以表達不滿。但另一邊廂,也有支持莫文蔚的網友,指莫文蔚的英文發音好,文藝範十足,越來越像三毛了,好有誠意,居然背下來了。其實,莫文蔚朗誦英文詩也是有原因的。她除了是香港流行樂天后,還是一個大才女。她父親是一半華人、一半威爾斯人,她的母親是一半華人、四分之一德國人、和四分之一伊朗人。莫文蔚的祖父是英皇書院的首位校長莫理士。