機器如何聽懂你說的話?人類語言那些不得不說的秘密

2021-02-14 Rokid

本文來自Rokid & 清帆聯合AI徵文比賽內容徵集入圍作品,在原文基礎上有做修改。


從計算機剛開始發展的命令行界面CLI,到廣泛使用幾十年的圖形交互界面GUI,再到現在的語音交互VUI,我們始終在探討一個問題,人與機器如何溝通。不同國家的人溝通,需要他們相互學習對方的語言和文化;同理,人與機器溝通也要學習對方的語言。既然機器是人發明的,那麼人是了解機器的語言的,只剩下一個問題,機器怎麼學習人的語言呢?這可能要從我們人類學習語言的方法開始。

學習語言,在幼兒身上是一個非常神奇的過程,我們神奇的大腦皮層會通過獨特的語言學習機制,藉助大腦億萬的神經網絡進行學習,在3歲的時候開始發生質的飛躍。

這是大腦帶給我們的禮物,遺憾的是心理學和神經科學的理論都不足以完整的解釋幼兒語言學習的方法。當成人學習第二種語言,就會遇到種種困難,人們開始研究語言學習的方法,諸如發音、字詞、句式、語法等,發展出了很多種語言學習的方法。但是我們又發現,我們人類是靠聽的,機器怎麼接收呢?所以,機器學習人的語言一共分四步:

第一步叫做語音識別,就是將麥克風採集到的用戶聲音轉化為文字的過程;

第二步叫自然語義理解,將用戶說的話轉化成機器能理解的話,例如把轉化成文字後的兩句話「給張三打電話」和「打電話給張三」理解成同樣的操作;

第三步叫自然語言生成,與自然語義理解相反,是將機器的語言轉化人的語言,這個階段的輸出是文字;

最後一個階段是語音合成,將文字合成聲音並播放出來,並儘可能的模仿人類自然說話的語音語調,給人以交談的感覺。

雖然只是普通的一句對話,但卻經歷了種種步驟,而且每個步驟其實都是一個龐大的領域。

1、語音識別(ASR)


語音識別簡稱ASR(Automatic Speech Recognition),如上文所說,主要工作是將聲音信息轉化為文字。

應用ASR技術的常見產品包括語音輸入法、語音錄音工具等,幫助用戶快速將語音信息記錄為文本。

ASR的技術原理,首先麥克風負責收集用戶聲音,軟體將音頻進行處理,包括VAD、分幀、mfcc特徵提取。特徵提取之後,結合大量數據訓練出的聲學模型和描述語句文字出現概率的語言模型,通過語音解碼和搜索算法最終將音頻輸出為文字。

一直以來,語音識別採用的算法技術以GMM-HMM(Gaussian Mixture Model - Hidden Markov Model)為主。2012年, DNN-HMM(Deep Neural Network- Hidden Markov Model)混合模型在語音識別聲學建模方面取得突破性的成果,一般地,比傳統的GMM-HMM模型有30%左右的相對提升,這是語音識別領域近幾十年以來最大的一個突破。

隨著識別率的逐漸提升,ASR在各個前沿方向都有了開拓性的進展,例如中文領域的的方言識別,長句和段落的連續識別和抗噪和遠場語音識別能力。值得一提的是遠場語音,遠場語音技術的難度主要在於遠距離聲音的噪聲過濾和人聲定位,它的解決方式是通過硬體配置麥克風陣列,採集多個方向不同聲道的音頻信息,從而進行有效信息和噪音的判斷,以提升長距離下語音識別的準確度。

2、自然語言處理(NLP)


自然語言處理簡稱NLP(Natural Language Processing),狹義上講包括自然語義理解(NLU,Natural Language Understanding)和自然語言生成(NLG,Natural Language Generation)兩個方面,前者是指將人類語言轉化為標註的機器語言,後者則是指將機器語言轉化為人類語言。在龐大複雜的漢語體系裡,NLP幫助產品正確理解人們想要表達的意思,並給出合理的反饋。NLP是語音產品的關鍵,也是主要難點。

NLP涉及的技術領域眾多,包括中文分詞、詞性標註、句法分析、知識管理、情感認知等等。根據不同的需求,NLU的輸出的語義表示分不同種類,包括分布式、框架式和模型式等,目前框架式及其衍生的結構應用較為廣泛。以框架式語義表示在智能音箱中的應用來舉例,框架式會將語義區分為多種領域(聽歌/新聞/百科/購物/...),當用戶問到「喜馬拉雅山多高」時,NLU將會判斷為百科領域,並輸出標準化的語義表示和參數,系統通過搜索獲取答案,生成語音後反饋給用戶。這種語義表示方法適用於這類在不同領域有不同操作的產品當中。

NLP的發展已經初具規模,很多人工智慧龍頭例如谷歌、微軟,都使得機器可以很好地自然地接收到人類的語言。但是在語言理解的這個部分,還是很難做到,這也是人工智慧始終陷入瓶頸的一個難以攻克的問題。在人類溝通環境中,互相理解都經常會出問題,更何況讓機器來理解人類呢?

當然,有困難不代表一籌莫展,至少在英文語言系統中,由於句式和語法相對嚴謹,機器對於人類語言的理解還有很多方法可以採取。相對來說,中文由於其內含豐富多變,尤其是非常依賴於語境和人物關係,這在語言理解中就會產生很多無法預知的可能性,也就使得中文NLU比英文更難一些。而且由於不同的語言習慣和語法背景,中文NLU也難以從英文NLU中得到很多借鑑,甚至英文NLU會對中文NLU的形成產生幹擾和阻力。

NLP 和傳統語言學已經可以幫助人工智慧解決一部分初級問題,但卻還遠遠不能覆蓋到千變萬化的語言形式,比如機器可以理解「我心情不好」,卻難以理解「我的心淅淅瀝瀝下著小雨」這樣的轉喻;機器可以理解「我要吃飯」,卻難以體會同樣是吃飯,「上飯店」和「下館子」,這一「上」一「下」間表達的心理上的微妙差異。所以在中文語言理解中,需要結合心理學的研究,在語義理解的基礎上增加意圖識別和情感判斷,以彌補傳統中文 NLP 在語言理解上的不足,讓機器真正讀懂人類語言的複雜語義,以及背後的意圖和情感,從而達到更好的人機自然語言交互效果。

3、語音合成(TTS)

語音合成(TTS,Text To Speech),是指將文字轉化為聲音。開車的朋友經常能聽到郭德綱或者林志玲的導航提示,這就是TTS技術的典型應用。

往往這類明星語音合成的功能,需要走錄音,標註,建模,優化這幾個步驟。首先是根據準備好的基本語庫,讓聲優在錄音棚裡完成錄音,隨後針對錄音進行語音語調的標註,這些信息共同作為TTS模型的訓練集信息,實現初步的TTS模型訓練,隨後根據效果進行補錄,優化模型。

4、最後

ASR、NLP和TTS是語音最常用的技術領域,但仍只是語音大行業的一個部分。語音就如同冰山一般,人們看到的只是一小部分,水下才是它的真容。

相關焦點

  • 熊出沒:所有人類,都能聽懂熊大熊二他們的話?天才威說的你可能忘了
    看熊出沒的時候,估計很多人都有一個想法,那就是,為啥這些人類,好像都能聽懂熊大熊二他們的話。因為,在這部動畫片中,熊大熊二可是沒少和人類溝通,但是話說回來,所有人類,真的都能聽懂熊大熊二他們的話嗎?其實關於這件事,這天才威說的話,你可能忘記了。
  • 方言那麼多,古代皇帝如何聽懂大臣們說的話?
    官話不僅和烏紗帽掛了鉤,連做官無望的百姓也不得不學。社長說皇帝內心os:學習普通話,一定要從娃娃抓起。古代皇帝如何聽懂大臣們說的話?世界上最遙遠的距離,是你站在我的面前,我卻不知道你在說啥。古代方言那麼多,皇帝上朝的時候,萬一聽不懂大臣說什麼,可怎麼辦?比如雍正就遇到了這個問題。
  • 學哪個語種可以聽懂《捉妖記》裡妖怪說的話?
    那麼問題來了,妖怪們說的妖話到底是哪國語言?或者說,學習哪個語種可以聽懂妖界的話,未來有希望成為溝通「人妖」界的翻譯官呢?對於這一嚴肅問題,峰嶺君發揮萬能的峰嶺客作用,一起來看看「妖話」從何而來。這裡的妖語,是全部電影中出現的詞彙、句子,有高人告訴峰嶺君說這是阿爾泰語系,也有人說就是漢藏語系,峰嶺客們,你們怎麼看,是亞洲司學蒙古語的能聽懂更多,還是歐亞司俄語的同志可以交流,或者你是師從季羨林大師學的吐火羅語能完全聽明白
  • X館長——用你能聽懂的語言,說收藏
    原標題:X館長——用你能聽懂的語言,說收藏你願意花多久去看完一個視頻呢?一分鐘,五分鐘,還是十分鐘,甚至一個小時?隨著短視頻上線,年輕人們似乎越來越傾向於用最短的時間去獲得最多的知識點。
  • 關於點唱機音樂劇那些不得不說的「秘密」
    我們正在製作兩部原創點唱機音樂劇:《不能說的秘密》周杰倫作品音樂劇,和李宗盛的音樂劇。如何才能打造一部成功的點唱機音樂劇?我想,這當中最核心的要素是如何用歌曲來說故事,美國主創團隊是如何創作出一個能夠面向華語觀眾接地氣的原創劇本;同時如何培養具備唱、跳、演三種能力的音樂劇演員來完美呈現作品的精髓。
  • 貓能聽懂人說的話麼
    貓咪確實是能聽懂人說話的,這點已經被證實,島國的研究人員發現,小貓咪是可以分辨出他們的名字滴,我們人類只要一出聲音說話,就會引起小貓咪的關注,但是話說多了,貓咪就不會繼續仔細地聽了。對於常用詞彙,也就是鏟屎官與她們互動的時候說的最多的詞語,貓咪是一定可以記得住的,比如她們的名字,還有開飯了之類的,這些詞彙被貓咪記得牢牢的其實和鏟屎官與她們互動時候時間長短有關,互動的時間越長,應用的越多,她們記得越紮實。
  • 專訪《讓我聽懂你的語言》編劇熊語真:最高級的語言是真誠
    近日影視口碑榜專訪了《讓我聽懂你的語言》的編劇之一熊語真,近距離了解《讓我聽懂你的語言》的臺前幕後,深入闡述電視劇想要表達的主題以及想要傳遞出來的價值觀。熊語真作為新銳編劇也對想要踏入編劇這個行業的年輕人分享一些入行經驗和創作心得。
  • 金剛狼的那些不為人知,但又不得不說的事
    狼叔不為人知的秘密太多太多他有很多秘密和故事甚至連骨灰級的讀者和粉絲都有些摸不著頭腦這次我們找一些重點進行全面的秘密剖析今後會慢慢挑出狼叔更多的秘密No.1金剛狼的首秀狼叔首次出場是在1974年的10月—無敵浩克#180期畫之後金剛狼消失了一段時間
  • 讓我聽懂你的語言,讓你溫暖我的心……
    電視劇《讓我聽懂你的語言》講述來自上海的青年徐浩寧,愛上了一位溫柔善良的傣家姑娘玉波,同時愛上了傣族文化,愛上了傣家人不嗔不怨,與大自然和諧共處,和樂善美的生存哲學,最終把自己的開發項目融入到熱帶雨林和動物保護當中的動人故事。
  • 讓我聽懂你的語言
    讓我聽懂你的語言 2020-08-06 16:31 來源:澎湃新聞·澎湃號·政務
  • 人類的語言是如何誕生的?
    作者丨丹尼爾·L·埃弗裡特摘編丨徐悅東人類的語言是如何出現的?在語言起源的過程中,語法是最先出現的,還是最後才形成的?這些問題都是語言學研究的大問題。埃弗雷特(Daniel L.Everett)著,何文忠/ 樊子瑤/ 桂世豪譯,新思文化|中信出版集團2020年4版什麼是語言?語言確實是直立人發明的嗎?在此應當重申一下基本原則:語言來源於人類發明、歷史、物質和認知發展的融合。將人類引向今天所說的語言的第一個發明是圖像符號,然後是象徵符號。
  • 雙魚玉佩那些不能說的秘密,紅樓夢作者卻偷偷說清楚了
    題:雙魚玉佩那些不能說的秘密,紅樓夢作者卻偷偷說清楚了!
  • 只會喵喵叫,貓咪會有語言障礙嗎,中國貓咪能聽懂外國貓咪的話嗎
    在某一個瞬間,鏟屎官是不是曾懷疑過小貓咪是真的聽懂了自己的話。這些小傢伙有時候顯得特別聰明,某一些命令鏟屎官只需要說一次,小傢伙就能夠按照鏟屎官的命令,精確無誤完成了鏟屎官說出的命令。不僅僅是這樣,有的時候鏟屎官嘲笑了它們以後,還可能受到小貓咪的白眼,這不是它們聽懂了鏟屎官話還是什麼。既然小貓咪這麼聰明,小傢伙之間是不是存在著語言障礙呢?就像我們鏟屎官,沒有學過外語鏟屎官第一次估計也聽不懂外國人說的是什麼,那麼中國貓咪能聽懂外國貓咪的話嗎?
  • 《真實的人類》:人製造了機器,最終卻不如機器
    如果一個身材窈窕、膚白貌美,又不會抗拒你一切要求的女機器人與你共處一室,你會選擇享受當下嗎?;如果一個身體強壯、能入廚房又懂你的男機器人與你同住屋簷下,你會動心嗎?大部分人面對這種問題的時候,心裡都住著一個天使一個惡魔。
  • 狗能聽懂人類的話嗎?研究發現:狗確實會聽人說話
    據報導,伴隨著寵物狗漸漸成為人類最親密的朋友,也經常會有人訓練自己家的狗,根據自己的指令來進行一些操作,不過,你的狗聽命於你,並不代表著它知道你在說什麼。根據匈牙利科學家的一項最新研究發現,狗會聽人說話,但是卻根本不知道你在說什麼。
  • 亞馬遜首席科學家Nikko Ström:打開機器的「耳朵」,讓機器聽懂世界
    「我能理解你作為一個正常人,在洞察力方面的局限性,你會習慣的。」——《Her》2013年,一部美國電影《Her》將人們帶入了人類與AI的交互時空,講述了未來世界,主人公Theodore和Samantha(人工智慧系統OS1)間帶了幾分科幻底色的奇異愛情。
  • 讓我聽懂你的語言,遇見你就是緣
    最近看了一部關於原生態的電視劇,拍攝地方是在雲南的西雙版納,是一個朋友推薦我看的,名字叫做讓我聽懂你的語言,喜歡大自然和修行的朋友可以看看,劇中充滿著「泥土的氣息、田野的芬芳」,這裡面沒有講靈性,沒有講修行,可是整部片子就是把修行人真正該有的生命狀態,該回歸的初心告訴你了。
  • 不容易觸動男人內心深處的話,男人是不可能真的聽懂你這麼說的
    當一個女人對男人說「你會不會疼人」時,往往得到的答案卻是「我覺得你男人不會疼人」。為什麼呢?因為一般情況下,女人不僅要學會疼人,還要掌握著如何讓男人疼人的方法,這樣的話可能反而不如放手不管的好。1、女人不僅會疼人,而且不會哄人每個女人都希望男人會疼人,但如果男人經常把他對你的愛釋放在你身上,經常會忍不住想要寵愛你愛你,那麼他會有一種被自己珍惜愛護的感覺,自然不會對你隨意的作出手段。
  • 【全國女檢協會議·人物】玉喃溜:讓你聽懂我的語言
    我仍然記得,當我到看守所提審他時,當他聽到穿著制服的我說著傣語時,緊握著雙手突然激動起來,急忙說著:「姑娘,你是傣族嗎?告訴他們,我運輸這些凍製品,只賺了一百塊,就一百塊,不可能犯法的!」我那時並沒有立即反駁他,我試問他:「你知道嗎,你運輸的這些凍製品是十年前就已經生產的,它們有可能流向中國千千萬萬個家庭的飯桌上,會威脅到多少人的健康?」聽了這句話,他沉默了。
  • 神偷奶爸3中小黃人說的是什麼話?你聽懂小黃人專門語言了嗎?
    《神偷奶爸3》中小黃人說的是中國話,你聽懂了嗎似乎觀看這部電影的唯一理由就是這滿口操著奇怪語言的小黃人,那麼問題來了,小黃人到底說的是什麼語言呢?能這樣擊中所有觀眾的萌點。《神偷奶爸3》其實導演和編劇們像《阿凡達》一樣為了電影專門研究出來了一套專屬於小黃人的語言系統。