智能語音前沿技術——發音檢錯糾錯和語音轉換

2020-12-08 電子發燒友

智能語音前沿技術——發音檢錯糾錯和語音轉換

鄧佳佳 發表於 2018-03-22 15:38:49

近年來,人工智慧在國內外掀起了新一輪技術創新的浪潮,人工智慧正在成為產業革命的新風口。據BBC預測,到2020年,全球人工智慧市場規模可達到1190億元。艾瑞諮詢預測,到2020年,中國人工智慧市場規模約91億元。

目前,政策、經濟、人才、技術各方面都為人工智慧提供了很好的條件:

(1) 政策:人工智慧進入國家戰略層面。國務院在《關於積極推進「網際網路+」行動的指導意見》中將人工智慧推上國家戰略層面。在國家「十三五」規劃的「科技創新-2030項目」中,智能製造和機器人被列為重大發展工程。2016年,為加快人工智慧產業發展,國家發展改革委、科技部、工業和信息化部、中央網信辦制定了《「網際網路+」人工智慧三年行動實施方案》。2016年科大訊飛、華為等行業知名企業,在深圳共同發布中國《人工智慧深圳宣言》,積極探索政、產、學、研、用合作機制,推動人工智慧產業的協同發展。2017年十二屆全國人大會議中,國務院總理李克強提出,要推動內地與港澳深化合作,研究制定「粵港澳大灣區」城市群發展規劃,提升在國家經濟發展和對外開放中的地位與功能。

(2) 經濟:網際網路經濟高速發展,據艾瑞諮詢估計,2015年中國網絡經濟增長約33%,市場規模超過千億,並有持續增長趨勢。2014年開始,投資機構在人工智慧領域投資金額,數量均大幅度增加。據諮詢公司Venture Scanner統計,2016年全球人工智慧公司已突破1000家,融資高達48億美元。

(3) 人才:在中國科研投入佔全球的20%,僅次於美國,信息技術網際網路領域是國家的重點投入對象,近五年,科研人員保持20%的持續增長,為人工智慧的發展提供了充足的人才支撐。

(4) 技術:目前我國已在計算機視覺,智能語音等領域實現了技術突破,處於國際領先水平。國內具有代表性的公司或機構包括:百度,阿里巴巴,騰訊,科大訊飛,曠視科技,商湯科技等。

在人工智慧技術中,智能語音技術是一個重要的分支,是人機互動過程中不可或缺的部分。語音技術包含:語音識別、語音合成、聲紋識別、語音評測、語音轉換等,其中發音檢錯糾錯和語音轉換技術近期有了新的突破。

發音檢錯糾錯

英語是當今世界上最為通用的語言,其重要性已為所有人深刻領會。由於英語的強勢地位,目前被超過100個國家作為外語教學的第一外語。據EF英孚教育發布的《2015年英語熟練度指標報告》顯示,中國人每年花費千億元用於英語培訓,但實際效果依然不佳,在全球70個國家和地區中,中國大陸排名47位。雖然英語水平仍處於低熟練程度,但近年來呈現明顯增長趨勢。據中國社會調查所公布的中國居民消費調查報告統計,中國已成為全球英語培訓領域增長速度最快的市場,年增長率高達12%。在如此廣闊的英語培訓市場下,線下英語培訓面臨著師資數量短缺,教師口語水平參差不齊、「添鴨式」與「應試式」教學以及無法有效改善口語聽力水平等存在諸多矛盾。

另外,中文拼音與英語音標發音方法和位置有所區別,但許多中國學生在剛接觸英語時習慣用熟悉的中文拼音來標註、記憶英語單詞的發音。久而久之,養成了不良的發音習慣,同時還由於中國學生普遍靦腆,上課口語訓練時間不足,課後口語練習得不到反饋,以及大部分英語老師的發音不標準等因素造成了中國學生的發音不標準。由於發音一直是中國學生學習英語時一個難關,有許多人願意為了糾正發音,支付高昂的學費,請外教糾正自己的發音。隨著移動在線語言學習的興起,催生了AI語音評測,促進了AI糾音技術的發展。  

雖然目前市場上有許多在線的英語學習軟體,但大多數都只是簡單地播放音視頻學習資料,學生跟讀,系統播放錄音。只有為數不多的軟體,具備打分評測的功能,而評測的準確性,一直為學生所詬病。因此,市場迫切需要能提供高可靠的打分評測技術。

 

圖1 目前市面相關產品

另外,除了提供高可靠的打分評測技術,學生也迫切需要具體的發音診斷的反饋建議。因為單純的打分評測技術,只能夠指出學生的發音不夠好,但學生並不理解自己的發音錯誤在哪裡,及應該如何改進發音。比如把讀錯的單詞標紅出來,需反覆對比原聲才能分析出錯誤的細節,這在明顯讀錯的情況下還好實現,如:steak/steik/,讀錯為/sti:k/。

但以下情況就非常困難了,特別是學習者不熟悉英語的拼讀發音規則,語法的條件下。

(1)如records/'rekɔːdz/,讀錯為/'rekɔːds/。

(2)如the apple /ði/,讀錯為/ðə/(the在輔音前發 /ðə/,元音前發 /ði/)。

(3)長短音如book/bʊk/,讀錯為/buːk/;Lily/'lɪli:/,讀錯為/'li:li:/。

如果學習者在反覆練習過程中不能及時發現具體的錯誤細節,會降低學習效率和興趣,甚至反覆錯誤發音,產生錯誤的肌肉記憶。這個問題,在學術研究上被稱為「錯誤發音檢測及診斷」。為了解決這個問題,在過去的十多年中,世界上的許多頂級科研機構都投入了大量的人力物力,其中最具影響力的包括香港中文大學,清華大學,臺灣大學,美國麻省理工大學,新加坡資訊通信研究院,微軟亞洲研究院,IBM等等。

圖2 多任務學習的聲學音素模型

「錯誤發音檢測及診斷」的難點在於它們不同於一般的語音識別技術,對於訓練模型和訓練數據有著更嚴格的要求,並且不同母語的人群在學習英語的過程中易出現的錯誤也不同。因此要收集大量以中文為母語的人群的英文錄音,並邀請專業人士對數據進行了人工標註。隨著深度學習的發展,和多年的技術積累,聲希科技李坤博士等人實現了此領域的重大突破,利用深度神經網絡對聲學特徵和標準發音進行預測,輸出後驗概率(如圖2所示)。不僅實現了對錯誤發音的檢錯和診斷,還能對重音,語調,流利度等實現評測(如圖3所示)。

圖3 發音,重音,音調檢錯糾錯技術展示

語音評測技術的突破讓AI系統成為私人發音老師成為可能。當系統知道學生具體的錯誤後,就能自動匹配相應的教學內容和練習題目,實現更精準的自適應推薦。如果新技術能得到普及,那將大大改善中國學生的發音現狀,特別是解決農村鄉鎮地區的教育資源和語言環境問題。

    另外,隨著中國在國際上地位的提升,特別是一帶一路的推動,愈來愈多外國人開始學習漢語,資料顯示全球學習漢語的外國人已經超過1億。而中文發音是中文學習中的重大難題,發音評測的新技術能針對外國中文學習者的發音錯誤的特點,利用可靠的發音自動評測方法及時、準確地糾正發音錯誤,可以大大提高中文輔助語音教學系統的教學效果。

語音轉換

隨著語音信號處理技術(包括語音識別和語音合成)的發展,在人機互動中語音已成為最自然最方便交互方式之一。語音不僅可以傳遞信息,也可以傳遞情感、態度和說話人的個人特徵。其中,說話人的個人特徵在我們日常交流中扮演重要角色,它允許我們在電話、廣播節目、電影等媒體中區分說話人。除此之外,智能語音助手變得越來越流行,比如 Apple Siri、Microsoft Cortana、Amazon Alexa。大多數人對語音助手的音色有很強的偏好,因此生成具有特別音色的語音在人機互動領域非常重要。 

圖4 語音轉換示意圖

上述場景可歸結為語音轉換(Voice Conversion)問題,目標在於修改非目標說話人Non-target(NT)Speaker的語音音色,使其聽起來像是目標說話人Target(T)Speaker的語音,但同時保持說話的內容T- Content不變(如圖4所示)。

深度學習是人工智慧領域劃時代的革命技術,隨著深度學習的應用,合成語音和轉換語音的自然度和流暢度都有很大的提升。在語音合成領域,Google Deepmind 在2016年提出的Wavenet模型將自然度提高了50%。2017年Yoshua Bengio等提出端對端合成模型,使得模型可以從文本直接生成語音而不需要前端預處理。在國內,康世胤等在2013年將深度信念網絡(Deep Belief Networks)用於語音合成,為學界業界最早之一。2017年,百度研究院提出Deep Voice模型改進了語音合成速度,實驗證明該模型可以用於實時語音合成。  

語音轉換技術的最早嘗試在1988年由Abe等學者完成。在1988年到2013年期間,大部分算法基於Codebook Mapping、Frequency Warping、Unit Selection、Gaussian Mixture Models。2013年開始,深度學習被應用到語音轉換中,Nakashika等將深度神經網絡(Deep Neural Networks)用於在高維空間中,將非目標說話人語音映射到目標說話人語音。雖然語音轉換技術較以前有很大提升,但是語音自然度和音色相似度方面仍有很大的改善空間,另外在實用適用性方面不夠完善比如只能支持特定人到特定目標人的轉換(一轉一),以及需要嚴苛的數據條件,需要目標人上千句的語音數據。

圖5 深度循環神經網絡(DBLSTM-RNNs)示意圖

在2015年,聲希科技聯合創始人孫立發博士團隊等利用深度循環神經網絡(DBLSTM-RNNs)來改進轉換語音的自然度和流暢度(如圖5所示),傳統的深度神經網絡DNN只能映射單一幀到單一幀之間的關係忽略了語音連續信號幀之間的相關性,DBLSTM-RNNs很好的解決了這個問題從而可以提升自然度和流程度。

圖6 非平行語句多對一語音轉換框架圖

在2016年,孫立發博士等利用從語音識別模型提取到的後驗概率來映射非目標說話人和目標說話人(如圖6所示),可以實現多對一的轉換並且降低了對訓練數據的要求,大大提高了語音轉換技術的實用性。語音轉換具有廣泛的應用:

(1)個性化語音合成。將語音轉換技術與現有的語音合成系統結合,生成用戶想要的音色。

(2)計算機輔助語言學習中的個性化語音反饋。目前語言學習者在學習的過程中參照的標準發音是統一的錄音,語音轉換系統可以合成出具有用戶自己音色的標準發音,幫助用戶進行跟讀對比。

(3)機器翻譯。機器翻譯技術可以將一句語音從一種語言翻譯到另外一種語言,而語音轉換技術可以輔助機器翻譯,讓翻譯後的語音仍然保持說話人的音色。

(4)語言障礙患者的個性化輔助。語言障礙為中風、帕金森等疾病的常見後遺症。語言障礙會影響患者的日常交流和個性化和情感表達。語音轉換技術加上語音合成技術可以輔助患者進行正常的語音溝通,並且找回自己聲音的音色。

(5)娛樂領域。潛在應用包括電影電視配音,遊戲配音,導航配音等。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 當外語學習用上智能語音
    英國語音學家吉姆森也提出,學會講任何一門語言,必須要掌握其100%的語音知識,而僅需50%-90%的語法和1%的詞彙就足夠了。由此可見口語和語音在聽、說、讀、寫四項語言基本能力中的重要地位。人工智慧技術極大地影響和改變了人們的生活、學習和工作。其中智能語音技術作為人工智慧技術的重要組成部分,被更多地用於教育領域的語言教學和語言測試中。
  • 智能語音助手的原理_預測智能語音助手的未來
    語音助手能和人類進行深度交談的背後,離不開自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎技術。程式語言對我們不標準的發音做評分,然後做比對,最後選擇評分最高的那一個「標準發音」作為我們「不標準發音」的字庫!
  • 達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...
    新智元專訪達摩院語音實驗室負責人鄢志傑及高級算法專家雷鳴,深度解讀核心技術。鄢志傑認為,智能語音正處於爆發前夜,2019年語音AI將在特定領域通過圖靈測試。雷鳴,達摩院語音實驗室高級算法專家,中科大博士,目前負責語音識別、語音合成、語音喚醒等前沿技術研發工作,在加入阿里巴巴之前,他曾任微軟STC語音科學家。
  • 語音識別技術簡史
    本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,並能產生興趣投身於這個行業。語音識別,通常稱為自動語音識別,英文是Automatic Speech Recognition,縮寫為 ASR,主要是將人類語音中的詞彙內容轉換為計算機可讀的輸入,一般都是可以理解的文本內容,也有可能是二進位編碼或者字符序列。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (5)語音解碼  語音解碼指語音技術中的識別過程,針對輸入的原始語音信號,經預處理和特徵提取後,結合訓練得到的聲學模型、語言模型以及發音字典建立一個識別網絡,運用搜索算法尋找到最佳路徑,進而獲取該語音信號對應的最優詞串。
  • 馳聲AI語音開放平臺上線,首次公開中英文智能語音評測開發文檔
    「智能技術消滅啞巴英語,讓教和學更高效」是馳聲的使命,為了讓更多的智能語言學習產品更便捷地接入馳聲技術,為此,馳聲首次公開所有自主研發的中英文語音評測內核開發文檔,助力教育品牌實現業務升級。  馳聲中文口語評測內核文檔  2007年,馳聲團隊創立於英國劍橋大學,始終專注於教育領域,用自主研發的語音評測技術一路引領行業,為全球182個國家和地區的智能語言學習產品和1.3億語言學習者提供評分糾音服務。
  • 利用人工智慧技術,告別啞巴英語 鯨奇AI讓你說一口標準的英語
    此外,中文拼音與英語音標發音方法和位置有所區別,但許多中國學生在剛接觸英語時習慣用熟悉的中文拼音來標註、記憶英語單詞的發音。久而久之,養成了不良的發音習慣,同時還由於中國學生普遍靦腆,上課口語訓練時間不足,課後口語練習得不到反饋,以及大部分英語老師的發音不標準等因素造成了中國學生的發音不標準。
  • 國內智能語音行業分析報告
    一、智能語音簡介智能語音是人工智慧技術的重要組成部分,包括語音識別、語義理解、自然語言處理、語音交互等。當前,人工智慧的關鍵技術均以實現感知智能和認知智能為目標。智能語音技術是人工智慧產業鏈上的關鍵一環
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    人工智慧技術的落地應用正在向各行業襲來。9月19日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。
  • AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課
    ,同時負責搜狗知音引擎語音技術的研發,致力於通過技術和產品的創新提升語音交互品質,為用戶提供優質的語音使用體驗。搜狗知音引擎是搜狗公司自主研發的一項專注於自然交互的智能語音技術,於2016年8月3日正式對外發布,該技術集合了語音識別、語義理解、語音交互、以及提供服務等多項功能,不僅能聽會說,還能理解會思考, 本文將結合知音引擎中語音識別建模技術的使用來為大家講解。
  • 語音交互:從語音喚醒(KWS)聊起
    二、語音喚醒的應用有哪些語音喚醒目前的應用範圍比較窄,主要是應用在語音交互的設備上面,用來解決不方便觸摸,但是又需要交互的場景。生活中應用的最好,就應該是智能音箱了,每個品牌的智能音箱都有自己的名字,我們通過音箱的名字喚醒她,和她進行交互,控制家電。
  • 百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦
    而為實現在英語互動中,更準確的識別用戶所講,銀月網絡接入了百度大腦語音識別和語音合成技術,讓識別準確率提升至97%,大大提高了人與設備對話的體驗,這也讓用戶在英語口語練習上更科學,更準確,更專業。 (若發音有誤,百度大腦語音合成技術將提供正確讀音)據介紹,銀月網絡基於百度大腦語音合成和語音識別技術升級的《戀愛口令》以校園浪漫的愛情故事為題材,講述一名轉校生來到新學校後發生的「浪漫邂逅」。
  • 語音識別原理及其語音識別系統分類
    人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 智能語音機器人工作原理解析,淺談VAD技術
    如今智能語音設備或者機器人很多,如智慧型手機(例如Cortana,Siri,Ok Google,...),個人助理(例如Google Home,Amazon Echo,...),交互式語音應答(銀行,應答機, ......)
  • 五位機器聽覺領域大咖,論道語音前沿 | CCF-GAIR 2020
    從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智慧 40 周年,峰會一直致力於打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。8 月 8 日,由深圳市人工智慧學會、CCF 語音對話與聽覺專業組協辦的「前沿語音技術」專場拉開帷幕。
  • 從不溫不火到炙手可熱:語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 微軟全球範圍內Cortana升級神經網絡語音,效果堪比真人發音
    打開APP 微軟全球範圍內Cortana升級神經網絡語音,效果堪比真人發音 玄隱 發表於 2021-01-15 11:53:41
  • 智能語音識別技術入門系列(上)
    本系列文章開始,我們將一起探索自動識別、語言處理技術所包含的核心算法、模型及未來的發展趨勢。本篇文章我們主要討論語音識別的基本概念。並理解語音識別技術的流程。(一) 自動語音識別技術ASR自動語音識別,簡稱ASR。
  • 語音技術25年:人類還是無法和自己的電腦進行對話……
    一臺功能一般的計算機可以將連續的自然語音轉換為文本,準確率約為95%,這項技術已經超越了所有人,除了那些訓練最好的專業人員。為什麼語音識別直到最近幾年才被廣泛應用於日常生活中呢?這項技術更多是應用於工業。
  • 智能語音技術中麥克風陣列的原理
    因為它使用的麥克風個數最少,並且充分考慮到了語音譜和噪聲譜的特性,使得這些方法在某些場景下也具有較好的噪聲抑制效果,並因其方法簡單、易於實現的特點廣泛應用於現有語音通信系統與消費電子系統中。  但是,在複雜的聲學環境下,噪聲總是來自於四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風捕捉相對純淨的語音是非常困難的。