達摩院語音實驗室負責人鄢志傑:智能語音爆發進入倒計時,2019語音...

2020-12-04 新智元

鄢志傑,達摩院語音實驗室負責人,中國科學技術大學博士,IEEE高級會員。長期擔任語音領域頂級學術會議及期刊專家評審。研究領域包括語音識別、語音合成、聲紋、語音交互等。曾任微軟亞洲研究院語音團隊主管研究員。

新智元報導

採訪、編輯:聞菲

【新智元導讀】阿里雲升級實時在線中文語音合成服務,結合傳統語音合成技術與深度學習端到端系統各自的優勢,顯著提升語音合成穩定性及表現力。新智元專訪達摩院語音實驗室負責人鄢志傑及高級算法專家雷鳴,深度解讀核心技術。鄢志傑認為,智能語音正處於爆發前夜,2019年語音AI將在特定領域通過圖靈測試。

開始閱讀前,先來聽聽下面這段機器合成的語音:

當聽到稚嫩的童聲念完「雞蛋雞蛋……雞蛋~」的時候,阿里巴巴達摩院語音實驗室負責人鄢志傑還有坐在他一旁的高級算法專家雷鳴,都不約而同地激動起來,興奮之情溢於言表:

「這在當年我們做學生研究TTS (Text-To-Speech, 文本到語音) 時是完全不可想像的,」鄢志傑和雷鳴感嘆道:「有點穿越,機器能夠發出這種聲音,這種韻律。」

讓機器發出這種聲音和韻律的,就是他們向新智元展示的 Knowledge-Aware Neural TTS (KAN-TTS),達摩院最新推出的語音合成技術,現已通過阿里雲提供在線的實時中文語音合成服務。

根據阿里內部測評結果,即便只基於單個發音人 (single speaker) 的數據,KAN-TTS 合成的語音都能達到與原始音頻錄音 (Recording) 95%以上的相似度;採用多發音人 (multi-speaker) 數據以及遷移學習技術後,特定發音人數據的自然度能獲得97%以上的相似度

當前業界商用語音合成系統 (紅框標識) 合成語音與錄音 (Recording) 相似度大約在85~%90%的水平。達摩院內部評測結果顯示,KAN-TTS技術令合成語音自然度顯著提升。詳見後文「詳解達摩院KAN-TTS技術」。來源:達摩院語音實驗室

橫向比較業界現有的各項中文語音合成服務的效果後,鄢志傑博士認為,達摩院語音實驗室這次交出了一份滿意的答卷。

「我們正處於智能語音技術又一次爆發的前夜,感覺就像是2010年前後那段時間,深度學習的出現讓 ASR (自動語音識別) 準確率提高了20%~30%,一下子把整個 ASR 能力帶向產業,」鄢志傑告訴新智元。

「現在,大家沿著這一條新的技術路線,不斷添磚加瓦,未來幾年會看到大量新方法的提出,相關的服務也會再進一步。」

升級實時在線語音合成服務:傳統語音合成+端到端完美融合

一直以來,在機器學習領域存在一個爭論:

是不是可以完全摒棄領域知識 (domain knowledge),只依靠強大的模型以及海量數據,就能得到足夠好的模型?

「在近幾年流行的端到端 (End2End) 技術中,研究人員給出的答案似乎接近於『是』。」達摩院語音實驗室高級算法專家雷鳴告訴新智元。

雷鳴,達摩院語音實驗室高級算法專家,中科大博士,目前負責語音識別、語音合成、語音喚醒等前沿技術研發工作,在加入阿里巴巴之前,他曾任微軟STC語音科學家。

「但在語音合成領域,現在我們給出的答案是『否』——只有依賴足夠多的領域知識,加上強大的模型和海量的數據,才能夠構建足夠好的語音合成模型。」

近幾年,由深度學習推動的 End2End 技術發展迅速。語音合成 (TTS) 領域,谷歌的 Tacotron、DeepMind 的 WaveNet,還有百度的 ClariNet,研究人員不斷提出更好、更快的端到端語音合成模型。

端到端 (End2End) 技術摒棄了傳統語音合成技術前端-後端多模型多模塊框架,採用統一的模型,試圖直接從輸入文本到輸出波形。理論上,這樣能模擬任何聲音 (排除了對聲波建模的固有損失),大幅減輕乃至去掉了對語音、語言學專業知識的依賴。

然而,現實情況是,儘管端到端TTS系統能夠得到相對流暢、表現力更好的合成語音,但由於需要大量計算力支持等原因,目前難以在移動端實現。

此外,語音合成領域,訓練數據的獲取需要較高的成本投入。除了流程繁瑣——從前期準備、選擇發音人、找錄音場地、錄製到數據清洗和標註,更麻煩的是,現在的語音合成資料庫往往是單一風格的,而語音合成服務的效果穩定性依賴錄音風格的一致性,如何在長期大量錄音中始終保持同一風格內部的一致性,對整個錄音項目來說是一個不小的挑戰。在這種高要求條件下,10小時的有效語音合成數據,可能需要花費數月的錄製時間,這也對發音人保持自身狀態 (尤其是嗓子的狀態) 提出了較高的要求。

因此,目前市面上主流的商用語音合成產品和服務,絕大多數都使用傳統TTS框架構建,並不能夠提供高表現力的語音合成效果,用戶往往很容易聽出合成語音的機械感。

傳統TTS系統中,輸入文本經過語音信號處理、文本分析等多個模塊,根據多個domain knowledge,形成了rich context linguistic information,後端模型根據前面的結果,結合acoustic feature進行建模及預測,最終再經過聲碼器 (Vocoder) 得到合成語音。

傳統語音合成 (TTS) 技術與端到端 (End2End) 語音合成技術對比

有沒有可能結合傳統 TTS 系統和 End2End 系統各自的優勢?

達摩院語音實驗室提出了 Knowledge-Aware Neural TTS (KAN-TTS) 技術,在傳統語音合成系統的基礎上,充分利用領域知識,從而構建了高表現力、高穩定性的在線中文實時語音合成系統。

不僅如此,KAN-TTS 還利用多個發音人的大量數據,訓練得到多發音人模型,並利用遷移學習進一步提高合成效果,最終達到逼近真人錄音的自然度。

未來5年連接100億臺設備,語音是AIoT關鍵

2018年3月底的雲棲大會,時任阿里雲總裁的胡曉明在會上宣布:阿里巴巴全面進軍 IoT,這是繼電商、金融、物流、雲計算之後,阿里的一條新的主賽道。阿里雲 IoT 的定位是物聯網基礎設施的搭建者,阿里雲計劃在未來 5 年內連接 100 億臺設備。

到了2019年,AIoT——人工智慧 (AI) 與物聯網 (IoT) 在實際應用中落地融合——成為行業關鍵詞,作為萬物互聯以及AIoT的一個重要入口,智能語音賽道上已是百舸爭流。

作為達摩院語音實驗室負責人,鄢志傑認為智能語音在阿里進軍 IoT 的研究和實踐中有三個重點:

構建有深度、全鏈路、多模態的關鍵技術棧產出低成本、易複製的智能化 IoT 方案打造標杆硬體是「手段」,建設基礎平臺是「目的」

在這個指導思想下,「我們仔細對比了不同的inference方案,考慮到使用場景要求,對快速擴展的要求,甚至客戶不同機器的部署能力,最終選擇以非異構計算的形式進行inference,計算全部基於CPU完成。」雷鳴告訴新智元。

一旦系統能在CPU上跑,自然就可以做大規模的彈性部署,周期成本也就變得極富吸引力。考慮到服務的可擴展性,團隊還在模型層面、底層計算框架和指令集層面進行了相關的優化。

通過提出KAN-TTS,並發布基於這一技術的實時在線語音合成雲服務,達摩院語音實驗室在傳統TTS系統和End2End系統中找到了一個槓桿。

這也是為什麼他們敢於在達摩院2019年十大技術預測中說,「語音AI在特定領域通過圖靈測試」。

阿里的 KAN-TTS 並非市面上公有雲中唯一可用的中文語音合成服務,科大訊飛、百度、騰訊、京東、小米、思必馳、雲知聲、Rokid、出門問問……都發布了相關產品,並明確將智能語音+IoT定為公司發展關鍵。

國際上,還有谷歌基於 Google Cloud 的 Text-to-Speech 服務 (共有 30 種語音,並有多種語言和語言變體可供選擇),亞馬遜 AWS 的 Polly (含有 28 種語言,58 款可用聲音),以及微軟 Azure 的 Text to Speech 服務 (標準版含 45 種語言和 75 種 以上的聲音,包括男聲和女聲,還能調節參數,例如速度、音調、音量、發音以及其他停頓)——當然,這些服務裡全都包括中文 (普通話)。

對於更多的開發者和中小企業而言,剩下的問題就是選擇用哪家的服務,或者更乾脆地說,上哪家的雲。

達摩院科研成果轉化秘訣:實驗精神加一點商業Sense

在提倡「用研究創造價值」的達摩院,技術商業化是各個實驗室負責人工作的另一大重點。

當被問及達摩院語音實驗室技術商業化的「套路」時,鄢志傑表示,阿里最大的不同,是要求技術人員也具備一定的商業sense

「你並不需要是商業奇才,」鄢志傑告訴新智元:「但什麼樣的技術能真正幫助到這些場景,憑藉我們的智慧,完全可以排除掉一些絕對不可能成功的選項。」

「這樣做就提高了成功的機率。好,然後再在讓這些種子去慢慢發芽,觀察它們的長勢,再來做決定。」

在他的形容中,接下來的迭代是一個非常科學的實驗過程,就像做優化,基於當前的這個點,找到一個所謂的梯度,這個梯度就是你要工作的方向,然後跑那麼一小步,檢驗目標函數有沒有被優化,然後再來做調整。

「要說套路的話,我覺得這跟我們做語音識別、做語音合成其實是一樣的套路。」

鄢志傑強調,未來的語音交互將是多模態的、無處不在的交互。單靠算法不足以形成足夠持續的競爭力,特別是越來越多的算法走向開源,這就要求研究團隊將數據、硬體以及好的商業模式相結合,具體到智能語音交互,則是「與智能硬體廠商劃定一個有效的邊界」。

技術、產業和商業要形成一個閉環。技術到產品有鴻溝,而即使有了一個產品之後,如果賣不出去,接觸不到大量的用戶,也很難收集到有效的反饋。「所以,我們希望將一項技術做成產品,成規模地推到商業,吸引大量用戶,然後用戶這邊反饋到產品的種種問題,我們再在此基礎上對技術進行迭代。」

鄢志傑和他的同事都相信無處不在的智能語音交互是未來,並朝著這個方向去努力。過去幾年技術上的一系列成果,比如達摩院兄弟部門的工作、谷歌BERT模型,「驚喜就沒有斷過」。這也讓他有種「趕上了技術浪潮」的感覺,但跨過技術到了產業與商業以後,這個「潮」還是不是「潮」,鄢志傑認為很難說。

「今天那麼多的所謂的AI技術,到底在產品層面能給用戶帶來多大的好處,在商業層面上是不是真的能夠稱其為一個business,而且是一個可持續、可健康發展的business。我們是在大膽假設,小心求證。」

至於KAN-TTS,「模型開放出來以後,厲害的工程團隊用不了多久就能復現」,鄢志傑和雷鳴都笑著說。

「我們期待大家在上面繼續貢獻。」

詳解達摩院 KAN-TTS 技術

根據達摩院語音實驗室的介紹,KAN-TTS 技術結合了傳統語音合成系統和End2End語音合成系統各自的優勢,主要包括這幾個方面的不同:

Linguistic domain knowledge:傳統語音合成系統利用了文本相關數據積累了大量的domain knowledge,因此可以獲得較穩定的合成結果;而沒有利用該domain knowledge的End2End語音合成系統,在合成穩定性方面就不如傳統語音合成系統。近年來,有一些研究工作就是基於標註發音的文本數據針對多音字發音消歧方面進行優化,也有些研究工作針對傳統語音合成系統中的停頓預測進行優化。傳統系統可以輕易的利用這樣的研究成果,而End2End系統沒有利用到這樣的工作。在KAN-TTS中,我們利用了海量文本相關數據構建了高穩定性的domain knowledge分析模塊。例如,在多音字消歧模塊中,我們利用了包含多音字的上百萬文本/發音數據訓練得到多音字消歧模型,從而獲得更準確的發音。 如果像End2end系統那樣完全基於語音數據進行訓練,光是包含多音字的數據就需要上千小時,這對於常規數據在幾小時到幾十小時的語音合成領域而言,是不可接受的。

Acoustic Model:傳統語音合成系統對於duration和聲學特徵是分開建模的,合成時需要先預測duration信息,再根據預測得到的duration預測聲學特徵,而End2End系統利用了seq2seq模型,對所有聲學特徵進行統一建模及預測,這樣可以更好的對時長和音調高低等韻律變化進行建模。在傳統語音合成領域,一直有研究人員在嘗試更好的對韻律進行建模,例如但受限於系統框架和模型建模能力,在傳統語音合成系統中始終沒能獲得令人滿意的結果。而在End2End系統中,基於更強大的seq2seq模型,充分利用了語音韻律的domain knowledge,最終得以產生高表現力的合成語音。在KAN-TTS中,考慮到深度學習技術的快速進展以及End2End模型的合成效果,我們也採用了seq2seq模型作為聲學模型,同時結合海量數據,進一步提高了整體模型的效果和穩定性。

Acoustic feature和Vocoder:在傳統語音合成領域,也一直有研究人員在探索更好的聲學特徵和聲碼器。但由於傳統語音合成系統中的聲學特徵和聲碼器都是基於語音編解碼中的source-filter機理產生的,有較強的理論假設,在實際不同發音人的數據上,天然會丟失掉一部分信息,為後面整體建模以及預測合成語音帶來了一定困擾,最終產生的整體音質也較差。考慮到信息的損失和音質,在KAN-TTS系統中,我們採用了和End2End系統類似的FFT spectrum作為聲學特徵,信息上損失更小,同時採用更強大的聲碼器恢復波形,因此在音質方面具有明顯優勢。

KAN-TTS基本架構

KAN-TTS的基本框圖

在KAN-TTS的基本架構中,輸入文本經過與傳統語音合成系統類似的模塊得到相關的linguistic信息,接著由linguistic信息得到的矢量序列輸入進入seq2seq模型,進行訓練和建模。

需要說明的是,KAN-TTS並沒有完全採用所有的linguistic信息。經過細緻分析和實驗對比,我們發現採用所有的linguistic信息並不能帶來更好的結果,有時甚至會變差。因此,我們最終採用了如上圖所示的domain knowledge作為後端模型的輸入。

更多領域知識

此外,KAN-TTS還融合了其他多個方面的domain knowledge,這其中最重要的是基於中文的linguistic knowledge、基於海量語音數據的聲學空間構建,以及針對特定發音人、特定風格的遷移學習技術。

①基於海量語音數據的模型構建

構建多發音人語音合成系統的方式

發音人信息作為另外一種輸入特徵和Encoder的輸出結合,輸入到Attention&Decoder模塊裡面。經過這樣的處理,Encoder模塊只是用來對文本相關信息進行特徵提取,發音人這樣的聲學信息只作用於Attention&Decoder,並不影響Encoder的結果。在實際實現過程中,我們也對比了不同的信息結合方式,採用如上圖所示的結合方式可以獲得最好的合成效果。

最終,我們利用了上百個人的幾百小時數據,構建了基於海量數據的多發音人語音合成系統。相對而言,在傳統語音合成系統中,單發音人數據量往往在幾個小時到幾十小時不等。利用海量發音人的數據構建的語音合成系統,可以提供更穩定的合成效果,為最終構建高穩定性語音合成產品打下了基礎。

②針對特定發音人、特定風格的遷移學習技術

由於採用了大量不同發音人數據進行語音合成系統構建,雖然我們利用了多發音人的大量數據,得以產生高穩定性合成語音。但我們發現對特定發音人或者特定風格而言,其效果距離真實錄音而言還是具有一定差距。因此,我們參考了其他領域對訓練數據比例的研究,在多發音人模型的基礎上進一步嘗試了針對特定發音人、特定風格數據的遷移學習。實驗表明,疊加遷移學習後,合成語音的效果可以進一步提高,逼近真實錄音的效果。

多發音人模型實際訓練過程

上圖中顯示了實際的訓練過程。首先,我們利用多個發音人的所有數據構建多發音人模型,在這期間,發音人信息作為輸入信息在訓練過程中輸入到了Attention&Decoder模塊;基於訓練得到的多發音人模型,我們根據需要,針對發音人 n 進行遷移學習,最終得到發音人 n 的單發音人模型。

非異構計算的工程優化

隨著深度學習技術的進步,模型的建模能力越來越強大,隨之而來的計算量需求也越來越高。近年來,很多公司都採用異構計算進行模型的inference,例如採用高性能或者inference專用GPU,甚至採用FPGA/ASIC這樣的專用晶片技術來加速inference部分的計算,服務實際需求。

對語音合成而言,大量的需求是需要進行實時計算的。例如,在交互場景上,語音合成服務的響應時間直接影響到用戶的體驗,往往需要從發起合成請求到返回第一個語音包的時間在200ms左右,即首包latency。另一方面,很多場景的語音合成的請求量的變化是非常大的,例如小說和新聞播報場景,白天和傍晚的請求量往往較高,而深夜的請求量往往很低,這又對部署的便捷性和服務的快速擴展性帶來了要求。

我們仔細對比了不同的inference方案,考慮到我們最終的使用場景要求,對快速擴展的要求,甚至客戶不同機器的部署能力,我們最終選擇以非異構計算的形式進行inference計算,即不採用任何異構計算的模塊,包括GPU/FPGA/ASIC等。

根據KAN-TTS的特性,以及語音合成服務的需求,我們針對性的做了若干優化,包括:

模型層面的優化:為了降低首包latency,我們改進了模型結構,替換了BLSTM等模塊,從而大幅度提高了首包latency。此外,我們針對計算量較大的模塊進行優化和替代,從而大幅度優化了整體計算效率。框架和指令集優化:為了更好的利用硬體性能,我們嘗試了不同的底層加速框架,並且針對性的對指令集結合實際計算需求進行了優化。另外,我們還對個別超大向量計算進行了針對性的優化。

最終,經過我們的一系列優化,效果如下圖所示:

其中,RTF是借鑑了語音識別中的指標,即Real Time Factor,度量合成1s的一句話所需要的計算時間,QPS為實際同時能夠支撐的服務請求數。

KAN-TTS 實際效果

從實際實踐中發現,End2End系統最大的問題是丟字漏字和多音字發音錯誤兩類問題。由於End2End系統的輸入是中文漢字,而漢字的數量很多,在訓練數據中覆蓋較差,分布也不均勻,因此導致了大量句子都出現了丟字漏字的情況;另外,由於前文中介紹的原因,由於語音數據量總是遠遠小於文本數據的,基於現在的語音數據,End2End系統中多音字覆蓋也較差,所以也會大量的出現多音字發音錯誤問題。

End2End系統和KAN-TTS在丟字漏字和多音字發音錯誤這兩個問題上的對比,其中多音字發音錯誤以「為」這個字的情況代表。

從上圖中可以看到,KAN-TTS在這兩個問題上都顯著超越了End2End系統。其原因主要為KAN-TTS中結合了傳統語音合成系統,充分利用了多個方面的domain knowledge。因此在合成語音的穩定性上,可以獲得和傳統語音合成系統類似的結果。

使用單個發音人的數據,與傳統語音合成系統相比,KAN-TTS技術在不同改進下的效果變化。

MOS 為 Mean Opinion Score 的縮寫,是語音合成領域主觀測試打分標準,滿分為5分,越大越好。在MOS測試過程中,會加入不同系統的合成語音以及真實錄音 (Recording),由幾十到幾百的參與人員對每個語音的自然度進行主觀打分。由於不同人的真實錄音的MOS打分往往不同,為了度量技術的實際作用,我們採用了MOS%的形式進行對比,即以Recording得分作為分母,將不同系統的MOS得分除以Recording得分,從而得以度量不同系統主觀得分距離Recording的差距,越接近100%為越好,而Recording的得分始終為100%。

從上圖中可以看到,傳統拼接系統和傳統參數系統 (代表當前市面上商用TTS系統水平) 分別可以獲得85%~90%的接近程度,差別與發音人風格、數據量都比較相關;當採用了KAN-TTS技術時,即便只是基於Single Speaker的數據,都可以獲得95%以上的接近程度;而採用了multi-speaker以及transfer learning技術之後,特定發音人數據在自然度上可以獲得97%以上的相似度

結語

KAN-TTS 技術是結合了我們最新的語音技術、海量的文本和聲學數據以及大規模計算能力,對語音合成技術進行的改進。

現在,用戶可以在阿里雲官網體驗(https://ai.aliyun.com/nls/tts)。接下來,我們會擴大該技術服務的音色範圍,全面將該技術應用到所有語音合成發音人中。

通過KAN-TTS技術的提出,我們為「是否可以完全摒棄domain knowledge,而完全依賴強大的模型和海量數據」這個問題給出了我們自己的答案。在未來的工作中,我們還將基於KAN-TTS技術對語音合成技術做進一步的改進,提供給大家更好的語音合成服務。

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 阿里達摩院官網今日上線,5 大研究領域、14 個實驗室全公開
    機器智能研究領域下設語音、視覺智能、語言技術、決策智能、城市大腦五個實驗室。   鄢志傑 達摩院語音實驗室負責人
  • 達摩院發布業界首款語音合成算法專用AI FPGA晶片設計Ouroboros...
    雷鋒網(公眾號:雷鋒網)消息,Hot chips 31(阿里巴巴稱,這是業界首款專用於語音合成算法的 AI FPGA晶片結構設計,能將語音生成算法的計算效率提高百倍以上。根據阿里達摩院掃地僧的說法,用AI語音合成算法WaveNet生成1秒語音,CPU和GPU需要50秒的計算時間,但Ouroboros在FPGA環境下只要 0.3秒。
Ouroboros的一大突破,是用端上定製硬體加速技術替代雲端伺服器,避免了對網絡連接和雲端服務的強依賴性。
  • 智能語音助手的原理_預測智能語音助手的未來
    打開APP 智能語音助手的原理_預測智能語音助手的未來 發表於 2019-07-31 10:16:14 訓練通常是離線完成的,對預先收集好的海量語音、語言資料庫進行信號處理和知識挖掘,獲取語音識別系統所需要的「聲學模型」和「語言模型」;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。
  • 上海地鐵明年初將實現掃碼進站,未來有望語音購票、刷臉進站
    澎湃新聞記者 陳逸欣 剪輯 徐曉陽(00:35) 12月5日,澎湃新聞(www.thepaper.cn)記者從上海申通地鐵集團與阿里巴巴、螞蟻金服三方的戰略合作籤約儀式上獲悉,阿里巴巴最新研發的語音購票、刷臉進站、智能客流監測等多項技術,在未來將逐步應用於上海地鐵。
  • 阿里開源自研語音識別模型 DFSMN,準確率高達96.04%
    近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    人工智慧技術的落地應用正在向各行業襲來。9月19日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    智能語音前沿技術——發音檢錯糾錯和語音轉換 鄧佳佳 發表於 2018-03-22 15:38:49 近年來,人工智慧在國內外掀起了新一輪技術創新的浪潮
  • 劍來:阿里達摩院外傳
    獵雲網註:達摩院設立了機器智能、數據計算、機器人、金融科技和X等研究方向,即「4+X」研究領域。達摩院招人的信條就是找到各個領域的大牛,然後再以大牛招攬小牛。文章來源:猛哥(ID:wm221x),作者:猛哥。
  • 騰訊AI Lab西雅圖實驗室負責人俞棟:語音識別領域的現狀與進展
    去年三月,語音識別和深度學習領域的著名專家俞棟宣布加入騰訊,擔任騰訊成立不久的騰訊 AI Lab 副主任及西雅圖實驗室負責人。加入騰訊不久後,俞棟在機器之心主辦的第一屆全球機器智能峰會(GMIS 2017)上,發表了主題為《語音識別領域的前沿研究》的演講,分享了語音領域的四個前沿方向,包括:更有效的序列到序列直接轉換模型,雞尾酒會問題,持續預測與適應的模型,以及前端與後端聯合優化等。如今一年過去了,這些問題的研究現狀如何?是否得到了業界的肯定與應用?騰訊 AI Lab 的進展如何?
  • 排名 語音識別_語音識別技術排名 - CSDN
    該文件指出,我國目前語音識別、視覺識別技術世界領先,自適應自主學習、直覺感知、綜合推理、混合智能和群體智能等初步具備跨越發展的能力,中文信息處理、智能監控、生物特徵識別、工業機器人、服務機器人、無人駕駛逐步進入實際應用,人工智慧創新創業日益活躍,一批龍頭骨幹企業加速成長,在國際上獲得廣泛關注和認可。未來,還將全面拓展重點領域應用深度廣度,全面提升經濟社會發展和國防應用智能化水平。
  • 基於FPGA的語音智能操控系統
    語音智能操控系統可以取代多個遙控器,當需要控制某一家電時,只需說出所需調節的內容(如,空調開,溫度25℃),語音智能操控系統就能通過對操控者的語音識別,完成匹配並發出遙控信息完成相應的操作。功能描述:由FPGA實現語音智能操控系統的系統構架圖如圖2-1所示,它是以FPGA為主板,嵌入語音識別系統並結合紅外遙控系統完成的智能操控系統。
  • 國內智能語音行業分析報告
    一、智能語音簡介智能語音是人工智慧技術的重要組成部分,包括語音識別、語義理解、自然語言處理、語音交互等。當前,人工智慧的關鍵技術均以實現感知智能和認知智能為目標。2018年,人工智慧市場規模達200億元,如果按照之前的增速,預計到2019年年末,整個人工智慧行業規模將達到近300億元。
  • 智能來電語音報號
    智能來電語音報號 簡訊通話
  • 咪鼠智能語音鍵盤KB1體驗:不用手敲而能語音打字的鍵盤
    這次非常有幸拿到了由@三隻眼眾測 提供的咪鼠智能語音鍵盤KB1,這款鍵盤主要以辦公為主,不僅內置了語音打字、語音翻譯、OCR智能截圖、一鍵打開計算器等功能,而且還採用了2.4GHz無線連接,穩定無延遲,同時鍵帽還採用了經典的剪刀腳加購,受力均勻,回彈十分迅速。【開箱篇】咪鼠智能語音鍵盤KB1的外包裝通體採用了白色設計,包裝盒朝上面正中央為產品渲染圖。
  • 語音交互:從語音喚醒(KWS)聊起
    一、什麼是語音喚醒語音交互前,設備需要先被喚醒,從休眠狀態進入工作狀態,才能正常的處理用戶的指令。生活中應用的最好,就應該是智能音箱了,每個品牌的智能音箱都有自己的名字,我們通過音箱的名字喚醒她,和她進行交互,控制家電。其次就是手機,目前大部分手機都配有手機助手,從蘋果最早的siri到現在的「小愛同學」,讓我們實現了即使不觸碰手機,也可以實現一些操作。還有一些服務類型的機器人,也會用到語音喚醒。
  • 幾次嘗試聊天機器人後,Facebook 也要開發智能語音助理
    Facebook 也在研發智能語音助理了。 據 CNBC,研發團隊由 Oculus 研究團隊負責人 Ira Snyder 領導,團隊在華盛頓州的雷特蒙市辦公,這裡也是 Oculus 的辦公地點。智能語音助理項目從 2018 年初就開始進行了。 CNBC 還援引知情人士消息稱,研發團隊一直在聯繫智能音箱供應鏈中的供應商。晚些時候,Facebook 向科技媒體 The Verge 確認了在研發智能語音助理的消息,說會用在公司開發的 AR、VR 產品上,如 Oculus 、Portal 視頻聊天硬體設備等。
  • 科學網—語音及語言信息處理國家工程實驗室揭牌
    本報訊 9月27日,由國家發改委批覆成立的語音及語言信息處理國家工程實驗室揭牌儀式在中國科學技術大學舉行
  • 馳聲AI語音開放平臺上線,首次公開中英文智能語音評測開發文檔
    馳聲AI語音開放平臺上線,首次公開中英文智能語音評測開發文檔2020-12-11 14:36:41出處:其他作者:佚名  日前,馳聲AI語音開放平臺正式上線,產品經理和開發者只需點擊馳聲官網頂部右側「馳聲AI開放平臺」的白色按鈕,即可查看《馳聲智能語音評測開發文檔》,該文檔中包含
  • 中科大設立語音及語言信息處理國家工程實驗室
    新華社合肥9月28日電(記者 朱青)中國科技大學9月「語音及語言信息處理國家工程實驗室」27日揭牌。據了解,這是我國智能語音領域唯一的國家級研究平臺,它的設立有助於進一步提升我國在語音及語言技術領域的自主創新能力和核心競爭力。