陳根 發表於 2020-11-30 15:26:26
人工智慧技術的精進與開發無疑對人工智慧的應用至關重要,而人工智慧除了在與生活強關聯方面的應用,回應少數群體的需求也將成為人工智慧發展的必然方向。
近日,加州大學伯克利分校的研究人員表示,他們正在使用無聲語言和收集肌肉活動的傳感器來訓練人工智慧。其中,無聲語言是用肌電圖(EMG)檢測的,電極則放在臉和喉嚨上。研究人員表示,該模型的重點是研究被稱之為「沉默語音」的模型,該模型可以檢測到人們想說、但沒說出聲的話。
研究人員相信,他們的方法可以為那些無法發出聲音的人提供大量的應用,並且可以支持人工智慧助手或其他對語音命令做出響應的設備進行沉默語音檢測。
儘管設想美好,但想真正實現卻並不容易:首先,在收集數據時,研究者會先在實驗者的臉上等部位貼8個貼片,每個貼片都是一個「監視肌肉變化」的傳感器。
隨後,研究人員需要錄製一段實驗者的有聲語音,並與肌電圖進行對應這種方法能夠將肌肉的變化情況、和語音的類型對應起來。然後使用WaveNet解碼器生成音頻語音預測。在記錄數據的過程中,還要再錄製一段「對口型」的肌電圖,但不需要發聲,也就是「沉默語音」。
與用發聲肌電數據訓練的基線相比,該方法在書中句子轉錄的單詞錯誤率下降了64%到4%,錯誤率比基線減少了95%。此外,為了推動這一領域的進一步研究,研究人員還開發了一個由近20小時面部肌電數據組成的數據集。
這項題為「無聲語音的數字發聲」的研究論文,在近日舉行的自然語言處理經驗方法(EMNLP)活動上,獲得了最佳論文獎。
研究小組的論文寫道:「數位化無聲語音有著廣泛的潛在應用。」例如,它可以用來製造一種類似於藍牙耳機的設備,它允許人們在不幹擾周圍人的情況下進行電話交談。而顯然,這種設備在環境噪音太大無法捕捉到可聽語音或保持沉默的環境中將具有重要作用。
責任編輯:xj
打開APP閱讀更多精彩內容
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴