現場| 亞馬遜首席科學家:Alexa背後的深度學習技術是如何煉成的?

2020-12-13 雷鋒網

雷鋒網(公眾號:雷鋒網)按:2016年1月11日-12日,美國加州聖克拉拉市,AI Frontier大會召開,這次大會聚集了美國人工智慧公司裡最強悍的明星人物,包括谷歌大腦負責人Jeff Dean、微軟AI首席科學家鄧力、亞馬遜首席科學家Nikko Strom、百度AI實驗室主管Adam Coates、Facebook科學家賈楊清等20多位業界大咖,堪稱AI業界領域的一場盛事。

作為2017開年最火的人工智慧之星Alexa項目的領導者,亞馬遜首席科學家Nikko Strom帶來了演講,詳細闡述了Alexa裡的大規模深度的基本架構、語音識別、語音合成等內容,尤其提到了Alexa為「雞尾酒派對難題」找到了有效的解決方法。

Nikko Strom,亞馬遜首席科學家。1997年於瑞典工學院獲得博士學位,之後擔任MIT計算機科學實驗室研究員,2000年加入初創公司Tellme Networks,2007年加入微軟,推進商業語音識別技術的前沿研究。2011年加入亞馬遜,並擔任首席科學家,領導語音識別及相關領域的深度學習項目,是如今炙手可熱的亞馬遜Echo和Alexa項目的創始成員。

以下是雷鋒網根據Nikko Strom現場演講整理而成,在不改變願意的基礎上做了刪減和補充。

這是Amazon Echo,內置了一個Alexa系統,提供語音服務,你可以把它放到你的家裡,你可以跟它對話,並不需要拿遙控器來控制。這個Holiday Season,我們加入了新的白色Echo和Dot,你們當中應該有很多人比較偏愛白色的電子產品。其它的一些產品,並沒有內置Alexa系統,但是可以與其連接,比如家裡的燈具、咖啡機、恆溫器等,你只需要語音,就可以讓它們執行一些命令。另外,開發者們通過「Skills」來給Alexa增加更多的功能應用。

如今數百萬的家庭裡放置了Echo,而它真正地在被使用著,由此我們得到的數據多到瘋狂(insane),可能會超出你的想像。我無法告訴你確切的數字,但儘可能往大了去想吧。

大規模深度學習

人的耳朵並非每時每刻都在搜集語音信息,「聽」的時間大約佔10%,所以一個人成長到16歲的年紀,他/她所聽到的語音訓練時間大概有14016小時,關於這個數據,我後面會提到一個對比。

回到Alexa,我們把數千個小時的真實語音訓練數據存儲到S3中,使用EC2雲上的分布式GPU集群來訓練深度學習模型。

在訓練模型的過程中,用MapReduce的方法效果並不理想,因為節點之間需要頻繁地保持同步更新,不能再通過增加更多的節點來加速運算。我們可以這樣理解,那就是GPU集群更新模型的計算速度非常之快,每秒都有幾次更新,而每次更新大約是模型本身的大小。也就是說,每一個線程(Worker)都要跟其它線程同步更新幾百兆的量,而這在一秒鐘的時間裡要發生很多次。所以,MapReduce的方法效果並不是很好。

我們在Alexa裡的解決方法就是,使用幾個逼近算法(Approximations)來減少這些更新的規模,將其壓縮3個量級。這裡是我們一篇2015年論文的圖表,我們可以看到,隨著GPU線程的增加,訓練速度加快。到 40個GUP線程時,幾乎成直線上升,然後增速有點放緩。80 GPU線程對應著大約55萬幀/秒的速度,每一秒的語音大約包含100幀,也就是說這時的一秒鐘可以處理大約90分鐘的語音。前面我提到一個人要花16年的時間來學習1.4萬小時的語音,而用我們的系統,大約3個小時就可以學習完成。

這就是我們大致的深度學習基礎架構。

Alexa的語音識別

我們知道語音識別系統框架主要包括四大塊:信號處理、聲學模型、解碼器和後處理。

首先我們將從麥克風收集來的聲音,進行一些信號處理,將語音信號轉化到頻域,從每10毫秒的語音中提出一個特徵向量,提供給後面的聲學模型。聲學模型負責把音頻分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文本。

在這幾個步驟中,我們或多或少都會用到機器學習和深度學習的方法。但是我今天主要講一下聲學模型的部分。

聲學模型就是一個分類器(classifier),輸入的是向量,輸出的是語音類別的概率。這是一個典型的神經網絡。底部是輸入的信息,隱藏層將向量轉化到最後一層裡的音素概率。

這裡是一個美式英語的Alexa語音識別系統,所以就會輸出美式英語中的各個音素。在Echo初始發布的時候,我們錄了幾千個小時的美式英語語音來訓練神經網絡模型,這個成本是很高的。當然,世界上還有很多其它的語言,比如我們在2016年9月發行了德語版的Echo,如果再重頭來一遍用幾千個小時的德語語音來訓練,成本是很高的。所以,這個神經網絡模型一個有趣的地方就是可以「遷移學習」,你可以保持原有網絡中其它層不變,只把最後的一層換成德語的。

兩種不同的語言,音素有很多是不一樣的,但是仍然有很多相同的部分。所以,你可以只使用少量的德語的訓練數據,在稍作改變的模型上就可以最終得到不錯的德語結果。

雞尾酒派對難題

在一個充滿很多人的空間裡,Alexa需要弄清楚到底誰在說話。開始的部分比較簡單,用戶說一句喚醒詞「Alexa」,Echo上的對應方向的麥克風就會開啟,但接下來的部分就比較困難了。比如,在一個雞尾酒派對中,一個人說「Alexa,來一點爵士樂」,但如果他/她的旁邊緊挨著同伴一起交談,在很短的時間裡都說話,那麼要弄清楚到底是誰在發出指令就比較困難了。

這個問題的解決方案來自於2016年的一份論文《錨定語音檢測》(Anchored Speech Detection)。一開始,我們得到喚醒詞「Alexa」,我們使用一個RNN從中提取一個「錨定嵌入」(Anchor embedding),這代表了喚醒詞裡包含語音特徵。接下來,我們用了另一個不同的RNN,從後續的請求語句中提取語音特徵,基於此得出一個端點決策。這就是我們解決雞尾酒派對難題的方法。

語音合成

Alexa裡的語音合成技術,也用在了Polly裡。語音合成的步驟一般包括:

第一步,將文本規範化。如果你還記得的話,這一步驟恰是對「語音識別」裡的最後一個步驟的逆向操作。

第二步,把字素轉換成音素,由此得到音素串。

第三步是關鍵的一步,也是最難的一步,就是將音素生成波形,也就是真正的聲音。

最後,就可以把音頻播放出來了。

Alexa擁有連續的語音合成。我們錄下了數小時人的自然發音的音頻,然後將其切割成非常小的片段,由此組成一個資料庫。這些被切割的片段被稱為「雙連音片段」(Di-phone segment),雙連音由一個音素的後半段和另一個音素的前半段組成,當最終把語音整合起來時,聲音聽起來的效果就比較好。

當你創建這個資料庫時,要高度細緻,保證整個資料庫裡片段的一致性。另外一個重要的環節是算法方面的,如何選擇最佳的片段序列結合在一起形成最終的波形。首先要弄清楚目標函數是什麼,來確保得到最合適的「雙連音片段」,以及如何從龐大的資料庫裡搜索到這些片段。比如,我們會把這些片段標籤上屬性,我今天會談到三個屬性,分別是音高(pitch)、時長(duration)和密度(intensity),我們也要用RNN為這些特徵找到目標值。之後,我們在資料庫中,搜索到最佳片段組合序列,然後播放出來。

PS:文章由雷鋒網獨家原創,未經許可拒絕轉載~

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT
    本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。
  • 亞馬遜首席科學家:揭秘 Alexa 語音識別技術
    Nikko Strom,現任亞馬遜首席科學家,是 Echo 和 Alexa 項目的創始成員,在語音識別技術相關領域有著資深的研究及從業經驗:aKhednc1997 年於瑞典皇家理工學院語音通信實驗室獲得博士學位,後擔任MIT計算機科學實驗室研究員;2000 年加入語音技術初創公司 Tellme Networks;2007
  • 一文看懂 Echo 和 Alexa,亞馬遜如何用蘋果的玩法在玩語音?
    而如果你是一個開發者,如何給 Alexa開發技能插件呢?  接口地址為: https://avs-alexa-na.amazon.com ,請求接口時傳遞錄音文件, Alexa的雲端同時進行了語音識別和語義理解,將音頻文件轉換為文字,然後對文字進行理解,如果觸發了某個技能插件的「意圖」,則調用開發者的定義第三方伺服器的接口,如果是聽歌或聽書等「意圖」,則調用亞馬遜自家的資源。
  • 從ACM班、百度到亞馬遜,深度學習大牛李沐的開掛人生
    以倒敘時間線來看,李沐目前為止的職業和學習生涯大致是這樣的: 亞馬遜首席科學家,2017 年 3 月至今 百度首席架構師,2014.4-2015.12同授這門課程的還有李沐的亞馬遜同事 Alex Smola。課程內容大致是按照李沐老師的開源新書《動手學深度學習》來安排的。
  • 亞馬遜Alexa副總裁Rohit Prasad|伊利諾伊理工大學卓越校友
    「我是由亞馬遜開發的。」這是Alexa對這個問題的正常回復。但她沒有提到的是,從五年前開始,那個給Alexa注入生命並在技術方面引領前進的人,是來自賈坎德邦蘭契市的工程師Rohit Prasad。Alex是亞馬遜明星產品 Echo 上搭載的智能語音助手,更確切的說,是「人機互動平臺」,可看作是亞馬遜的 「Siri」。Rohit Prasad是它最初的創作者之一,自2016年5月以來,Prasad一直擔任Alexa人工智慧部門的副總裁兼首席科學家。
  • Alexa首席科學家:圖靈測試對AI沒啥意義了
    近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章(原文連結在最後),做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。「機器能否思考?」這是加密學和人工智慧先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。
  • AI聖經《深度學習》中文版震撼上市
    近日,由深度學習領域三位前沿、權威的專家Ian Goodfellow、Yoshua Bengio和Aaron Courville合著的人工智慧領域的聖經、長期位居美國亞馬遜人工智慧類圖書榜首的《深度學習》中文版震撼上市。最近十年,深度學習成為了風靡全球的人工智慧新技術。
  • 微軟小冰首席科學家武威解讀 EMNLP 論文:聊天機器人的深度學習模型
    近日,在雷鋒網 AI 研習社公開課上,微軟小冰首席科學家武威就為大家帶來了其在 EMNLP 大會上分享的精華部分。公開課回放視頻網址:http://www.mooc.ai/open/course/606?
  • 亞馬遜Alexa新突破:將縮寫符號秒轉文字,錯誤率降低81%
    據研究人員Alexa AI部門應用科學家Ming Sun稱,相比於現有的最佳神經系統,他和同事研究的AI文本規範系統能將文本規範化的錯誤率降低81%,並且還能將延遲時間減少63%。此外,子字單元使AI模型能夠更好地處理以前沒有見過的輸入單詞。
  • 實戰入門深度學習,李沐中文新書贈送
    近年來,不論是計算機專業的學生,還是已在科技網際網路行業從業多年的技術人員和其他從業者,人們對深度學習的興趣從未如此高漲。雖然許多深度學習領域的專家學者開設了各種各樣的入門課程和教材,但真正系統性梳理這一領域知識、同時能夠提供理論講解和代碼實現的書籍屈指可數。此外,由於語言等因素,中文版本的優秀深度學習教材也是鳳毛麟角。
  • 追一科技首席科學家楊振宇:對話機器人系統是怎麼煉成的
    追一科技首席科學家楊振宇相比於語音和圖像,自然語言是一個有「更多需求」和「更少標準答案」的領域。紮根自然語言的公司通常也不是從技術和方法出發,而是選擇一個具體的需求,然後用所有可能的方法解決它。追一就是這樣的一家公司,它瞄準的是「對話機器人」這個領域,把問題分類、分解、逐個建立準確高效的機器人,再有序集成起來。三月,機器之心有幸在深圳追一科技總部對首席科學家楊振宇進行了採訪,我們仔細聊了聊「對話機器人是怎樣煉成的」,以及在他眼裡,深度學習與自然語言最好的結合方式是怎樣的。
  • 亞馬遜Alexa AI新突破:將縮寫符號秒轉文字,錯誤率降低81%
    據研究人員Alexa AI部門應用科學家Ming Sun稱,相比於現有的最佳神經系統,他和同事研究的AI文本規範系統能將文本規範化的錯誤率降低81%,並且還能將延遲時間減少63%。此外,子字單元使AI模型能夠更好地處理以前沒有見過的輸入單詞。
  • 除了剛加盟的亞馬遜頂級科學家,阿里這幾年還挖來了這些技術大牛
    除了剛加盟的亞馬遜頂級科學家,阿里這幾年還挖來了這些技術大牛 iwangshang / 何承軒 / 2017-06-28 摘要:依靠「人才爭奪戰」,阿里巴巴將更快速地推動自己的科技創新
  • 百度前首席科學家吳恩達創業:公司叫「深度學習.人工智慧」
    吳恩達百度前首席科學家吳恩達幾小時前剛剛(編註:美國加州當地時間6月23日15:08,北京時間6月24日6:06)在推特上宣布了他的下一個企業Deeplearning.ai(編註:Deeplearning,即「深度學習」;ai,即「人工智慧」),只有一個標誌,一個域名
  • Google首席科學家Vincent Vanhoucke:機器人和深度學習正在發生...
    Vincent Vanhoucke是Google的首他在今天的演講中提到,robotics的研究現在也正面臨著一場深度學習的革新,實現這一點,需要現在的機器學習從業者跳出監督學習的舒適區,面臨一些棘手的問題:數據稀缺,如何使機器實現技能轉換以及持續性的學習等等。Vanhoucke也提到,這也是人工智慧從理論到實踐的必經之路。Vanhoucke分別介紹了他在圖像、語音(及機器翻譯)領域和機器人(主要是機械手抓取)的一些研究成果。
  • 專訪5位技術人,探秘AI酷職業背後的故事
    Ghosh在獲得學士學位後就加入了野村證券(日本企業)擔任數據科學家,但在一年後辭職,他解釋離職原因道:「我堅信自己肯定會在某些地方影響某些人,但現階段的工作讓我看不清未來的自己會如何發展,所以我選擇辭職」。
  • 亞馬遜Alexa推「私語模式」 能夠自動調節音量
    據外媒最新消息,亞馬遜公司最近在其語音助手Alexa中推出了一個智能功能「私語模式」,能夠自動調節音量。據多家國外科技媒體報導,過去在亞馬遜Alexa、谷歌助手等語音助手中,開發團隊並未考慮到音量給用戶體驗帶來的效果,這有時候會造成擾民。
  • 微軟亞洲研究院主任研究員鄭宇博士:如何用深度學習處理時空大數據...
    分享內容本次鄭宇博士的分享題目是「深度學習在時空數據中的應用」。分享內容為:探討時空數據(區別於文本、語音和視頻數據)的特性,以及深度學習技術在時空大數據上的使用和設計方法,分享基於深度學習的城市人流量預測的實戰案例,並介紹深度學習和深度強化學習在圍棋中的應用(圍棋也可看作一種時空數據)。
  • 曠視首席科學家孫劍:深度學習變革視覺計算丨CCF-GAIR 2019
    會上,曠視首席科學家、研究院院長、西安交通大學人工智慧學院院長孫劍帶來了題為《深度學習變革視覺計算》的精彩分享。孫劍從視覺智能、計算機攝影學以及AI計算3個方面介紹了計算機視覺研究領域的變革。他首先回顧了深度學習發展歷史,深度學習發展到今天並不容易,過程中遇到了兩個主要障礙:第一,深度神經網絡能否很好地被訓練。
  • 亞馬遜Alexa進化史:當話語遇見AI 生活發生了巨變|alexa|谷歌|微軟...
    而目前,新的用戶界面正在逐漸適應人類,Witlingo公司的執行長Ahmed Bouzid說道。該公司製造了各種各樣適用於銀行、大學、法律公司和其他企業的語音驅動應用程式。對於亞馬遜來說,其最初只是想製造一個自動唱機,但後來這一項目變得越來越大:它變成了一種基於人類數據並且可以不斷學習的人工智慧系統。