蘋果連發三篇機器學習新研究:全是講如何讓Siri更厲害

2020-12-05 量子位

安妮 編譯整理量子位 出品 | 公眾號 QbitAI

Siri的本領升級了。

蘋果上月推出的機器學習博客今天連更3篇新文,全部是有關Siri的研究技術。

三篇講了啥?

在這篇題為《Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的文章中,蘋果介紹了Siri語音合成技術的演變過程,並對比從iOS 9到即將應用在新版本中iOS 11的聲音變化,詳細說明Siri的進化過程。

另外兩篇分別題為《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》和《Inverse Text Normalization as a Labeling Problem》,一篇提到Siri如何用機器學習格式化地展示日期、時間等的呈現技術,另一篇講解了如何讓Siri支持更多語言。

蘋果機器學習博客地址:

https://machinelearning.apple.com/

看來為了讓Siri體驗更好,蘋果還是下了不少心思。

下面,量子位挑選《Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》的關鍵部分翻譯整理,與大家分享Siri說話更自然流利背後付出的苦功夫。

深度學習如何讓Siri更會說話

隱馬爾可夫模型(HMM)通常被用在目標預測的統計模型中,因為它們直接模擬聲音參數的分布,可以輕鬆利用相對熵(KLD)計算目標損失。

然而,基於深度學習的方法在參數語音合成中表現通常勝過HMM,我們希望將深度學習的優勢轉化到混合單元選擇合成中。

Siri的文本轉語音(TTS)目標是訓練出基於深度學習的統一模型,能夠自動準確預測資料庫中單元目標和級聯損失。

因此,該方法使用深度混合密度網絡(MDN)預測特徵值分布,而沒有用HMM。這裡的MDN結合了傳統的深度神經網絡(DNN)與高斯混合模型(GMM)。

傳統的DNN是輸入層和輸出層間有多個隱藏神經元的人造神經網絡,可以建立輸入和輸出特徵之間複雜的非線性關係。我們可以通過反向傳播調整網絡的權重訓練DNN。

與之相比,GMM使用一組高斯分布提供給定輸入和輸出數據的概率分布,並且通常使用期望最大化(EM)方法訓練。MDN通過DNN對輸入和輸出數據的複雜關係建模,輸出概率分布信息,從而結合了DNN和GMM的優點。

深度混合密度網絡,用來指導單元選擇合成語音特徵的均值和方差

在Siri上,我們使用基於MDN的統一目標和連接模型,來預測語音的目標特徵(頻譜、音高和持續時間)分布,以及單元間的連接成本指導單位搜索。由於MDN的輸出是以高斯概率的形式分布,我們可以將其作為目標和級聯成本的損失函數(Loss Function)。

無論是在像共振峰等穩定且更新緩慢的語音特徵,還是多變的特徵中,這種做法的優勢均顯而易見。考慮到這種可變性,可以選用深度MDN模型中嵌入的方差調整參數。

由於預測方差與上下文相關,可以將它們看作自動依賴上下文權重的損失。因為我們需要計算特定目標和連接損失,所以這對於提高合成質量非常重要。

在使用深度MDN的基礎上對單位進行評分後,我們用傳統的維特比算法尋找單位最佳路徑。然後,再用波形相似重疊相加算法(WSOLA)將各單元連接,找出最優級聯時間,創建平滑連續的合成語音。

最後,附論文連結地址:

https://machinelearning.apple.com/2017/08/06/Siri-voices.html#9

論文翻到底還能聽到從iOS 9到11 Siri的聲音對比,iOS 11版的Siri語調自然,口語力驚豔。

相關焦點

  • 機器學習助力凝聚態物理研究:實現拓撲量子計算的新希望
    選自Wired、Nature Physics等機器之心編譯參與:微胖、李亞洲發表在 Nature Physics 上的兩篇研究證實,機器學習算法或許可以在識別凝聚物質相變上扮演重要角色,也為量子計算機研究帶來新的曙光。把一盤水放到冰箱裡,它暫時呈現的是液體。然後水的分子堆積成小六邊形,就形成了冰。
  • 「天才少年」曹原再次連發兩篇Nature,都講了什麼?-虎嗅網
    當地時間5月6日,因發現魔角石墨烯超導態而榮獲《Nature》「2018年度科學人物」榜首、麻省理工Pablo Jarillo-Herrero課題組成員曹原,再次連發兩篇Nature,講述了團隊在魔角石墨烯取得的一系列新進展。其中一篇Nature,曹原是第一作者兼共同通訊作者;另一篇Nature,曹原為共同第一作者。
  • 曹原再次連發2篇Nature!時隔兩年天才少年再現壯舉
    這也是在繼2018年3月5日在 Nature 以背靠背長文形式在網站刊登了重大研究成果後,曹原再次背靠背連發兩篇Nature。 時隔2年,曹原再次做出這樣的壯舉。連續兩次背靠背以第一作者身份發表四篇Nature,即便是學術界大咖也沒有幾人能做到。
  • Jeff Dean兩年AMA全盤點:26個關於谷歌大腦和機器學習未來的問題...
    網友:谷歌大腦的機器學習團隊首先是一個大公司的一部分,那你們對於研究方向和總體的未來路線圖送如何劃分優先級,如何抉擇的?很大程度上決定於你們近期的工作成果、每個成員各自的研究內容中發現的新的研究領域,還是團隊領導人決定,還是總體上要向谷歌的商業需求靠攏?
  • 24歲「天才少年」曹原再次一天連發2篇Nature
    5月6日,被譽為「天才少年」的95後博士曹原分別以第一作者兼共同通訊作者、以及共同第一作者的身份,在 Nature 上連發2篇論文。Nature同天刊發兩篇論文5月6日,24歲的曹原與其博導Pablo Jarillo-Herrero背靠背連發兩篇Nature文章,介紹魔角石墨烯研究的新突破。
  • 中科大「天才少年」,曹原再次連發2篇Nature!石墨烯取得新進展
    值得關注的是,本次兩篇Nature論文的第一作者、麻省理工學院博士生曹原來自中國。他發現:當兩層平行石墨烯堆成約1.1°的微妙角度,就會產生神奇的超導效應。這一發現轟動國際學界,直接開闢了凝聚態物理的一塊新領域。如今,正有無數學者試圖重複、拓展他的研究。
  • 當代人如何被siri「氣死」的?xswl……
    02@愛德華黑化版siri03@環兒要努力活著呀我必須擁有姓名04過於貼心…05天貓精靈:是不是玩不起?06@雨花區鈕祜祿新一問小愛會不會唱一人飲酒醉,響了半天前奏告訴我它不會07上班摸魚機器?小冰:從前有座山,山裡有座廟廟裡有個老阿姨,法號叫siri-end-舉報/反饋
  • 三彈連發?華為傳來三個新消息,美媒:華為是信心堅決
    例如,在系統方面,Windows佔領了桌面市場,而安卓和IOS則拿下了移動市場,而這三款系統的擁有者,分別是微軟、谷歌和蘋果。在晶片方面,英特爾、AMD以及英偉達佔領了PC晶片市場,而高通則佔領了移動晶片市場,可以說,國內廠商在系統和晶片方面,基本上都繞不開這些。但華為是一個例外,因為華為早就成立了海思,並在2008年推出了首款手機晶片。
  • 連發三篇Nature,Science,創紀錄的速度,把...
    5.14《Nature》: 利用主動機器學習加速發現CO2電催化劑  利用二氧化碳和可再生能源,將二氧化碳電化學還原為化學原料,既能減少石化燃料的使用,又能有效減少大氣中中的二氧化碳,可謂一舉多得。當目標是將CO 2還原成更有價值的多碳產品時,銅一直是這一反應的主要電催化劑,當以乙烯為目標還原物時,工藝仍需改進。
  • 新的蘋果手機如何不堪?新機到手三日使用體驗:依然是最強手機
    聽說這次蘋果的發布會是有史以來最無驚喜的一次,在發布會提前我們已經把所有的機型都猜測完畢,雖然最後呈現的名字不大一樣,但是並沒有大的區別,不管是雙卡還是低配版的蘋果都讓我們一覽無餘。在會前就有很多人討論這次的蘋果沒有太大的創新,而且在發布會以後這樣的呼聲更加的高漲。
  • 保送北大,連發三篇Science,川妹子再發重磅級研究成果
    開掛人生獲國際奧賽金牌、保送北大、連發3篇Science,公司大獲成功3篇Science2013年秋天,楊璐菡從哈佛博士畢業,獲得哈佛大學生物和轉化醫學博士學位。該研究成功克隆世界首批內源性逆轉錄病毒活性滅活豬,成功解決了異種器官移植臨床化最重要的安全性問題。這意味著異種器官移植研究邁出關鍵性一步。
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 機器人,不經過自然選擇,直接到達進化頂峰,比人類進化的更高級
    自動學習,蘋果siri,語音助手,蘋果語音助理。深度學習,自主學習,AI全面超過人類,奇點,從無到有,自己產生智能。數據,機器人免疫人類的病毒,免疫物理攻擊。計算機科學,AI,更高級的計算機科學。周圍的一切都只是數據。《黑客帝國》,《攻殼機動隊》,《銀翼殺手》,《駭客任務》。
  • 看機器學習如何解釋混沌系統
    專家認為,這篇論文表明未來我們或許能夠通過機器學習算法來預測天氣,而不是通過複雜的大氣模型。  除了天氣預報外,機器學習技術還可以幫助監測心律失常,從而預測即將發生的心臟病,並監測大腦中神經突起的神經元放電模式。
  • 火爆的圖機器學習,2020年將有哪些研究趨勢?
    又將有哪些新的研究趨勢呢? 即將於4月份在衣索比亞舉辦的ICLR 2020是一個能夠很好反映這些問題的會議。這個會議是由深度學習三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭創辦,旨在關注有關深度學習各個方面的前沿研究。在ICLR 2020中共有150篇投稿與圖機器學習有關,而其中有近1/3的論文都被錄用了,這也說明圖機器學習火熱依舊。
  • 認知智能又有新突破!阿里巴巴18篇論文入選機器學習頂會KDD 2020
    5月25日,國際機器學習頂會KDD 2020公布了論文入選結果,阿里巴巴18篇論文入選,是近幾年KDD會議論文入選數量最多的科技公司之一。據介紹,18篇論文中,涵蓋阿里巴巴在認知智能、曝光偏差、圖表示學習等前沿AI領域的研究突破。
  • 保送北大,連發三篇Science,這位80後川妹子近日再發重磅級研究成果
    開掛人生獲國際奧賽金牌、保送北大、連發3篇Science,公司大獲成功01 獲國際奧賽金牌、保送北大02 連發3篇Science2013年秋天,楊璐菡從哈佛博士畢業,獲得哈佛大學生物和轉化醫學博士學位。並開始親手組建和帶領團隊,設計實驗,開展異種器官移植的工作。
  • 「天才少年」曹原再次連發2篇Nature!「石墨烯駕馭者」王者歸來
    5月7日,被譽為「天才少年」、「石墨烯駕馭者」的95後博士曹原分別以第一作者兼共同通訊作者、以及共同第一作者的身份,在Nature上連發2篇論文。另一篇研究題為「Mapping the twist-angle disorder and Landau levels in magic-angle graphene」,研究團隊致力於研究扭曲角的分布信息。
  • 2018.12十大機器學習熱門網文
    articles-for-the-past-month-v-dec-2018-37b229f930a1在過去的幾個月中,我們對接近11400篇機器學習的文章進行了評級,以便選出其中最優秀的10篇來幫助你規劃你的職業生涯(只有0.7%的概率獲選)。
  • 文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍
    文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍 2019-08-05 08:04 來源:澎湃新聞·澎湃號·湃客