微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019

2020-12-05 CSDN

演講者 | 趙晟、張鵬

整理 | 伍杏玲

【CSDN 編者按】9 月 7 日，在CSDN主辦的「AI ProCon 2019」上，微軟（亞洲）網際網路工程院人工智慧語音團隊首席研發總監趙晟、微軟（亞洲）網際網路工程院 Office 365資深產品經理，Office 小程序負責人張鵬共同發表《微軟語音AI與微軟聽聽小程序實踐》的主題演講，分享微軟人工智慧語音的技術以及微軟聽聽小程序的落地實踐。

詳情如何？我們一起來看看。

以下為演講內容：

趙晟：

小程序是現在移動開發的新生態、新趨勢。語音AI技術跟移動開發是非常有關係的。大家平時開車時不方便用手輸入，可以用語音輸入，開車時想聽一些東西，完全可以用文字轉語音的技術去聽這些內容。基於這些考慮，微軟語音AI和微軟聽聽小程序合作做了些嘗試，今天給大家分享這裡面的故事。

趙晟

微軟語音AI的技術突破

微軟在30多年前開辦微軟研究院時，已開始投入大量的人力物力在語音和語言上。近幾年來，微軟在語音識別上首先取得突破，在2016年，語音識別的準確度已達到跟人相似的水平。

2018年，在中英機器翻譯上和人類做比較，發現機器翻譯的質量跟專業翻譯人員的結果完全可以相媲美。

2018年9月，微軟首先發布了基於神經網絡的語音合成產品服務，它與人聲的自然度得分的比例達到98.6%，也就是說非常接近人聲。

語音識別之路微軟在語音識別的具體突破有哪些？

語音識別主要核心指標是詞錯誤率，就是詞識別錯誤佔多少比例。在SwitchBoard會話數據集上，語音識別錯誤率開始非常高，根本不能用，到2016年，微軟取得了突破，達到5.9%的錯誤率，2017年進一步降低到5.1%的錯誤率，這個錯誤率跟專業人員轉寫錄音的錯誤率是相當的。

大家聽聽這個數據集的例子：電話上有兩個人在交流，語音具有不連續性、噪音、口音，所以識別難度對機器來講是非常大的，微軟使用10個神經網絡技術，比如：CNN、ResNet、VGG等，多模型輸出打分、多系統融合，得到了這個了不起的突破。

機器翻譯的裡程碑從1980年的傳統機器翻譯，到1990年的統計機器翻譯，再到2010年，深度學習機器翻譯技術開始興起。2018年，微軟首度提出一個任務，把機器跟人在中英新聞翻譯上做比較，讓專業翻譯人員和機器翻譯同樣的句子，翻譯後請懂雙語的老師和學生去對翻譯結果用0-100分進行打分。

可以看到微軟的Human Parity機器翻譯系統已經超過或者接近專業人員的翻譯水平。它的突破用到了新技術比如對偶學習，用大量無標註數據提高現有的翻譯系統。還有推敲網絡，先有一個初始翻譯，再用另外一個網絡進行再一次的修正，同時運用多系統融合技術，最終達到這個突破性的結果。

語音合成技術我們再看看語音合成技術，文字轉語音這個技術也是非常悠久的語音AI技術。

最開始是基於人的發音原理的合成器，然後90 年代用拼接的方法，把一句話分成很小的單元，然後進行拼接，一開始的拼接是小語料庫，自然度一般。在1999年左右，出現基於大語料庫的拼接，這時需要收集到成千上萬的句子，把它們切分開來，用一種選擇策略去選擇最合適的單元拼接在一起，自然度顯著提升，但是帶來新的問題，比如有些拼接不平滑。

2006年左右，基於HMM模型的合成技術興起，它的好處是非常平滑，但是也帶來負作用，就是聲音過於平滑，讓人聽出來覺得不夠具有表現力。深度學習的興起在合成領域也得到了應用，最近兩三年推出的神經網絡TTS，是語音合成技術的突破。谷歌提出來Tacotron, WaveNet這些模型，把語音自然度提升新的水平。

微軟在2018年，2019年提出了Transformer TTS、Fast Speech等高自然度神經網絡TTS模型，並在2018年9月首度推出產品化接近人聲的端到端Neural TTS。

Neural TTS模型為什麼Neural TTS模型可以接近人聲？

傳統的TTS是一個複雜的流程，每一步都要進行單獨優化，有些模塊需要經驗規則，人工優化權重等等。神經網絡的TTS是將合成流程簡化了，我們可以看到它基本就三段，有一個前端文本分析，一個聲學模型，一個Neural Vocoder聲碼器。神經網絡的聲碼器可以非常接近人的音質。

採用最新的基於注意力的聲學模型去進行建模韻律，更加接近人聲的韻律。兩者疊加起來，就可以到更符合人的韻律和音質的高質量合成語音。當然，帶來的負作用是計算量非常大。

神經網絡TTS的架構非常具有可擴展性，各家都提出不同的聲學和聲碼器模型，有各自的特點，有的計算量大一點，有的計算量小一點，質量也有所不同。

Neural TTS還有一個特點是遷移學習，我們可以提取條件參數，對合成進行控制，比如我們可以先訓練一個多說話人的基礎模型，使用幾十小時到上千小時數據訓練得到一個模型。有了基礎模型以後可以做很多有意思的事情，比如訓練我自己的聲音，或者生成有情感的、多風格的、跨語言的聲音，這些都可以做到。

語音服務概覽

前面講了語音的新技術突破，可能有人就會問，有這麼多新技術，怎麼在產品裡用它？我給大家介紹語音服務有哪些功能供大家使用。

微軟的語音服務基本都在微軟Azure這個平臺上，提供語音轉文字、文字翻譯等標準服務。

Azure語音雲端服務

語音轉文字有很多功能，如實時識別文字、一個人說話、多人對話、會議場景。一個典型場景是大家開會後想看會議內容，可用語音服務把語音轉成文字，並且做一些自動處理的摘要，這樣可快捷地查看會議內容。

目前跟人類接近的文字翻譯系統已上線，神經網絡模型已更新，翻譯質量大幅度提升。

文字轉語音我們提供神經網絡 TTS、4種語言、5個聲音。這些服務都可以用Rest和WebSocket SDK調用。

我們還提供語音到語音的翻譯系統，比如翻譯機場景，把中文語音輸入進去，翻譯成英文，得到語音流，可以直接播放，不用再配置其他服務，簡化開發步驟。這些服務都可以在以下網址訪問使用。

https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

雲端模型定製服務前面我提到的API都是標準模型，所謂標準模型就是微軟幾十年收集的數據做的大模型，大模型適用於大量通用的場景。但是AI有一個特點是對於不同場景相關的數據做一些自適應，可達到更好的效果。

典型的例子是有些公司裡面有自己的硬體採集語音、有自己的關鍵詞，如果有這些場景數據，可以大幅度提高語音識別準確率。我們在語音識別、翻譯、合成模型上都提供定製功能，提供給各位開發者一起創建生態系統，你可以把數據放進去，打造成行業的模型，提供給客戶使用。

模型定製地址：https://speech.microsoft.com/

Edge 端的語音容器前面提到基於雲端的語音服務，雲端模型定製，還有一個很重要的場景是需要把AI放到離線或者私有雲裡面，這就是常說的Edge計算。因為這些端的計算力得到很大提高，可以跑起來複雜的模型。

包括手機端的Tensorflow都是類似的利用Edge部署的想法。我們語音服務在Edge有一個部署方案，它是基於Docker的容器，這樣帶來很多好處，比如安全可靠、延遲很小，充分利用現有硬體，接口和雲端化部署保持一致，使用起來非常方便。

比如呼叫中心裡有大量的客服語音對話，對此進行分析就可以了解服務的滿意度。我們已形成了解決方案：在呼叫中心裡定製模型，定製後，用於大批量處理錄音，然後使用自然語言處理進行智能分析。在國內我們聯合了聯合利華、中國移動利用容器化的語音服務去完成這些服務。

容器可以在此申請使用：https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-container-howto

Unified Speech SDK在客戶端SAPI、SpeechFX是Windows系統自帶的傳統開發SDK。我們現在提出了Unified SDK，支持訪問雲端的語音識別、語音合成、語言翻譯等語音服務。這個SDK也支持容器化的語音服務和離線語音引擎，它是真正跨平臺的，支持Windows、Linux、安卓、iOS、瀏覽器平臺。SDK採用跨平臺架構，提供有各種語言的綁定，中間有統一的C API，底層有跨平臺的庫，可以快速支持跨平臺的遷移。

短語音識別代碼

簡單看幾個語音識別例子，各種音箱助理要做識別，這是短句語音識別場景，你可以創建一個語音識別對象，然後異步開始識別，它是從音效卡採集數據進行識別，然後把結果反饋給你。

SDK免費下載使用：https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-sdk

語音合成平臺

語音合成平臺的使命是讓每個人和組織都有喜歡的數位化聲音。這個語音合成平臺是既給內部客戶使用，也給外部客戶使用，內部客戶比如像微軟的語音助理用的就是同樣這個語音合成平臺。我們在不斷迭代這個平臺，在18個數據中心裡都有部署，真正達到全球化的部署，出海企業可以使用我們國外的數據中心。

接下來看看基於神經網絡TTS的多種風格語音。為什麼要有多風格的語音？因為合成一段語音的話，文字和語音要有一定的匹配，讀新聞時需要正式的聲音，機器人回復的時候需要考慮上下文需要，採取帶有情感的回覆。我們提供了風格化的聲音供大家使用，通過輸入的SSML express-as標記進行風格控制，使用起來是非常容易的。

中文上我們也正在開發新的風格，比如有親和力的助理場景，客服場景裡，客服機器人的語氣應該是比較熱心的。有時機器人有需要一些技能，我們這個曉曉也會唱歌。另外新聞場景，需要比較正式的語氣來讀新聞。讀微信公眾號的文章不用那么正式，但是也要相對要規範。情感故事場景，大家晚上睡覺前可以聽聽心靈雞湯等等。聲音可以千變萬化，我們根據用戶的需求去定製風格，同時也有不同的音色，比如男生、老年人聲音、小孩聲音，這些都可以定製。

語音合成API調用

這是語音合成API調用，創建一個合成器對象，你把文字送給它，它就可以開始合成了，這是合成到音效卡。不同語言也非常類似，學習起來也非常容易。

調用API需要配置語言，我們有很多種語言，所以需要配置一下語言參數。不同的音色，聲音也可以首先配置。輸出格式，把語音輸出到MP3壓縮，也可以通過屬性配置。

合成到文件保存，有時開發服務時需要把音頻合成到一個流裡然後轉發到其他地方，那麼就創建一個PullStream，後面的合成代碼是一樣的，可以像文件一樣去讀取這個合成的數據。還有一個PushStream，相當於回調的方式，不同的開發人員有不同的喜好，我們提供不同的API，方便大家使用。回調時的數據是通過回調方法來進行處理。

語音合成API也提供一些元數據，比如詞邊界，可以告訴你讀到哪一個單詞了，此外有些場景需要做口形匹配。這時註冊一個事件，你可以得到這些元數據，這個功能在微軟的Edge瀏覽器最新發布的新版本裡已經用到了，朗讀時文字高亮顯示，供閱讀者了解當前的進度。

語音助手合成

我們來看看語音助手的典型解決方案，典型場景有音箱、客服機器人、網際網路車載語音、小程序集成。

架構圖

這是我們推薦的解決方案或者架構：客戶端可以用語音激活，用自定義的喚醒詞，比如「你好，小娜」，首先把服務喚醒，你可以採集數據通過SDK送到雲端，雲端有喚醒詞校驗，再確認一下這個喚醒是不是真的對，降低誤觸發，然後對音頻流進行識別，識別出的文字送給機器人的服務。

這是實現鬆耦合的好辦法，類似機器人的服務都是自然語言文字進入、文字輸出，所有這樣的服務可以註冊到我們這個框架裡來。回復文字之後回到語音服務，進行語音合成，合成的語音可以通過流式返回客戶端通過SDK播放，這是整個調用流程。這個架構的優點是把雲端語音服務和喚醒詞放在一起，可以減少客戶端調雲端的次數。全雙工對話也可以用類似方法實現，連接的協議是WebSocket。

更多信息可參見: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/tutorial-voice-enable-your-bot-speech-sdk

在微信小程序裡可以用類似這樣的架構去做，我們在GitHub上提供了示例：

https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/TranslatorDemo

語音內容生產

當前現代快節奏的生活使得信息獲取變得碎片化和多任務化，我們常常遇到一些痛點：傳統的有聲內容製作主要靠聲優的錄音；大量的文本內容正在等待有聲化；有聲內容生成受限於人員，時間，環境等因素，不能最大化產能。

那麼如何提高人們的閱讀效率呢？

一種很好的方式是通過聽的方式消化這些信息，開車時、睡覺前都可以聽一聽，傳統方案由人來讀，這非常受到限制。有了基於神經網絡的TTS，我們在想能不能提供效率更高的方案。

這個方案是這樣工作的，各種信息流可以用雲服務把它整理，送到語音調優服務，你可以選擇調一下比如多音字，批處理合成API把調好的SSML合成為音頻放在存儲服務裡，供你的應用去使用。

舉一個電子書例子，這個電子書聽起來更生動一點，還有角色的變化。前面說到了調音工具，TTS輸入或者語音合成輸入是SSML格式。我們提供界面工具可以可視化去調讀音、停頓、背景音樂，一定程度上可以用它調出完全接近錄音的效果。

定製語音

聲音是一個品牌，每個人的聲音都是自己的品牌，我們支持讓每個企業都能定製自己的聲音。定製語音的類型有兩類：

1、自助服務開發人員通過網頁或API操作、訓練、部署聲音，自助完成，面向個人開發者。支持三類模型的服務：

（1）基礎模型：30-500句語音，比較相似，高可懂度。

（2）標準模型：3000-6000句語音，自然度比較高，接近Windows上標準模型。

（3）高質量模型：6000-8000句語音，自然度非常高，接近JessaRUS。

2、全包服務

全流程定製語音，專家工程師把控最高質量，也支持基於神經網絡的定製，300句可以做到以前6000-8000句的效果。當然，對於神經網絡的定製要非常小心，我們希望AI的技術不要被濫用，太像了之後人們會擔心自己的聲音被別人做了一個TTS，去外面打騙人的電話等等。所以需要有很嚴格的流程，通過客戶同意才能使用。目前通過商務合作模式進行神經網絡TTS定製，保證技術不被濫用。

自主服務界面接口裡，可上傳所有數據，我們自動進行處理，比如對讀音進行檢測，如果發音不標準的話訓練出來的聲音也不標準。數據較好的話可提交訓練，後臺會起一個訓練流程在GPU去訓練，訓練之後試聽效果，部署後可通過代碼調用或者在網頁上輸文字實時測試。

模型定製也可調用API，這個API是Rest接口，在微信小程序可以調用，也可在後臺調用。代碼支持SWAGGER標準，可以自動生成多種語言代碼。我們提供了管理數據的API，對模型進行管理的API。

做一個好聲音是有技術門檻的，首先要了解你的場景需要什麼樣的風格、需要什麼樣的音色，去選擇合適的風格，然後錄音文本選擇通用文本或者領域相關文本。

錄音也是個技術活，需要儘可能安靜，不要有噪音，保持錄音風格，數據越好出來的質量越高。模型訓練完成之後可以部署到雲端或者容器，可以非常靈活的部署在各個地方。微軟語音AI技術在微信小程序上有不錯的實踐，下面由張鵬分享聽聽小程序在AI的實踐。

為什麼是語音 AI +小程序？

張鵬

張鵬：

Office 365是一套基於雲平臺的服務解決方案，除了大家熟悉的Office編輯工具服務外，還有郵件，社交，會話以及可視化數據與報告等，這些共同構成了一套服務，這套服務我們稱之為Office 365，我們希望把Office 365帶到更多中國用戶使用習慣中去，第一個看重的是微信。

我們為什麼要在微信裡做？

有兩個主要考慮的因素：

第一，微信是月活超過11億的產品，這是任何跨國公司產品進入中國以及本土創新都必須要研究的，微信哪些功能滿足了用戶需求，哪些功能沒有滿足用戶需求，因此Office 365要在中國取得成功，滿足微信用戶的對文檔協作的需求是我們必須要做的事情。。

第二，微信沉澱了極其穩定的社交關係，基於這些社交關係可以看到你的通訊錄裡、各種群裡已經不單是家人和朋友，看看我們微信的各種群，更多的是你的同事、客戶以及上下遊合作夥伴，也就是說很多群是因為工作而產生的，因此在微信裡就有大量的文檔在流轉，我們如何讓這些文檔在微信生態裡可以更高效的被創造出來，可以被安全的被管理，可以更順暢且高效的傳遞，這是我們想在中國探索的一個方向。

第三，小程序2017年1月份誕生，市場上對小程序有各種解讀，有看好的，有不看好的，我覺得任何定義現在下都為時過早。而我們看到的是小程序正在或者將要解決信息孤島的問題，各個App之間信息不通的問題。

Office有同樣的問題，很多文檔內容是留在大家的PC裡或者用戶各種雲盤裡，這些信息並沒有很高效的被協作起來，沒有有效的途徑把有價值的內容做分享。我們認為微信小程序未來正是解決這個問題的解決方案。

基於這幾點，我們2018年投入到小程序裡。

今天分享的小程序叫「微軟聽聽文檔」，「微軟聽聽文檔」探索的第一個問題是PPT在移動端應該是什麼樣子的？如何將信息更好與人協作。

我們有很多群，有很多文檔在流轉，然後這些文檔在群裡是以靜態的形式在流轉，很多情況下用戶都是從PC端拉一個PPT扔到群裡就完了，這種PPT其實是靜態的Word文檔。

如果將PPT下一個定義的話，突出它的主要功能就是怎樣讓大家演講時更有力，提升演講時的演示效果，這是我們移動端的目的。因此，我們打造了「微軟聽聽文檔」。

我們通過在移動端快速地給每一頁文檔做錄音，快速發布，通過微信固有的社交關係去傳播、發布。每頁PPT下面除了有聲音外，還有各種社交屬性：傳播、、發朋友圈、進群、點讚、打賞，這是我們認為PPT在移動端應該有的樣子。更重要的是有人的聲音，也就是演講者的參與。

今天AI大會上我觀察到有很多人會拍照發朋友圈、發到群裡，這也是一種內容的分享方式，但這種分享方式並不很高效，為什麼？

因為這種分享方式裡缺少了最重要的因素，就是演講者、創作者到底在PPT背後傳遞什麼觀點，通過幾張圖片是很難傳遞出來的，這是我們要打造這個產品的目的。

微軟聽聽小程序

我們做這個探索時，關注點有：

第一，創建。我們可以給每個文檔做錄音，背景音樂可以通過微軟AI技術去學習文字和圖片，自動配背景音樂，不用大家主動去選。

第二，PPT有設計內容，Office365有AI設計靈感，未來在移動端也可以幫大家從手機相冊去選擇圖片去製作演講時，圖片可以自動用設計功能去裁剪、排版，達到更好的效果。

第三，AutoSpeech，大家在移動端錄音時，很多人不喜歡自己的聲音，覺得自己的聲音不好聽，很多人基於環境的限制並不方便錄音，我們基於深度神經網絡可以將聲音完美的匹配文字。

第四，Article聽聽文檔，如果大家在行進路上或者不太方便看文字的情況下，簡單的把公眾號URL連結拷貝到裡面，可以用幾十秒時間迅速製作出來一種可以看、可以聽的文本，是一種新的形式展示給大家，我們有真實企業案例就是這樣用的。

在聽的方面有哪些和AI結合？讓聽者可以更沉浸式的身臨其境的去聽人的分享。

1、引入字幕，字幕對輔助閱讀很重要，有時大家聽講時開小差就跟不上了，字幕在這裡起到非常關鍵的作用，通過微軟的聲音轉文字，以字幕的形式轉出來。

2、社交，點讚、轉發等等。

3、PPT動畫，把視頻播放的東西引入進來，給大家更豐富的表現方式。

以下是語音文檔的創作過程：

第一步，選擇製作方式。

擁有微軟帳戶後可以選擇文件，可以從電腦端拖一個文件裡進來，也可以從手機相冊裡選，選擇之後進入錄音。

第二步，人工錄音或者AI錄音。

第三步，發布。

可以選擇權限設置，是只給微信好友看，還是發布給整個網際網路的人看，還是只給自己看，包括開啟讚賞，如果覺得自己的內容有價值，期望別人打賞的話也可以開啟。

第四步，查看個人頁面，關注推薦。

發布之後你的作品在作品集，可以知道有多少用戶關注你，知道每個分享有多少人去看去聽，也方便你自己去管理你自己的內容，也可以讓別人找到你去分享。

下面舉一個真實例子，新民晚報。他們之前有一個問題，每天早上6點，編輯會在1小時內編輯一天24小時的新聞，7點鐘有一個內審，審核通過以後，7點半就在公眾號發布。

這個過程中要反覆修改，不可能有人給公眾號錄音或者去修改，。他們現在利用以上的方式可以很快捷的嵌入小程序到公眾號，我們這個小程序的速度非常快，大概十幾秒的樣子。AI的效率在這個場景中得到非常大的發揮和落地。

微軟Office微信小程序布局

未來，微軟Office微信小程序布局本地化策略有三個方向：信息輸入；信息管理；信息輸出。

文檔怎麼被創造出來，怎麼被管理，怎麼輸出協作。這三個方向是我們想去探索的。

在我看來，什麼樣的小程序能夠生命力很強？我們做了很多功能，但是發現反而讓用戶更多時間耗在這裡，這樣工具類的小程序時間長了，慢慢大家就不會用了，因為發現代價很大。所以從生產力小程序角度總結，只要真正能幫助用戶節省時間、提高效率的生產力小程序都會有更好的生命力繼續傳播下去。最終讓用戶收益才是一切商業邏輯的起點。

大家可以在微信搜索「微軟聽聽文檔」，體驗一下。

嘉賓簡介：

趙晟，微軟（亞洲）網際網路工程院人工智慧語音團隊首席研發總監。目前負責微軟Azure語音服務的產品研發工作, 所開發的語音技術服務於微軟Office、Windows、 Azure認知服務，小冰小娜以及廣大的第三方開發者。曾擔任微軟亞洲研究院研究員，微軟小娜資深研發經理。長期從事語音和語言方面的技術開發，包括語音合成，自然語言處理，語音識別等等，所負責的多語言合成項目也曾經獲得微軟中國傑出工程獎。

張鵬，微軟（亞洲）網際網路工程院 Office 365資深產品經理，Office 小程序負責人。2013年加入微軟MSN，承擔MSN和必應搜索等產品設計和市場推廣工作。2016年開始至今，負責Office 365在中國創新產品開發，成功發布officeplus.cn，微軟AI識圖，聽聽文檔等產品發布。

微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019

相關焦點

AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger

微軟模擬飛行2020：AI自動巡航

AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...

微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI

微軟推出了一款App:可以幫你讀出全世界-微軟,App,AI,語音...

全球三十大最佳 AI 創業公司公布

什麼是微軟的MeTAOS

小娜走了,微軟小冰又來了,語音助手到底有沒有用

微軟研究院負責人Peter Lee 博士:AI醫療正值關鍵時刻

對話沈向洋:我曾熬了滿頭白髮但微軟已成AI領頭羊

AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

微軟沈向洋:AI 時代,世界向哪裡走?

微軟最新AI系統!使用雲端麥克風陣列,音頻轉錄精度提升22.4%

新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...

微軟小冰「混」進央美畢業展,AI繪畫創作究竟有多出神入化?

微軟創始人的AI研究院攜手微軟百度改進學術搜索

微軟副院長周明:NLP目前存在的問題、以及未來的發展方向

亞馬遜機器人公司副總裁離職,加入23歲華裔成立的AI初創公司

微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019

相關焦點

AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger

微軟模擬飛行2020：AI自動巡航

AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...

微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI

微軟推出了一款App:可以幫你讀出全世界-微軟,App,AI,語音...

全球三十大最佳 AI 創業公司公布

什麼是微軟的MeTAOS

小娜走了,微軟小冰又來了,語音助手到底有沒有用

微軟研究院負責人Peter Lee 博士:AI醫療正值關鍵時刻

對話沈向洋:我曾熬了滿頭白髮 但微軟已成AI領頭羊

AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

微軟沈向洋:AI 時代,世界向哪裡走?

微軟最新AI系統!使用雲端麥克風陣列,音頻轉錄精度提升22.4%

新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...

微軟小冰「混」進央美畢業展,AI繪畫創作究竟有多出神入化?

微軟創始人的AI研究院攜手微軟百度改進學術搜索

微軟副院長周明:NLP目前存在的問題、以及未來的發展方向

亞馬遜機器人公司副總裁離職,加入23歲華裔成立的AI初創公司

對話沈向洋:我曾熬了滿頭白髮但微軟已成AI領頭羊