微信語音識別團隊如何避免AI 把「久石讓」聽成「就是了」?

2020-12-27 極客公園

編者註:這是微信派《技術盒子》第一期,希望以趣科技,輕科普的方式來跟大家聊聊微信產品背後的故事。極客公園已獲得轉載授權。

原標題:《語音識別揭秘,如何讓微信「聽懂」你的心?》


從 1972 年,一個孤獨程式設計師對著電腦敲下第一句「hello world」開始,人類與人工智慧的溝通與對話,便從未停止。

人類真能教會冰冷的 AI,讓它聽懂我們的話語和呼喚嗎?

我們始終憧憬與暢想,技術也正逐漸打破科幻與現實的分野。史匹柏的《人工智慧》裡,機器人小男孩戴維被一位母親領養回家。通過與人類的朝夕相處,他稚嫩的聲音裡逐漸有了溫情、勇氣與愛。

《生化危機》裡的頂級人工智慧系統「紅色皇后」,以天真小女孩的全息影像出現,但與女主角愛麗絲對話時的冷漠與殘酷,令人不寒而慄。

《三體》中,智子以綿裡藏針的溫柔語調,與兩位執劍人那段字字蘊含深意的「茶道會談」,直接左右了整個人類社會的命運。

不過,現實中我們常常是這樣的——

一位山東大漢想用車載語音打電話,只用三分鐘就被系統逼瘋了……

芭妖扒拔(8188)!俺是說芭妖扒拔!你聾了嗎!

再比如,遊戲中的你帶隊與敵軍激烈廝殺,和戰友語聊時,竟收到一條這樣的命令:

Excuse me?

被暴打一頓後才得知,老大的原話是「去殺 1 到 5 boss」。

團滅……友誼的小船說翻就翻。 

人機溝通的基礎之一,是語音識別。

人與人說話都容易誤解,更何況是人與機器?

也許你會覺得,微信的語音聊天和識別體驗都還不錯。其實,幕後的技術團隊,微信技術架構部語音技術組花了整整 4 年的時間來「教會」微信,如何更好地聽懂人話。

對人工智慧而言,微信語音識別團隊猶如專業而威嚴的老師,讓微信從上線之初的「小學生水平」,成長進化為一個善解人意、能說會道的尖子生:語音識別準確率達到業內領先的 95% 以上,能聽懂英語,普通話和粵語等多種語言。

我們先不講複雜的技術,回到前面鬧笑話的「五泡屎」問題——

為什麼手機常常聽不懂你說的話?

別誤會,這不是說你有沒有大舌頭、不識字或重口方言,而是你說話的語氣。

舉個例子,蘋果 Siri 挺聰明吧?通常我們在跟 siri 說話時,會下意識採用朗讀化語音。這種情況下,我們的聲音會將近標準,大大降低了識別難度。

而在遊戲對戰、對話聊天時,因為環境比較輕鬆,語速,口音,吞字,疊字的現象就會非常多,比如「哎臥槽,快快快我快沒血了,奶媽快來加血撒」,這些則大大影響了識別率。

對於中文口語化識別的難題,全世界的科技公司都很頭疼。一旦脫離朗讀化環境,把「布萊恩」聽成「睪丸炎」、「久石讓」聽成「就是了」的案例比比皆是。

微信語音識別團隊解釋,由於隨意性較大,音頻質量參差不齊、語速快,這種情況下,目前較好的語音識別系統也會有將近 25% 左右的字錯誤率。

也許有人拍案而起,我普通話一級甲等,也做到吐字清晰精準了,為啥語音識別起來還是有誤差?

這就要看,你說話時的環境是否嘈雜,另外距離話筒是不是過遠?

比如車載場合,具有回聲或者室外噪音,會導致性能急劇下降;再比如我們如今移動網際網路的使用方式一般叫近景識別,也就是麥克風和聲源距離較近,但是在室內如果距離 1 米以上的應用場景中,仍然距離實用較遠,信號在路徑傳遞中會衰減,也會導致性能的降低。

如何讓人工智慧更懂事?兩個字,做作業!

語音識別來說,讓機器「聽到」更多的數據,可以讓它越來越聰明。但是我們在讓機器學習的時候,必須要告訴他這句話說的是什麼字(即所謂的有監督學習),這樣做數據的積累是緩慢的。

所以,如何讓老師不用一天到晚拿著皮鞭監督,實現無監督訓練或者半監督訓練,讓機器自己能進化,不斷提高自己的性能,也將是技術發展的重要方向。

當程序把一段語音變成文字以後,它並不知道這句話哪裡對,哪裡錯,更不知道這句話是不是一句通順的人類語言。

實際使用中,人們說話的語速、吐字、頻率、音強都不一樣,而且還有方言、周邊環境等問題。總而言之,達到一定的識別率比較容易,但要達到較高標準的識別準確率卻並不是件容易的事情。識別率越往上走,就越難。

不過,微信在介入語音識別領域之後,短短的幾年時間即躋身行業的領先水平,而且還在不斷優化和提升中。

微信是如何「耳聽八方」的?

既然無法左右天南海北的用戶怎麼說,那就好好教導微信如何「洗耳恭聽」。

2012 年,微信團隊悄悄開始投入語音系統的研究。

不過,當時的嘗試也僅僅是「謹慎」地上線了個語音提醒的公眾號,並未過多發揮。

直到 2013 年,微信推出的語音輸入在業界獲得了巨大成功,隨後在 2014 年,正式上線了語音轉文字功能。

有意思的是,如此實用的功能,入口卻被微信「藏」的極深,但用戶量越來越多。

你發現了嗎?

語音輸入是在附加菜單裡,語音轉文字必須長按語音消息才能看到。

微信團隊解釋說,微信每一個接口和功能都是極為「克制」的,所有的設計都是跟隨用戶實際需求,而非炫耀技術。入口藏的深一點,可以避免騷擾那些不需要使用該功能的用戶。

微信採用了深度學習法並迎難而上

回到技術——

首先,微信採用了深度學習法。

簡單而言,語音識別系統的輸入是語音,輸出的是漢字,機器要學習從語音到語言的映射關係。

先說語音,我們要教會微信怎麼聽。人的發聲從聲帶的震動,要經過聲道,口腔,受到其中很多肌肉組織運動的影響,類似原始信號要經過複雜函數的變換,深度學習框架由於具有多層結構,能很好的模擬這種複雜函數。

再說語言,我們要教會微信怎麼懂。通常我們說的話是要符合句法的(組合性),而且要符合搭配習慣(因果性),我們要讓機器學習到這種規律。其中的難點是詞義,比如「知道」和「了解」讀音截然不同,但詞義有時是差不多的。

「研表究明,漢字的序順不影閱響讀。」

「比如當看你完這話句後,會發這現裡的字全是都亂的。」

——小派

你看,很多時候,我們可能不會百分百聽清楚一句話,但是我們還是能夠根據語境和詞語的組合發音方式明白它的意思。

機器深度學習的方式模仿了人類大腦的神經元,當處理的語言越來越多時,這種網絡就可以逐漸理解語言。簡單點說,語音識別系統就好比一個人學一門語言,同等聰明的情況下,聽到的話(訓練數據)越多,越容易識別出好的結果。

微信採用深度學習技術,並且微信擁有龐大的用戶基礎,有天然的語音交互場景,也擁有大量的語音資源積累,這也成為微信語音交互技術迅速發展的重要原因之一。

同時,瘋狂的技術團隊一直在知難而上。

除了深度學習以外,微信還做過哪些努力讓語音識別更好用呢?

微信語音識別團隊一口氣舉了太多例子,小派深思熟慮後,挑了自己能聽懂的來說……

比如,針對口語風格(比如電話)下的性能問題,微信採用了一個良好的分段斷句引擎,融合了音頻屬性,說話人以及部分語義信息,能夠良好的斷句;

為克服噪聲的影響,微信通過模擬真實場景的算法,可以把過去的無噪數據轉換成包含多種不同場景噪聲數據,讓模型在學習內容的同時也學習到了不同的環境幹擾。

對大數據下的難題,由於每個用戶個體的聲音都不一樣,通用模型的長尾問題是導致錯誤發生的重要原因。微信不拘一格,通過算法讓聲學模型在學習的過程中將說話人的信息抹去,這樣的做法也對提升識別率有了一定的幫助。

隨著微信的語音識別技術不斷發展。當識別率越高,就越能給實際場景運用中的用戶帶來更好體驗,甚至會徹底改變玩法,也讓用戶對語音的依賴大大提升。

未來,微信將直接和你聊天

等 AI 能真正聽懂了,對話還會遠嗎?

開頭那些科幻電影裡的人機語音交互場景,已經看得見摸得著。

正如人有五感一樣,手機也有相應的圖像識別、語音識別、NFC 通訊等等「感官」。尤其語音作為一個重要的入口,蘋果的 siri、微軟的 cortana、google now 等等應用紛至沓來。

很多人都沒留意到,去年底,微信團隊和香港科技大學宣布成立人工智慧聯合實驗室,研究的主要方向是:數據挖掘、機器人對話、機器視覺、語音識別。有龐大的用戶基礎,有天然的語音交互場景,如果將不斷智能化的語音助手作為微信的入口之一,微信的生態會進一步進化。

智能家居、網際網路汽車、智慧醫療、在線教育、自動電話客服、機器同聲傳譯等等領域都將充斥著語音交互技術。想像一下,當你不僅僅可以語音聊天及輸入,而是可以告訴你的鬧鐘晚個 10 分鐘再叫,用語音搜索要去吃飯的餐廳,或者開車的時候隨口發個簡訊或者郵件。甚至,你的機器人助手完全可以聽明白你隨口說的每一句話,像一個擁有智慧的人一樣跟你互動,那會是多麼讓人激動的事情。

這一切必將發生在未來,也許就是不久的未來。

頭圖來自華蓋創意

相關焦點

  • 微軟全球技術院士黃學東:「超人」語音識別模型
    以下為專訪內容:WER 5.1% 的「超人」語音識別模型和說不定不會來的強人工智慧去年十月份,微軟的語音識別系統在 Switchboard 語音識別任務測試中達到了低至 5.9% 的詞錯率(WER),實現了人類專業速記員的水平。現在一年過去了,語音識別領域有哪些突破性進展嗎?有,進展用一句話可以總結:詞錯率從 5.9% 降到了 5.1%。
  • AI虛無縹緲?百度輸入法「中英自由說」告訴大家:這就是真正的AI
    不論是和朋友微信聊天、工作交談、還是各類信息搜索,一個人至少在平凡的一天時間裡不知不覺間打出了成千上萬的字符,並且,漢字和英文作為最常用的兩種切換語言,加起來幾乎佔據了當中全部的打字工作量。然而,如何讓輸入法能夠自動識別中英文輸入,實現無縫自由切換?相信是很多用戶非常頭痛和迫切想要實現的功能。
  • 「HAY!17」語音識別PK賽 英語流利說完勝科大訊飛
    「HAY!17」語音識別PK賽 英語流利說完勝科大訊飛 12 月 16 日,由著名科技媒體PingWest品玩主辦的「HAY!17·無限奇境」嘉年華在北京炸裂開場。
  • 微信「未完成」
    這種重視甚至到了「恐慌」的程度。比如,他說,「就像我們擴大 5000(微信)好友這個限定非常容易,但是對於它帶來的影響,說實話誠惶誠恐,我們會反覆思考。」這種一面前進一面「恐慌」帶來的並非克制,而是基於產品形態的合理性思考。張小龍曾說,「我不是克制,克制是一種壓制行為,我不壓制自己,而是會去想一個產品功能的合理性問題。如果不合理,就放棄」。
  • 揭秘中文版三星 Bixby:語音技術自研,和有些「瘋狂」的產品思路
    三星是在手機上做「生物識別」最激進最全面的公司,指紋識別、虹膜識別和人臉識別如今同時出現在了 Galaxy 手機上,它們的背後充滿著 AI。「有沒有人工智慧」是「人工智慧」和「AI」佔據了所有的頭版頭條之後出現的奇怪問題,一位三星電子中國研究院的工程師對極客公園說:「我們十幾年前就在研究語音識別,那時的模型很原始,跑一遍數據經常需要兩三個月,三星電子中國研究院一直在進行著研究
  • 機器會給你的照片打「壞人」標籤?國外網紅項目聚焦 AI 偏見
    近日,麻省理工的博士生在兩項獨立研究中發現,雖然機器擅長識別人工智慧生成的文本,但是很難分辨其中的真假。原因在於訓練機器識別假新聞的資料庫中充滿了人類的偏見,因此,訓練而成的人工智慧也不可避免地帶上了刻板印象。人類偏見是人工智慧界普遍存在的沉痾。
  • 「口罩識別」後,「頭盔識別」躋身 AI 安防 C 位
    倘若該摩託車/電動車未上車牌,騎行者未戴頭盔,但戴了口罩,又該如何解決呢?(如下圖)口罩識別的技術攻克,主要會遇到三大技術難題:1、由於口罩遮擋、人像信息減少,學習到的特徵判別性隨之較少,二維紋理信息會由於遮擋而丟失、三維形狀信息會帶有噪聲。2、口罩類型比較多且口罩遮擋程度不一,如何更多地利用非遮擋區域的信息也是一個影響因素。3、戴口罩人臉的人臉檢測和人臉關鍵點檢測的精度受到光線等外部環境影響。
  • 人工智慧的「苟且」與「遠方」
    而就在麥卡錫離開 MIT,扛起史丹福大學人工智慧研究大旗之時,道格拉斯·恩格爾巴特正在努力將另一種「智能」帶入計算機行業。這位北歐人的後裔並沒有麥卡錫的「遠大志向」,而是在思考如何將技術去「提升」人類現有的技能,他終其一生都在研究計算機技術至於人類的意義,成為人機互動的「一代宗師」。
  • 聲智科技:語音賽道競爭的「慘烈與終局」| AI TALK
    而那些被我們報導過的 AI 創業公司,大多恰好處於成長周期的少年或是青年階段,如何生存和發展也同樣是他們心頭大事。在 2050 大會上,機器之心發起了一場以《AI 技術公司的活法和前景是什麼》為主題的論壇,雲從科技、體素科技、深瞐科技、聲智科技、一知智能和 Udacity 分別談了談 AI 技術如何才能「落地為安」。
  • 微信出現這些情況,你可能成了刷閱讀量的「肉雞」
    警方稱,犯罪分子通過誘騙手機用戶從指定的網頁連結中下載 root 軟體,在用戶不知情的情況下通過遠程指令下載安裝木馬,修改微信客戶端文件,將超過 94 萬臺手機變成 「肉雞」,替公眾號刷流量,再從中獲利。江蘇邳州市公安局破獲非法控制他人手機 「刷粉案」一臺手機是如何變成「肉雞」的?
  • 微信又悄悄更新!張小龍撤回的「信息流」被重新上線了
    是的,微信的「信息流」又回來了。有意思的是,還是那個熟悉的 Android 6.7.2 內測版本號,但之前「撤回信息流」的改變仿佛沒有發生過。8 月 3 日,有讀者在後臺反饋,在知曉程序回復「更新」後,下載的 Android 6.7.2 內測版中訂閱號依舊是以「信息流」方式呈現,和我們在《微信再更新!
  • 2018 公開課盤點應用篇:面向 AI 開發者,「猿桌會」帶你看各路大神...
    興趣是學習最好的老師,來自新加坡國立大學電子及計算機工程系的霍華德博士帶來的這個分享就是希望給大家展示自然語言處理(NLP)中有趣的一面,內容比較適合想入門人工智慧和自然語言處理的同學。值得一提的是,霍華德博士本人的求學經歷非常傳奇,在本科,碩士,博士階段分別讀了三個不同的專業,現在騰訊就職。本次分享不僅輕鬆有趣,還為大家帶來了一籮筐的乾貨,成為 2018 年度排名前幾的「猿桌會」公開課。
  • 如何培養自己的「成長心態」?
    我祝賀他,他卻一點也不開心,問我:我完全不知道該怎麼帶團隊,因為一點經驗都沒有,現在特別害怕做不好,感覺很焦慮,怎麼辦?我要不要向老闆推辭掉?我告訴他:你只管放心大膽去做就是了。老闆願意提拔你,就是因為他認可你的潛力。你現在是一張白紙,無論做什麼,對你來說都是獲取經驗的一種方式,都是在成長。就算做錯了,那也是難得的教訓。
  • Copy from 微信:二維碼在美國社交軟體的「意外走紅」
    你可能不知道的是,司空見慣的微信二維碼正是美帝人民膜拜不已的「黑科技」。本文編譯自WIRED,原文標題「THE CURIOUS COMEBACK OF THE DREADED QR CODE」,編譯時略有刪減。和中國社會不同,二維碼在歐美曾經歷了「多番劫難」才「修成正果」。
  • 微信隱藏彩蛋!表情加符號就能傳遞「神秘信息」
    微信翻譯出彩蛋。之前用戶和微信翻譯玩遊戲時就曾發現不少彩蛋,比如「You are my shadiao friend」之前就會被翻譯為「你是我的好朋友」,想到「沙雕」這個詞中調笑的意味,你似乎也不能說這個翻譯是錯的。
  • 該如何明確自己寫的是「作文」,還是「文章」?
    就是,「作文」和「文章」有什麼區別嗎?記得老師回復的是:只要這篇文章有體現出你要表達的一個明確觀點,就算是一篇文章了。幾年之後的一天,看見微信群裡也有人請教類似的問題:作文與新媒體文有什麼區別?有人回答:作文是為了應試,為了達到老師的要求。而新媒體文是為了迎合用戶的需求。兩者本質屬性不同。
  • 做「最熟悉的陌生人」,企業微信想成為實名「服務窗口」
    在今年初的 2019 微信公開課 PRO 中,微信創始人張小龍正式對企業微信的定位作出變更:「企業微信如果定位公司內部的溝通工具,我認為它的場景和意義會小很多……後續新的變化將基於一個新的理念——讓每個企業員工都成為企業服務的窗口。人就是服務,而且是認證的服務」。
  • iPhone「最強功能」廣受好評,但許多 App 還「配不上」它
    iPhone 是你的「電子導盲犬」在前面提到的 iPhone 視頻中,全視頻彈幕最多的部分就是放大器「人物檢測」功能展現的時刻,彈幕「淚目」、「絕了」覆蓋了整個屏幕,遮擋了演示的內容。但即便不看內容,你也知道視頻是什麼內容,因為聲音讓你「看」到了。
  • 我為什麼不看好微信的「深色模式」和「群待辦」功能?
    此外,這次微信更新的iOS新版本,還包括微信群新增「群工具」「群待辦」、「發語音優化」、「表情包優化」、朋友圈支持「跳到還沒看的位置」等幾個功能點。你更新了嗎?你自己怎麼看這幾個迭代功能?實際上,微信之前曾短暫上線過夜間模式,但隨後被移除。微信團隊前段時間還曾在微博上就此事幽默回應「你的夜晚太珍貴,我們不忍心佔用,更不願意成為你半夜醒來看手機的原因,願你每夜好眠。」,可見微信對於支持「深色模式」的態度。
  • 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人...
    近日,他們又將多人語音識別和說話人分類問題融合在了同一個網絡模型中,在模型性能上取得了重大的突破。對於自動理解人類音頻的任務來說,識別「誰說了什麼」(或稱「說話人分類」)是一個關鍵的步驟。例如,在一段醫生和患者的對話中,醫生問:「你按時服用心臟病藥物了嗎?」患回答道:「Yes」。這與醫生反問患者「Yes?」的意義是有本質區別的。