前不久,中文版Bixby開始公測,雖然這並不是的首次發布,但卻意味著新的語音巨頭開始打入中國市場。在我們的測試中發現,擁有優良的識別率,可以實現語音開鎖、語音文本轉換,並且用戶可以通過語音對手機進行電話簡訊、軟體控制、第三方內容接入等各種各樣的操作。從某種意義上來說,手機已經實現聽懂人的語音。
從智障到智能光語音識別就花了100年
當我們看到科幻電影中能與人類對話的人工智慧時還會感到十分高科技,其實語音助手早已悄無聲息的進入了我們的生活,以至於當你看到現在優秀的語音產品時並不會感到陌生。在我們大多數人的印象中,語音助手仍是比較「弱智」的存在,其實這點也並不能否認。因為機器沒有智慧,它不能像人一樣思考,或者說它還沒有一個足以令它思考的龐大體系。但同樣不可否認的是,語音識別方面的人工智慧已經擁有相當大的規模。
語音識別已經帶來了極大便利
舉個非常常見的例子,現在的網絡電視大多都支持語音搜索功能,這給電視的使用帶來了極大的便利。因為電池的輸入設備仍舊是遙控,其輸入效率無法與鍵盤匹敵,但支持語音的話,只要對電視輸入語音命令,就可以完成交互,十分便利。另外,語音識別交互也為盲人的設備使用帶來了福音。其作用不可小覷。
手機語音助手(圖片來自網絡)
相信有不少沒關注過語音識別功能的讀者都有這樣的疑問:兄弟,你開玩笑呢吧?無聊時喚出Siri扯兩句,還有家裡的智能音箱,就普普通通的語音助手嘛,真有你說得怎麼玄乎?而且智能音箱的售價都不貴嘛,高科技的話怎麼會這麼便宜?還別說,開發語音助手還真不是個小工程。而且通常來說,語音助手難以靠本身變現,至少在你用語音聽寫時,輸入法廠商並沒向你收費。所以沒有雄厚的資金支持是很難堅持到營收的那一天的。
語音識別還有些雞肋(圖片來自網絡)
現在我們去看語音助手的廠商宣傳,都在說我們的準確率達到了百分之多少。目前來說,準確率達到90%以上已經相當不錯。雖然現在已經有了這麼高的準確率,但我們還是感覺語音助手有些雞肋,這與語言的複雜性、第三方接口的完善性有很大關係。本期發燒學堂,我們就來聊一聊語音識別的實現原理,以及語音識別的現狀和未來發展,設想一下人工智慧什麼時候會統治世界。
語音識別實現原理:資料庫
概括的說,語音識別的原理其實並不難理解,大面上和指紋識別的原理相同:設備收集目標語音,然後對收集到的語音進行一系列處理,得到目標語音的特徵信息,然後讓特徵信息與資料庫中已存數據進行相似度搜索比對,評分高者即為識別結果。然後通過其他系統的接入來完成設備的語音識別功能。
簡要識別過程
如果你對語音識別的興趣不高,那麼知道這樣的大致原理已經足夠。事實上,語音識別的過程是相當複雜的。最直接的原因就在於語音的複雜性。指紋識別只要錄入的指紋信息與資料庫中的已存信息匹配就可以完成識別,這個資料庫包含的數據只有幾個指紋信息而已。但語音就完全不同了。
《康熙字典》(引自中華古玩網)
《康熙字典》容納了漢字47035個,由當時的三十多位著名學者歷時六年編撰而成。而漢語可不僅僅是孤立的漢字,語言中有升降調,有斷句情感,有不同語義的不同理解。同時,全國各地可都不是說普通話的,方言也有很多種,想要建造一個完善的語言資料庫難度可想而知。漢語的複雜性正是中文版要晚於英文版發布的原因。
高準確率的語音識別離不開龐大雲端資料庫(圖片引自網絡)
龐大的語言資料庫難以放置於移動端,這也是幾乎所有手機語音助手使用時需要聯網的原因。語音識別發展到現在也不是沒有離線版,但我們不難發現,離線版的準確率是要遠遠低於在線版的。另外,剛才我們提到不少語音廠商都宣稱準確率達到以上,這可以說是十分了不起的,不誇張的說,這時候每提升1個百分比的準確率,都是質的飛躍。這不僅要相當完善的資料庫,滿足這樣的準確率還得效率較高的識別提取算法和自學習系統。
當然這樣的數據我們要以辨證的眼光來看,俗話說,一句話百樣說,漢語言可謂博大精深;而且廠商給出的準確率數據的測試很難具備廣泛性,所以有些用戶在使用語音識別功能時發現它還很「弱智」,實屬正常。
語音識別實現原理:算法和自學習
剛才我們提到了識別提取算法和自學習系統,在這裡我們不妨簡單了解一下它們的工作過程:首先語音識別系統對收集到的目標語音進行預處理,這個過程就已經十分複雜,包含語音信號採樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等等。之後對處理的語音進行特徵提取。
數字語音波形(圖片來自網絡)
我們知道,聲音的本質是震動,它可以由波形表示,識別則需要對波進行分幀,多個幀構成一個狀態,三個狀態構成一個音素。英語常用音素集是卡內基梅隆大學的一套由39個音素構成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調無調。之後通過音素系統合成單詞或者漢字。當然,之後的匹配和後期內容處理也需要相應算法來完成。
輸出文本形式的識別過程
自學習系統則更多的是針對資料庫來說。將語音轉換成文本的語音識別系統要有兩個資料庫,一是可與提取出的信息進行匹配的聲學模型資料庫,二是可與之匹配的文本語言資料庫。這兩個資料庫需要提前對大量數據機型訓練分析,也就是所說的自學習系統,從而提取出有用的數據模型構成資料庫;另外,在識別過程中,自學習系統會歸納用戶的使用習慣和識別方式,然後將數據歸納到資料庫,從而讓識別系統對該用戶來說更智能。
更進一步總結一下整個識別過程:對採集的目標語音進行處理,獲取包含關鍵信息的語音部分——提取關鍵信息——識別最小單元字詞,分析規定語法排列——分析整句語義,將關鍵內容斷句排列,調整文字構成——根據整體信息修改出現輕微偏差的內容。
語音識別現狀和未來
RadioRex玩具狗(圖片引自網絡)
人工智慧能在這兩年爆發並不是一朝一夕的事,語音識別也不例外。從最初的語音識別雛形,到現在高達以上準確率,已經有大約100年的歷史。RadioRex玩具狗生產於上個世紀20年代,這款玩具狗在被呼叫時可以彈出來,被視為語音識別的鼻祖。真正意義上的語音識別研究始於上個世紀50年代,AT&TBell實驗室打造的Audry系統實現了十個英文數字的語音識別。
而最近大熱的NPU神經網絡,早在60年代就已經用於語音識別了。將大詞彙量、連續語音、非特定人三大特性基於一身的Sphinx系統誕生於80年代末。90年代以來則是語音識別發展的絕佳時期,政府機構對語音識別技術開始重視,許多著名公司都開始在這方面投入巨資,一大批高水平研究機構都加入了語音識別的研究領域,一時間成績顯著。
科大訊飛的語音聽寫
時至今日,語音識別已經有了突破性進展。2017年8月日,微軟語音識別系統錯誤率由5.9%降低到5.1%,可達到專業速記員的水平;國內語音識別行業的佼佼者科大訊飛的語音聽寫準確率則達到了95%,表現強悍。國內諸如阿里、百度、騰訊等大公司,也紛紛發力語音識別,前景一片看好。
科大訊飛汽車語音助手飛魚系統(圖片來自網絡)
並且,語音識別系統也不會只僅僅用於之前提到的手機交互、智能音箱命令,在玩具、家具家居、汽車、司法、醫療、教育、工業等諸多領域,語音識別系統將發揮不可忽視的作用。畢竟在當下人工智慧剛剛起步的時代,在設備無法便捷的探知人類想法之前,語音交互都是最高效的人機互動方式。
寫在最後
看到這裡,相信大家已經對語音識別有了一個大致的了解。我們在手機、智能音箱上看到的語音識別,只是語音識別領域表現出的冰山一角,而我們在未來也將會看到有更多形式的語音識別用於日常生活的各個方面,比如語音識別系統配合無人駕駛汽車,只要你跟汽車說去哪,汽車就可以自動載你達到目的地。
人工智慧什麼時候會統治世界,這個問題確實不好說。人工智慧已經掌握了自然語言的本領,即便相對於人類的語言能力還很初級,但已經可以依據程序給出相應內容,這就具備了擁有智慧的條件,從某種意義上說,人類智慧就是由一項項基礎功能集成而來的。但顯然這不是我們要擔心的問題,期待並享受人工智慧帶來的便利就好了。