被稱作"智障"的人工智慧光語音識別就花了100年

2020-12-11 中關村在線

前不久，中文版Bixby開始公測，雖然這並不是的首次發布，但卻意味著新的語音巨頭開始打入中國市場。在我們的測試中發現，擁有優良的識別率，可以實現語音開鎖、語音文本轉換，並且用戶可以通過語音對手機進行電話簡訊、軟體控制、第三方內容接入等各種各樣的操作。從某種意義上來說，手機已經實現聽懂人的語音。

從智障到智能光語音識別就花了100年

當我們看到科幻電影中能與人類對話的人工智慧時還會感到十分高科技，其實語音助手早已悄無聲息的進入了我們的生活，以至於當你看到現在優秀的語音產品時並不會感到陌生。在我們大多數人的印象中，語音助手仍是比較「弱智」的存在，其實這點也並不能否認。因為機器沒有智慧，它不能像人一樣思考，或者說它還沒有一個足以令它思考的龐大體系。但同樣不可否認的是，語音識別方面的人工智慧已經擁有相當大的規模。

語音識別已經帶來了極大便利

舉個非常常見的例子，現在的網絡電視大多都支持語音搜索功能，這給電視的使用帶來了極大的便利。因為電池的輸入設備仍舊是遙控，其輸入效率無法與鍵盤匹敵，但支持語音的話，只要對電視輸入語音命令，就可以完成交互，十分便利。另外，語音識別交互也為盲人的設備使用帶來了福音。其作用不可小覷。

手機語音助手（圖片來自網絡）

相信有不少沒關注過語音識別功能的讀者都有這樣的疑問：兄弟，你開玩笑呢吧？無聊時喚出Siri扯兩句，還有家裡的智能音箱，就普普通通的語音助手嘛，真有你說得怎麼玄乎？而且智能音箱的售價都不貴嘛，高科技的話怎麼會這麼便宜？還別說，開發語音助手還真不是個小工程。而且通常來說，語音助手難以靠本身變現，至少在你用語音聽寫時，輸入法廠商並沒向你收費。所以沒有雄厚的資金支持是很難堅持到營收的那一天的。

語音識別還有些雞肋（圖片來自網絡）

現在我們去看語音助手的廠商宣傳，都在說我們的準確率達到了百分之多少。目前來說，準確率達到90%以上已經相當不錯。雖然現在已經有了這麼高的準確率，但我們還是感覺語音助手有些雞肋，這與語言的複雜性、第三方接口的完善性有很大關係。本期發燒學堂，我們就來聊一聊語音識別的實現原理，以及語音識別的現狀和未來發展，設想一下人工智慧什麼時候會統治世界。

語音識別實現原理：資料庫

概括的說，語音識別的原理其實並不難理解，大面上和指紋識別的原理相同：設備收集目標語音，然後對收集到的語音進行一系列處理，得到目標語音的特徵信息，然後讓特徵信息與資料庫中已存數據進行相似度搜索比對，評分高者即為識別結果。然後通過其他系統的接入來完成設備的語音識別功能。

簡要識別過程

如果你對語音識別的興趣不高，那麼知道這樣的大致原理已經足夠。事實上，語音識別的過程是相當複雜的。最直接的原因就在於語音的複雜性。指紋識別只要錄入的指紋信息與資料庫中的已存信息匹配就可以完成識別，這個資料庫包含的數據只有幾個指紋信息而已。但語音就完全不同了。

《康熙字典》（引自中華古玩網）

《康熙字典》容納了漢字47035個，由當時的三十多位著名學者歷時六年編撰而成。而漢語可不僅僅是孤立的漢字，語言中有升降調，有斷句情感，有不同語義的不同理解。同時，全國各地可都不是說普通話的，方言也有很多種，想要建造一個完善的語言資料庫難度可想而知。漢語的複雜性正是中文版要晚於英文版發布的原因。

高準確率的語音識別離不開龐大雲端資料庫（圖片引自網絡）

龐大的語言資料庫難以放置於移動端，這也是幾乎所有手機語音助手使用時需要聯網的原因。語音識別發展到現在也不是沒有離線版，但我們不難發現，離線版的準確率是要遠遠低於在線版的。另外，剛才我們提到不少語音廠商都宣稱準確率達到以上，這可以說是十分了不起的，不誇張的說，這時候每提升1個百分比的準確率，都是質的飛躍。這不僅要相當完善的資料庫，滿足這樣的準確率還得效率較高的識別提取算法和自學習系統。

當然這樣的數據我們要以辨證的眼光來看，俗話說，一句話百樣說，漢語言可謂博大精深；而且廠商給出的準確率數據的測試很難具備廣泛性，所以有些用戶在使用語音識別功能時發現它還很「弱智」，實屬正常。

語音識別實現原理：算法和自學習

剛才我們提到了識別提取算法和自學習系統，在這裡我們不妨簡單了解一下它們的工作過程：首先語音識別系統對收集到的目標語音進行預處理，這個過程就已經十分複雜，包含語音信號採樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等等。之後對處理的語音進行特徵提取。

數字語音波形（圖片來自網絡）

我們知道，聲音的本質是震動，它可以由波形表示，識別則需要對波進行分幀，多個幀構成一個狀態，三個狀態構成一個音素。英語常用音素集是卡內基梅隆大學的一套由39個音素構成的音素集，漢語一般直接用全部聲母和韻母作為音素集，另外漢語識別還分有調無調。之後通過音素系統合成單詞或者漢字。當然，之後的匹配和後期內容處理也需要相應算法來完成。

輸出文本形式的識別過程

自學習系統則更多的是針對資料庫來說。將語音轉換成文本的語音識別系統要有兩個資料庫，一是可與提取出的信息進行匹配的聲學模型資料庫，二是可與之匹配的文本語言資料庫。這兩個資料庫需要提前對大量數據機型訓練分析，也就是所說的自學習系統，從而提取出有用的數據模型構成資料庫；另外，在識別過程中，自學習系統會歸納用戶的使用習慣和識別方式，然後將數據歸納到資料庫，從而讓識別系統對該用戶來說更智能。

更進一步總結一下整個識別過程：對採集的目標語音進行處理，獲取包含關鍵信息的語音部分——提取關鍵信息——識別最小單元字詞，分析規定語法排列——分析整句語義，將關鍵內容斷句排列，調整文字構成——根據整體信息修改出現輕微偏差的內容。

語音識別現狀和未來

RadioRex玩具狗（圖片引自網絡）

人工智慧能在這兩年爆發並不是一朝一夕的事，語音識別也不例外。從最初的語音識別雛形，到現在高達以上準確率，已經有大約100年的歷史。RadioRex玩具狗生產於上個世紀20年代，這款玩具狗在被呼叫時可以彈出來，被視為語音識別的鼻祖。真正意義上的語音識別研究始於上個世紀50年代，AT&TBell實驗室打造的Audry系統實現了十個英文數字的語音識別。

而最近大熱的NPU神經網絡，早在60年代就已經用於語音識別了。將大詞彙量、連續語音、非特定人三大特性基於一身的Sphinx系統誕生於80年代末。90年代以來則是語音識別發展的絕佳時期，政府機構對語音識別技術開始重視，許多著名公司都開始在這方面投入巨資，一大批高水平研究機構都加入了語音識別的研究領域，一時間成績顯著。

科大訊飛的語音聽寫

時至今日，語音識別已經有了突破性進展。2017年8月日,微軟語音識別系統錯誤率由5.9%降低到5.1%，可達到專業速記員的水平；國內語音識別行業的佼佼者科大訊飛的語音聽寫準確率則達到了95%，表現強悍。國內諸如阿里、百度、騰訊等大公司，也紛紛發力語音識別，前景一片看好。

科大訊飛汽車語音助手飛魚系統（圖片來自網絡）

並且，語音識別系統也不會只僅僅用於之前提到的手機交互、智能音箱命令，在玩具、家具家居、汽車、司法、醫療、教育、工業等諸多領域，語音識別系統將發揮不可忽視的作用。畢竟在當下人工智慧剛剛起步的時代，在設備無法便捷的探知人類想法之前，語音交互都是最高效的人機互動方式。

寫在最後

看到這裡，相信大家已經對語音識別有了一個大致的了解。我們在手機、智能音箱上看到的語音識別，只是語音識別領域表現出的冰山一角，而我們在未來也將會看到有更多形式的語音識別用於日常生活的各個方面，比如語音識別系統配合無人駕駛汽車，只要你跟汽車說去哪，汽車就可以自動載你達到目的地。

人工智慧什麼時候會統治世界，這個問題確實不好說。人工智慧已經掌握了自然語言的本領，即便相對於人類的語言能力還很初級，但已經可以依據程序給出相應內容，這就具備了擁有智慧的條件，從某種意義上說，人類智慧就是由一項項基礎功能集成而來的。但顯然這不是我們要擔心的問題，期待並享受人工智慧帶來的便利就好了。

相關焦點

怎樣才能拒絕人工「智障」?人工智慧語音電視推薦

【PConline 導購】隨著科技的迭代更新，原本存在科幻小說中的事物開始出現在我們的日常生活中，人工智慧便是其一。包括我們日常使用的電視、空調、冰箱等都擁有人工智慧，許多掃地機器人也能做到，消費者通過語音發送命令，實現人機的交互。
人工智慧還是人工智障?

1988年，美國科學家Judea Pearl將概率統計方法引入人工智慧的推理過程中，這對後來人工智慧的發展起到了重大影響。1989年，AT＆T貝爾實驗室的Yann LeCun和團隊使用卷積神經網絡技術，實現了人工智慧識別手寫的郵政編碼數字圖像。在此後近二十年，人工智慧技術逐漸與計算機技術、網際網路進行深入融合。
國內最值得關注的10家人工智慧語音識別公司

科大訊飛成立於1999年，具有語音合成、語音識別、口語評測、語言翻譯、聲紋識別、人臉識別、自然語言處理等智能語音與人工智慧核心技術。雲知聲成立於2012年6月29日，一家智能語音識別AI技術企業，專注於物聯網人工智慧服務。2018年7月，雲知聲宣布已完成6億元人民幣C+輪融資，至此，雲知聲C輪系列融資總金額已達13億元人民幣。
面向中小學創客教育的語音識別人工智慧模塊與圖形化編程技術

人工智慧的迅速發展將深刻改變人類社會生活、改變世界。2017年7月20日國務院印發《新一代人工智慧發展規劃》（國發〔2017〕35號），倡導開源開放共享理念，加快智能軟硬體、智慧機器人等人工智慧關鍵技術的轉化應用，部署實施全民智能教育項目，在中小學階段設置人工智慧相關課程，逐步推廣編程教育。
越南推出基於人工智慧的越南語語音識別解決方案

原標題：越南推出基於人工智慧的越南語語音識別解決方案來源：駐越南社會主義共和國大使館經濟商務處越南信息和通信部啟動越南語語音轉文本生成器VAIS和文本轉語音引擎Vbee。該活動是該部主辦的「越南製造」數字平臺系列活動的一部分。
看起來很美好的「AI+教育」,究竟是人工智慧還是人工智障?

看起來很美好的「AI+教育」，究竟是人工智慧還是人工智障？去年開始熱起來的AI偽直播細分賽道自一出道，就受到不少人的質疑。因其不自然的交互的性質而遭到很多人的吐槽，「與其是說人工智慧，不如說人工智障」。
董明珠被坑,人工智慧還是人工智障?細數那些蠢爆的智能產品

近日，董明珠被寧波市的"行人非機動車闖紅燈抓拍系統"抓拍到了闖紅燈，後來才發現是系統擺了烏龍，識別錯誤，把公交車身上的董明珠照片誤判為真人。行人闖紅燈抓拍系統在推出的時候就已經有大部分市民擔憂：如果是長得相似的人，又或者違規的人換了髮型化了妝，是不是就會識別成另外一個人？
大數據未來七大發展方向:物聯網、智慧城市、語音識別、人工智慧……

在1999年被提出：即通過射頻識別(RFID)(RFID+網際網路)、紅外感應器、全球定位系統、雷射掃描器、氣體感應器等信息傳感設備，按約定的協議，把任何物品與網際網路連接起來，進行信息交換和通訊，以實現智能化識別、定位、跟蹤、監控和管理的一種網絡。
人工智慧便利多日本東芝公司語音識別技術獲突破

中新網3月14日電據日媒報導，日本東芝公司14日宣布，已開發出使用人工智慧(AI)將會議及演講語音立即轉換成易於閱讀的文字，並通過字幕顯示出來的技術。該技術旨在方便聽覺障礙人士理解信息。報導稱，目前，通過使用AI語音識別技術將語音自動轉換為文字的技術正在普及。然而，由於是將說話者的原話轉換成文字，對於依靠視覺獲得信息的聽覺障礙者而言有時會出現難以理解的情況。資料圖：2018年9月17日，智慧機器人微笑迎賓。
平安科技羅冬日:如何用RNN實現語音識別?| 分享總結

在近期雷鋒網(公眾號：雷鋒網)AI研習社的線上分享會上，來自平安科技的人工智慧實驗室的算法研究員羅冬日為大家普及了RNN的基礎知識，分享內容包括其基本機構，優點和不足，以及如何利用LSTM網絡實現語音識別。
中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?

人類文化距離人工智慧資訊時代基本上只差一些技術上的完善了，在人們對於以後的生活學習環境裡，可能處處都會充斥著人工智慧，正如我們可以看到的科幻電影那般，人們的生活方式將會非常便利，且充滿中國科技感。如今，我們一般可以接觸到的人工智慧無疑是幾乎所有智慧型手機都附帶的語音功能。
國產離線語音識別晶片哪家強?未來誰才是語音識別晶片NO.1

在「語音識別、信號處理、發聲機理和聽覺機理、AI智能等等」為人工智慧的支撐,語音識別,語音控制以及和WiFi/藍牙組合是應用的主要表現形式，為智能家居提供了新的控制入口選擇。目前市場上,本地離線語音識別晶片廠家眾多,真是亂花漸欲迷人眼。在此將幾家知名度高的本地離線語音識別晶片廠家盤點分析：
人工智慧啟用新版搜狗輸入法:語音識別支持9種語言和多種外語的...

原標題：人工智慧啟用新版搜狗輸入法：語音識別支持9種語言、多種外語的鍵盤一鍵切換最近，搜狗輸入法已經更新到10.8版本。據悉，新版主要針對語音輸入和多語言輸入兩大功能。9種外語語音識別，搜狗輸入法成國內支持語種最多輸入法首先，新版搜狗輸入法最大的亮點是推出了新的升級智能語音模型，大大提高了語音識別的準確性。在此基礎上，新版輸入法還推出了一些創新功能，包括人工智慧替換詞、人工智慧語音翻譯、人工智慧語音到文本等。以增強用戶在各種語音輸入場景中的產品體驗。
聯想研究院20多項創新技術,改變你我的未來|人工智慧|語音識別|...

核心技術驅動智能變革聯想大腦AI開放創新平臺：全棧全場景Paas/SaaS人工智慧開放創新平臺，先進的自主研發人工智慧核心技術，賦能聯想智能化變革戰略，提供通用靈活的人工智慧服務以及定製化端到端人工智慧行業解決方案，助力聯想智能製造等行業全價值鏈。
17」語音識別PK賽英語流利說完勝科大訊飛

在語音識別 PK 賽的環節，英語流利說以100%的準確識別率一舉戰勝以高語音識別率聞名的科大訊飛，引發全場關注。英語流利說聯合創始人兼首席科學家林暉博士隨後登場，為大家揭秘了英語流利說背後的「黑科技」。語音識別PK賽現場：英語流利說 PK 科大訊飛在PK賽環節中，測評師依次讀出了三段英文，由英語流利說和科大訊飛同時進行識別。
三星S8折戟語音識別智能機AI化仍任重道遠

三星表示，只有一定數量的S8用戶能夠獲得語音助手軟體的推送，另外預覽版的功能並不完整，用戶使用語音指令僅僅可以發送簡訊、設置手機，或是打電話等等最基本的功能。作為三星的宿敵，蘋果公司早在2011年發布的iPhone4S上已經配備語音識別技術。國內方面，語音識別更是是炒得很熱，科大訊飛、出門問問等一些列語音識別技術提供商，錘子等四線手機廠商也已經開始引入語音識別技術。
玩人工智慧的你必須知道的語音識別技術原理

在人工智慧快速發展的今天，語音識別開始成為很多設備的標配，語音識別開始被越來越多的人關注，國外微軟、蘋果、谷歌、nuance，國內的科大訊飛、思必馳等廠商都在研發語音識別新策略新算法，似乎人類與語音的自然交互漸行漸近。
六款智能電視語音識別大比拼

而現在，很多電視廠商也開始全力推進「人工智慧電視」，但從目前市場上的人工智慧電視來看，主要功能還是在智能語音的部分，而智能語音又主要涉及語音識別、語義理解、場景覆蓋等不同方面。那麼人工智慧語音到底是「真智能」，還是「偽智能」呢？
依圖做語音了!識別精度創中文語音識別新高點

依圖首席創新官呂昊博士「語音一直以來都是依圖關注的課題。作為對人工智慧有著深入理解和推廣應用的公司，我們自然而然進入語音識別領域。」依圖首席創新官呂昊博士表示，依圖是一家「人工智慧公司」。依圖科技聯合創始人林晨曦在2018年1月接受新智元採訪時說。智能語音市場看似巨頭林立，但林晨曦認為創業公司大有可為，依圖不僅要做語音和自然語言處理，還要做到像人臉識別那樣，超越人類水平。依圖技術負責人表示，儘管一些機構宣傳其語音識別已經達到乃至超越了人類水平，但多數情況下，這些結果都來自安靜、近場等受限場景。
人工智慧語音可能顛覆你對傳統電視的認知

彩電行業普遍認為，國內彩電市場的天花板在5000萬臺，而早在2016年，國內彩電零售量已突破天花板，提前透支了2017年的消費市場，同時受到上遊產業鏈面板漲價的影響，我國彩電市場將持續低迷，整體增長乏力。還有不斷的新品牌攪局，尤其是近年來網際網路品牌的參戰，讓彩電行業的平均利潤被嚴重拉低。

被稱作"智障"的人工智慧 光語音識別就花了100年

相關焦點

怎樣才能拒絕人工「智障」?人工智慧語音電視推薦

人工智慧還是人工智障?

國內最值得關注的10家人工智慧語音識別公司

面向中小學創客教育的語音識別人工智慧模塊與圖形化編程技術

越南推出基於人工智慧的越南語語音識別解決方案

看起來很美好的「AI+教育」,究竟是人工智慧還是人工智障?

董明珠被坑,人工智慧還是人工智障?細數那些蠢爆的智能產品

大數據未來七大發展方向:物聯網、智慧城市、語音識別、人工智慧……

人工智慧便利多 日本東芝公司語音識別技術獲突破

平安科技羅冬日:如何用RNN實現語音識別?| 分享總結

中文和英文,哪個更加適合運用在人工智慧的語音識別技術上?

國產離線語音識別晶片哪家強?未來誰才是語音識別晶片NO.1

人工智慧啟用新版搜狗輸入法:語音識別支持9種語言和多種外語的...

聯想研究院20多項創新技術,改變你我的未來|人工智慧|語音識別|...

17」語音識別PK賽 英語流利說完勝科大訊飛

三星S8折戟語音識別 智能機AI化仍任重道遠

玩人工智慧的你必須知道的語音識別技術原理

六款智能電視語音識別大比拼

依圖做語音了!識別精度創中文語音識別新高點

人工智慧語音 可能顛覆你對傳統電視的認知

被稱作"智障"的人工智慧光語音識別就花了100年

人工智慧便利多日本東芝公司語音識別技術獲突破

17」語音識別PK賽英語流利說完勝科大訊飛

三星S8折戟語音識別智能機AI化仍任重道遠

人工智慧語音可能顛覆你對傳統電視的認知