語音識別技術發展史與行業最佳實踐全解析

2020-12-28 和訊

在人工智慧技術的探索徵程裡,語音語義識別技術一直扮演著先驅的角色,不管是在技術探索還是商業落地方面都走在了前面。近兩年來隨著深度學習技術的進一步深入,其識別準確率更是得以大大提升。為教育、客服、電信等傳統行業的產業升級帶來了一大助力,在車載、家居、醫療、智能硬體等領域又開闢出了新的商業應用探索實踐。

語音語義技術目前發展到了哪個階段?NLP技術在企業日常業務中能發揮怎樣的作用?在十億級別日活的微信端有何應用案例?在騰訊雲海量客戶場景下又為企業帶來了怎樣的助力?9月13日,TVP AI技術閉門會語音語義專題遍邀行業大咖,為行業找尋更多解題思路。

微信語音識別理論和實踐

在語音識別技術的落地過程中,微信是探索得比較深入的一個代表。現在的微信不僅可以非常方便地將語音轉換為文字,甚至可以識別出語音中蘊含的情緒,在轉化出的文字中用貼切的emoji表情表達情感。

微信智聆語音技術負責人盧鯉老師向與會者介紹了語音識別技術的發展歷程,他表示如果我們想更客觀地判斷一項技術的今天和明天,回顧其發展歷程是很有必要的。

語音識別發展歷史回顧

語音識別技術的研究早在上世紀5、60年代就已經開始了,傳統語音識別使用Hybrid框架,該系統具備一個明顯的層次結構,包括聲學模型、詞典、語言模型三個部分。對傳統Hybrid系統而言,聲學模型是其中非常重要的部分,後續技術的諸多改進也是面向聲學模型進行的。

2009年以後,語音識別技術迎來了一次較大的發展。業界主流的觀點認為這是因為語音識別技術搭上了深度學習發展的快車,盧鯉老師表示這是其中一個重要原因,但不是唯一原因。這個過程中,GPU等硬體設施的發展提供了基礎,網際網路尤其移動網際網路的飛速發展帶來更多的場景,使得語音識別技術從實驗室到廣泛民用市場。

在語音識別技術的發展過程中,盧鯉老師重點介紹了DNN、TDNN、LSTM以及Transformer等模型的發展以及對性能帶來的提升。從2014年以後,部分科學家開始在Hybrid系統以外嘗試端到端的系統,相比前者,該系統輸入語音,輸出的就變成了文字。

「語音識別技術領域沒有完美的系統。Hybrid系統使用靈活,但整體擬合能力不如端到端系統;端到端系統數據整體建模能力強,但靈活度不及Hybrid系統。」

微信智聆平臺

「微信智聆平臺起步於2011年底,直到2017年才給自己取了個品牌的名字。當時是覺得效果做得不好,用戶想吐槽的時候也沒有具體對象。」盧鯉老師開玩笑著介紹了微信智聆平臺的發展史,這個騰訊自主研發的語音技術平臺,截至目前已經在C端、B端、G端等多個領域落地近百個產品,日請求量超30億。在獨立第三方機構SpeechIO的測試報告中名列前茅。

微信智聆平臺是目前在大規模提供服務的廠家中處於最好的幾家之一,盧鯉老師介紹了微信智聆平臺在性能提升方面所做的一些工作。

首先是TLCBLSTM網絡。LSTM網絡結構的主要形式有兩種,一種是單向,一種是雙向。一般情況下,雙向LSTM性能比單向的要高出10%左右,但雙向LSTM卻有著無法用在流式場景下的局限。TLCBLSTM就是一種既可以把LSTM用在流式場景下,同時又能保持雙向10%性能優勢的解決方案。

在LSTM以外,微信智聆平臺還實現了Transformer的網絡結構。目前該系統的開發正在有序進行中,盧鯉老師指出這種Transformer的結構可以有效利用運行的並行性,無損地應用在流式系統中。

除了對網絡結構的改進以外,語音識別還有一個很重要的問題就是魯棒性。影響魯棒性的因素一般有錄音設備、環境影響、原始錄音的信號處理等幾類。為此,微信智聆平臺通過SpecAgument技術,強迫網絡學習這類糟糕的數據,增強網絡適應性。另外還收集了上百種不同的噪聲以及房間混響,加入到原始信號去模擬不同場景,以及利用混合頻帶訓練等方式,加強語音識別的魯棒性。

最後,在系統層面,智聆平臺也做了Hybrid和端到端的系統結構,同時在實驗室場景下針對二者的互補性做了一些相關的測試,具體見下圖。

面向應用場景

訓練好模型、做好系統僅僅只是萬裡長徵的第一步,盧鯉老師以智聆平臺為例分享了他認為在實用中需要考慮的點。

第一,對語音識別的前端考慮。不同的場景對體驗的要求不同,對前端的配置和要求也就不盡相同,也基於此可能造成識別的損失。

第二,在線學習之難。通用的語音識別器無法覆蓋所有場景,千萬條句子和關鍵詞的在線學習對算法也有很高要求。

第三,方言識別之難。國內方言種類多、某一類方言下的子類彼此不相通,用戶到底需要什麼樣的方言識別也仍舊是個問題。

分享結束後,盧鯉老師在QA環節和觀眾討論區都針對用戶關注的技術、細節的問題做了細緻的回覆,此處限於篇幅不再贅述。

騰訊雲AI語音語義助力企業發展

騰訊雲AI語音語義與應用平臺產品中心總經理周超向與會者匯報了騰訊雲在AI落地過程中的實踐與思考,他表示騰訊雲未來將向業界提供深入各行業的全AI能力解決方案。

企業AI需求盤點

根據目前業界對企業AI能力需求的調查報告顯示,計算機視覺目前是最受關注的企業AI能力,緊隨其後的就是智能語音技術、自然語言處理技術的份額。在對AI技術趨勢發展做分類,從技術的觸發期、期望膨脹期、泡沫破滅期、啟蒙爬升期、再到高原期的曲線可以很清晰地看出各AI技術所處的發展位置。

企業選擇部署AI的原因,最主要的3大構成是降低成本、提升效率、創新業務。在IDC 2019年中國人工智慧白皮書中顯示,目前企業採納AI後能對業務效能有優秀的提升的佔比不高,AI落地企業的效果有較大的提升空間。

今年以來,疫情影響推動了AI落地的應用,騰訊雲在疫情期間協助抗疫所廣泛採用的AI能力讓人們看到了AI的強大。在此期間,企業營業受到極大影響,線上化、數位化的趨勢在加速,在後疫情時代,出於降本增效的目的,線上線下結合的實踐也會帶來更多對AI能力的需求。與此同時,人工智慧作為國家的新基建戰略7大領域中的重要組成部分,為企業應用人工智慧帶來了更大的想像空間。

騰訊雲將企業部署AI面臨的困境總結為兩大挑戰、三大問題:碎片化和場景化的挑戰;行業知識的門檻、行業數據轉換成AI所需語料的挑戰、業務改造的成本的問題。在這樣的背景之下,騰訊雲希望向客戶提供效果好、門檻低、場景化/個性化的AI能力特質,助力企業發展。

騰訊雲AI產品

目前騰訊雲AI語音語義產品架構從基礎層到產品方案層分為:產品運營平臺、基礎模型服務、應用Paas服務和應用產品方案四個部分。在每個產品方向上,騰訊雲AI都提供了詳盡的AI能力,企業可以基於自己的業務場景,選擇基礎模型服務、應用PaaS服務、應用產品方案等不同層次的產品,降低企業應用AI能力的門檻。

在企業客戶的落地過程中,騰訊雲觀察到客戶的需求非常全面,除了對語音語義能力的使用以外,還會用到其他相關能力進行結合。騰訊雲也提出了一套全AI能力解決方案,在底層會結合包括人臉、車輛、物體識別、圖像AI識別、OCR、生物分析、NLP等全AI能力,基於Ti Matrix雲智天樞AI應用平臺,深入廣泛的行業,打造泛政務民生、泛金融、工業、智慧零售、廣電傳媒、運營商等AI解決方案。

周超老師以協同辦公場景為例,介紹了騰訊雲基於實時語音、圖像處理的線上實時多人音視頻會議案例。會議記錄是會議的剛需,方便人們對重要的會議內容進行留檔並回顧總結。隨著深度學習的出現,語音識別技術越來越成熟,會議記錄的整理形式也從極其耗費人力成本的人工記錄越來越多的被語音識別自動轉錄所替代。騰訊雲語音語義AI提供語音識別、自然語言處理技術,以及說話人分離、文本摘要提取等功能,解決會議記錄場景下存在的各種痛點。

除了協同辦公場景,騰訊雲AI能力在泛娛樂、政務民生、金融和呼叫中心等多個場景下均有非常具有代表性的案例。周超老師表示,騰訊雲會繼續深入各個行業去輸出場景化的解決方案,同時提供完備的AI基礎能力輸出,滿足客戶二次開發、定製化的需求。

「騰訊雲AI希望建立一個與合作夥伴共贏的AI生態,在產品合作生態方面進行聯合探索、聯合開發,在市場共贏生態方面希望聚攏更多戰略合作夥伴、渠道共享夥伴、認證合作夥伴。一起共建AI新生態,加速AI的落地化,解決碎片化、場景化的難題。」

針對用戶提問的小公司缺乏AI技術人才,但AI能力又是剛需,騰訊雲如何幫助解決的問題,周超老師也非常細緻地做了解答,他表示不管是底層AI能力的開放還是解決方案的需求,都可以通過騰訊雲的AI產品予以解決,非常歡迎各位用戶去試用。

騰訊雲NLP能力在法務領域的應用實踐

法大大合同智能化負責人劉謙帶來了騰訊雲AI能力在法務場景下的應用實踐,也是一次非常典型的騰訊雲與客戶共建AI產品的代表案例。

法務行業現狀與痛點

劉謙老師向與會者介紹了法務人群的工作日常,這個場景下從業人員的工作一般分為合同、合規、諮詢、部門需求、爭議解決五大類別,這其中又以合同佔比最大,一般達到日常工作的70%左右。

劉謙老師總結了合同審查的痛點有以下幾類:

合同審閱工作量大,響應時間長;

日常合同審核內容重複,效率低;

合同審核標準不統一,易出錯;

內控體系難以貫徹執行,風險高;

相對方風險難以評估把控。

合同審查痛點植根於法務行業長期基於人工服務的傳統模式。從源頭上來說,法務部門屬於職能部門而非銷售部門,天生事多人少,有限的部門人力預算需要解決的是持續增長的法務風控需求。從過程上來看,需要人工處理大量合同文本,業務需求排隊等待,工作量大且重複繁瑣,效率低下。從結果上看,響應滯後。一方面是公司業務快速發展變化,另一方面是職能部門的被動跟進,流程沒有打通。

在這樣的行業現狀與痛點之下,法大大選擇和騰訊雲合作,聯合開發AI產品,提供客戶價值。

打造聯合AI產品

合同審查領域的人工智慧早在2016年就一直有很多人在聊,但最近5年來在國內其實沒有一個特別好的產品實例。要麼是底層能力的缺失,要麼是對行業的理解不夠,而在技術層面上還面臨著三大核心難題亟待解決。

首先是數據樣本非常有限。從2013年最高法的裁判文書網上線以來,陸續被公開的裁判文書有一億多份。看似樣本量很大,但細分在刑法、民法等大類及其下的各個小類之後,可能每個類別數量平均下來不過數千甚至數百份。這在AI的訓練集裡只能算小樣本數。

其次是合同樣本差異非常大。對合同數據來說,因為行業、業務類型、每個客戶的不同特點,甚至包括一些客戶有意或者無意的不規範操作,導致每一類合同,不同場景之間的差異都非常大。

最後是法務審核要求非常準確,精準識別只是前提條件,召回率、準確率都必須同時做到高標準,否則就會有很大的風控漏洞。

法大大選擇與騰訊雲合作,在底層採用騰訊雲AI的技術支持,同時加上法大大自身在法務行業的多年積累,通過連接優圖實驗室、騰訊雲AI語義算法團隊與法大大開發團隊一起精誠協作,最終打造了這樣一款解法務場景燃眉之急的AI產品。具體合作模式如下:

該產品目前已可滿足三層合同審閱需求,最終的目的是希望基於業務場景、系統流程和法律Know-how,給參與合同全生命周期的多種角色人群,提供7x24的智能法務合同審核支持。

「目前實際使用中,可以幫助客戶提昇平均85%的效率,合同審核環節從以前的小時計到現在的六七分鐘。一些普通、常見的合同審核甚至已經不再需要法務人力支持,業務人員可以自己審核完成,客戶滿意度相當高。」

分享最後,劉謙老師也對評論區討論問題做了精彩的解答,由於篇幅所限,此處不再贅述。

圓桌論道:AI在產業落地中的難與不難

鮑捷:人工智慧已經有過多次高潮和低谷,我最早接觸人工智慧是在1998年,當時是針對醫療影像的應用。後來也在法務、國防等領域有過從業經歷,可以說人工智慧傳統四大領域的醫療、法務、政府、金融我都有過涉及。我個人目前在做金融方向的AI應用,也非常看好金融這個領域。在人工智慧的各個落地方向上,其實有一些共同的特性,核心就是三個方面:一個是數據必須有邊界,第二個是業務必須有邊界,第三個是一旦出錯是否會導致不可逆的後果。因此在人工智慧落地的方向上也可以按照這幾個維度去套用檢測,L5級別的自動駕駛在我看來就不是一個值得追求的方向,因為它的三大要素都不具備。但在金融、醫療、工業、政務等方向卻是值得探索的,我個人認為目前凡是跟流程自動化有關的工作,其實都是值得去探索的方向,這是我的考慮。

徐增林:學術界對人工智慧的關注可能與工業界不同,我們所關注的技術未必在當下就能推向落地,但卻有非常大的研究價值,例如我們研究的認知啟發的神經網絡和量子啟發的神經網絡是解決當前深度學習對大數據和海量計算資源依賴問題的重要途徑。我比較贊同鮑捷老師關於AI邊界的觀點,AI落地確實要抓好賽道和場景。技術層面上,因為現在是基於5G和網際網路基礎設施(包括邊緣計算和雲計算),再加上人工智慧+增強現實算法的結合,技術上可能會有一定的突破。如果讓我預測一個未來AI爆款產品的領域,我個人認為可能會出現在醫療健康領域,未來的AI會越來越懂醫生,醫生會慢慢的AI化。

周超:騰訊雲AI幫助各類企業做業務的落地,首先關注的是AI入場以後可以幫助企業降低成本,第二關注AI的替換可以提高企業效率,第三這個替換本身就是具備創新性的。在這個原則判斷下,目前騰訊雲的AI已經在多個行業,包括醫療、教育、政務、文旅、金融、能源等行業企業中深度落地。騰訊雲所提供的全AI能力的解決方案都是可以做一個應用和落地去改善行業、企業的業務流程。在這個過程中騰訊雲不會做到面面俱到,而是會以提供開放的基礎能力以及與合作夥伴深度共建的方式共同探索。

盧鯉:個人認為語音識別技術還遠未到非常成熟的地步,單純準確率數字目前來說本身沒有太大意義。這背後的邏輯其實就兩個原因,第一無法覆蓋全部場景,第二無法覆蓋所有人群。使用場景、使用人群、地域口音方言等因素綜合影響下,語音識別技術還有很長的路要走。我們未來努力的方向也就是覆蓋更多的場景,覆蓋更多的人群,讓更多的場景、更多的人都能很方便的使用語音識別這個技術來提高效率。

劉謙:法大大在做AI產品落地的過程中,首先考慮的產品規劃就是圍繞合同展開的,在想明白這個產品邏輯和實際痛點以後延伸開去,發現用戶的需求又不斷處於變化中,從簡單的電子合同籤署到管理訴求再到分析訴求,這樣反過來也給我們的產品發展規劃帶來了益處,因為我們找到了真實的客戶價值所在。和騰訊雲的合作給了我們非常強的模型調優能力和數據處理的準確性,大大提升了產品效果,客戶也十分信任。這對法務、業務和公司都是一個多方共贏的局面。

在圓桌討論環節,幾位嘉賓還就AI創業方向選擇、學術研究方向等議題做了精彩的論述。本場閉門會主持人騰訊雲AI語音語義與應用平臺產品中心專家產品經理王天也給出了自己對AI落地的未來趨勢判斷:

結語

人工智慧尋覓了60年的價值,要從實踐中追尋。

TVP組織的這次AI技術閉門會,以計算機視覺、AI語音語義2大熱門技術風口為話題,為業界輸出了6小時無保留的經驗分享,邀請12位學術界、工業界從業大咖論道技術與商業趨勢,只為窮盡AI技術跨過概念鴻溝走向落地的那些可能。

在這場技術交流與商業思維碰撞的盛宴上,我們看到了計算機視覺的全新應用,看到了AI語音語義的發展脈絡,看到了從靈感迸發到產品落地的創業故事,也看到了死磕技術永不言敗的探索精神。

時代賦予技術以風口,商業賦予技術以舞臺,開發者賦予技術的,是無限的可能。

關於TVP技術閉門會

TVP,即騰訊雲最具價值專家(Tencent Cloud Valuable Professional),是騰訊雲授予雲計算領域技術專家的一個獎項。TVP 計劃致力打造與行業技術專家的交流平臺,構建雲計算技術生態,實現「用科技影響世界」的美好願景。

TVP技術閉門會,是為TVP打造的專屬技術閉門研討會,旨在為大家提供一個開放、平等、知無不言的交流環境,便於 TVP們針對熱門技術、前沿科技、技術管理等話題進行深入探討。

（責任編輯：王治強 HF013）

語音識別技術發展史與行業最佳實踐全解析

相關焦點

限量報名 | 計算機視覺、語音專場，騰訊教你做AI商業化實踐

語音識別技術的發展及難點分析

語音識別技術原理全面解析

語音識別技術突飛猛進,語音識別公司都有哪些?

你了解語音識別技術嗎?

中國最佳客戶聯絡中心技術實踐:上海華泛信息服務有限公司

國內外語音識別技術發展現狀探討

有關語音識別技術的所有信息

語音識別的技術原理及語音識別系統的分類

國產離線語音識別晶片對比

語音識別技術專利分析

以RPA技術實踐構築價值軟通動力摘得「年度最佳行業實踐獎」

AI技術實力圖譜全解析 -- 2018中國AI開發者大會重磅來襲

匯桔網攜手先進語音採集技術打造語音識別生態圈

...比如語音識別及合成技術、自然語言理解技術、圖像及視頻識別...

遠場語音識別,性能提升 30%,百度怎麼做到的?

谷歌開發瀏覽器語音識別和文本轉語音技術

槽位識別與糾錯在智能語音機器人中的實踐

人工智慧時代，如何看待語音識別技術的現狀？

高效準確的語音識別技術是關鍵!