FinTech時代商業銀行智能語音識別技術應用與發展

2020-12-05 中國電子銀行網


  文:中國民生銀行 王彥博 桂小柯 楊璇
    中興通訊股份有限公司 杜新凱
    武漢大學 盧佳慧

  受到當前利率市場化、網際網路金融快速發展、經濟發展進入新時代等多種因素的影響,國內銀行業傳統經營模式正面臨著全新的變革。如何在精細化管理的基礎上為客戶提供更便捷、更優質、更安全的服務體驗,已經成為各商業銀行競爭的焦點。

  近年來,雲計算、大數據、物聯網和人工智慧等FinTech技術快速發展,促進了語音識別準確度的迅速提升,為商業銀行引入智能化服務提供了重要的技術資源,語音識別技術將掀起商業銀行服務模式的變革,為智能化服務增加新的元素。本文從商業銀行實際出發,對該技術的發展進行梳理,並提出商業銀行語音識別「4I」應用框架,以期推動FinTech時代下銀行綜合智能化服務能力進一步提升。

   一、語音識別技術概述

  語音識別通過運用語言學、計算機科學、電子工程、模式識別、概率論、資訊理論以及人工智慧等領域的方法和技術,使計算機設備能夠精準識別和翻譯語音信息,也被稱為自動語音識別(ASR)或者語音到文本(STT),在金融、電信、電子商務、醫療、製造等行業得到了廣泛應用。

  1.語音識別技術發展

  語音識別技術按照發展和應用程度,可分為早期實驗研究階段、實用階段、現代語音識別系統開發應用階段。

  (1)早期實驗研究階段

  20世紀50年代,世界上第一個能識別10個英文數字發音的實驗系統在貝爾實驗室誕生;20世紀60年代,出現了動態時間規整(DTW)算法以及將語音信號以幀為單位切分的技術,實現了有效的語音特徵提取;20世紀80年代,識別算法從基於標準模板的方法轉向基於統計模型的方法,產生了基於高斯混合隱馬爾可夫模型(GMM-HMM)的聲學模型和以N元語法為基礎的語言模型,實現了大量詞彙、非特定人以及連續語音的識別。

  (2)實用階段

  進入20世紀90年代後,語音識別的系統框架趨於穩定,隨著計算機運算能力的快速提升以及語音識別在系統自適應、參數調優等方面的成熟,語音識別技術在商業上逐步成功運用,語音識別技術進入實用階段。

  (3)現代語音識別系統開發應用階段

  近些年,隨著大數據和深度學習技術的發展,深度學習方法逐漸被引入到語音識別系統中,相較於傳統的語音識別技術,識別性能獲得了顯著提升。

  目前,市場上的語音識別系統大多基於深度神經網絡模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。

  2.語音識別的分類

  按照說話人的不同,語音識別技術分為兩類:一是特定人語音識別,它用來對特定人的說話內容進行識別,同時基於說話人的聲紋信息,應用聲紋鑑別技術,實現基於聲音的身份識別;二是非特定人語音識別,通過採集大量語音數據來進行訓練建模,實現非特定人的語音識別,可以被任何說話人使用,更符合實際需要,通常要難於針對特定人的語音識別任務。

  根據識別詞彙對象的不同,語音識別任務分為三類:一是孤立詞識別,可識別事先已知的詞語,比如「存款」「取款」等,可應用到自動控制領域;二是連續語音識別,可識別自然交流的連續語音,比如一個句子或者一段話,可應用於語音輸入系統;三是關鍵詞識別,從連續語音中檢測出特定關鍵詞出現的位置,而不需要識別出整個句子,可應用於語音監聽任務。

  根據識別服務的實現方式,語音識別分為兩類:一是雲端方式,依賴網絡並依託強大的後臺模型,識別更準確,目前已經有多款基於雲端的語音助手工具;二是離線方式,不依賴於網絡,應用場景更靈活,但識別精確度受到計算資源的限制,一般離線識別會結合專用晶片,通過壓縮模型規模,將計算量控制在合理的水平。

  3.語音識別技術原理

  傳統語音識別技術的基本過程如圖1所示,主要包括如下內容。


  (1)預處理

  這一過程主要包括對輸入的原始語音信號進行採樣,去除個體發音差異以及設備環境等引起的背景噪聲,通過分幀將語音信號切分為短片段,並運用端點檢測技術確定出語音的起點和終點。

  (2)特徵提取

  這一過程主要包括從預處理過的語音信號中,抽取出反映語音本質的特徵參數,形成特徵矢量序列。通常由頻譜衍生出頻率倒譜係數(MFCC),使用長度為10ms的幀分割語音波形,然後從每幀中提取出特徵向量。

  (3)聲學模型訓練

  基於語音資料庫進行訓練,通過計算語音特徵和發音模板的相似度,為每個聲學單元建立模型參數,識別時將待識別的語音特徵參數與訓練得到的聲學模型進行匹配,獲得識別結果。傳統語音識別系統大多採用GMM-HMM進行聲學模型建模。

  (4)語言模型訓練

  根據語言的語法規則,對訓練文本資料庫進行語法、語義分析,建立描述給定詞序列在語言中出現的概率分布,在給定若干個詞的情境下能夠判定下一個最可能出現的詞語,縮小搜索範圍,進而提高語音識別性能以及準確率。

  (5)語音解碼

  語音解碼指語音技術中的識別過程,針對輸入的原始語音信號,經預處理和特徵提取後,結合訓練得到的聲學模型、語言模型以及發音字典建立一個識別網絡,運用搜索算法尋找到最佳路徑,進而獲取該語音信號對應的最優詞串。

  4.深度學習和語音識別技術

  深度學習也稱為「深層結構化學習」,是一種基於學習數據表徵的機器學習方法,通過構建多隱藏層神經網絡,組合低層特徵形成更加抽象的高層表示特徵,以此提升分類或預測的準確性。

  語音信號是一種非平穩的隨機信號,人腦對其感知的過程是一個複雜的信號處理過程,深度學習可通過模仿人腦對語音信號的處理方式,以層次化的方式進行處理,因此比傳統的模型更適合於語音信號處理。結合深度學習技術對傳統語音識別技術的相關環節進行優化和完善,出現了級聯繫統(Tandem System)、混合系統(Hybrid System)、端到端模型(End-to-End Model)系統等新技術,具體描述如下:

  (1)級聯繫統

  運用深度神經網絡(DNN)進行特徵提取,優於使用傳統特徵訓練的GMM-HMM識別系統,它可以聯合特徵的上下文信息形成長時特徵矢量,並且具有深層次的非線性變換能力,能夠從有限的數據中挖掘出更多的信息。

  (2)混合系統

  在GMM-HMM聲學模型基礎上,用DNN替換高斯混合模型(GMM)來計算輸出概率密度函數,其中的DNN可替換為其他的深度學習架構,比如循環神經網絡(RNN)、卷積神經網絡(CNN)等,這種方法最常用也最便利,不需要重新設計整個傳統聲學模型系統。

  (3)端到端模型系統

  基於深度神經網絡完成從輸入特徵向量到輸出結果的整個過程,聲學模型和語言模型通過後端解碼進行融合,與傳統識別過程相比,不需要進行分幀以及幀級別的標註操作。端到端模型實現方法分為兩種,一種是採用連續時序分類(CTC)和長短記憶網絡(LSTM)結合的聲學模型,對語音的音素序列和對應的語音特徵序列進行序列層面建模;另一種是基於編碼解碼(Encoder-Decoder)模型以及注意力(Attention)模型,直接實現從語音聲學特徵序列到最終詞序列的輸出。

  二、智能語音識別技術在商業銀行中的應用

  隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,在以商業銀行為代表的金融領域,語音識別技術呈現出巨大的應用價值潛力。本文對商業銀行視角下的語音識別應用場景進行梳理和歸類,從對智能化技術要求由淺入深的角度,提出「4I」應用架構,即「Input(信息輸入)—Inspection(實時監察)—Interaction(溝通交互)—Identification(身份驗證)」,以期為商業銀行智能語音識別技術落地提供參考和借鑑。

  1.Input(信息輸入):「聽得見」

  語音識別的一個主要應用就是將語音數據自動轉換為文本數據,實現自動信息輸入。該類應用下,語音識別技術的主要功能是將音頻數據轉化為文本數據,並為進一步開展智能文本挖掘和自然語言處理積累大量文本信息語料。在商業銀行運營環境下,該功能可主要應用於簡化櫃檯人員業務操作流程、實現客戶經理拜訪客戶後的報告口述撰寫等場景。

  以櫃檯操作簡化流程為例,當前網點仍是銀行提供服務的重要渠道之一,櫃檯運營人員服務質量是決定客戶體驗的關鍵要素。客戶針對銀行提出的反饋意見顯示,等待時間過長已成為影響客戶滿意度的重要因素。通過引入語音識別系統,可以將客戶需求直接轉化為系統可識別的文本內容,櫃檯人員僅需針對錄入的信息進行覆核校驗,減少客戶填寫各種憑證的時間以及運營人員錄入信息的時間,從而減少客戶等待時間,提升服務效率。此外,當銀行一線人員走出網點對客戶進行拜訪後,由於缺乏行內雙錄設備,往往需要撰寫訪談報告對客戶情況及交談內容進行記錄,此時語音識別技術的應用可直接將客戶經理的口述轉換為文字報告,以提升工作效率,進一步釋放銀行生產力。

  2.Inspection(實時監察):「聽得懂」

  商業銀行日常應用場景除了需要「聽得見」,很多場景還要求「聽得懂」,即需要在銀行服務人員與客戶交流過程中實時識別出客戶需求點及業務風險點,支持更精準地對客戶提供個性化服務,同時保證業務合規性。

  例如,通過在語音識別技術的基礎上架構索引機制、引入文本挖掘和自然語言處理技術支持,對實時「聽」到的文字在「關注」字詞庫裡進行搜索。當客戶在櫃檯辦理業務時,通過對客戶與窗口人員的交談內容進行實時監察,一方面可以及時識別銀行員工話術的合規性,當業務人員出現不當銷售、違規引導時,系統及時跳出提醒標識對銀行人員進行警示,儘可能避免對客戶和銀行權益造成損害;另一方面銀行可以實時發現客戶的業務需求,並及時讓窗口人員予以相關產品的推介,當客戶的需求與本行產品及服務核心關鍵詞相匹配時,系統展示產品信息及相關話術對業務人員進行提示,進一步提升銷售成功率。

  此外,該技術還可以通過對客戶語言文本的分析,及時發現客戶是否存在負面情緒,輔助業務人員減少不當處理,及時調節、化解業務辦理中可能發生的客戶糾紛。

  3.Interaction(溝通交互):「有交互」

  語音識別在商業銀行的應用場景除了上述「聽得見」「聽得懂」外,很多時候還需與客戶「有交互」。通過語音合成、聲向定位、語義理解、機器翻譯等進一步技術支持,語音識別技術可應用於自助機具操作、電話銀行自動應答、銀行呼叫中心自動回訪、廳堂機器人服務交互、外籍客戶服務提升等場景。以廳堂設備自助化功能優化為例,當前自助設備已成為廳堂運營過程中分流客戶的重要手段。

  目前,自助設備操作主要以觸點操作、手動輸入為主,為輔助客戶進行業務辦理,一般需設置專人對客戶的操作進行指導。引入智能語音識別技術可進一步優化自助設備功能,通過識別語音中的要求、請求、命令或詢問來做出正確的響應,既能改善手動輸入速度慢、易出錯等缺點,又有利於縮短系統的反應時間,使人機互動變得簡便易行。

  將語音識別技術應用於手機銀行和微信銀行等數位化渠道,可進一步優化客戶和系統交互的客戶體驗,完成餘額查詢、帳戶掛失、手機號轉帳、轉帳費率查詢、預約取款、帳單查詢、信用卡還款、積分查詢、信用卡掛失等基本業務辦理,減少客戶輸入信息量,增加客戶對渠道的使用黏性,在節省服務成本的同時有效提升客戶體驗。

  此外,外籍客戶服務提升也是智能語音識別技術充滿潛力的應用場景。以廳堂或窗口服務機器人為載體,在語音識別技術應用的基礎上實現「同聲傳譯」,使銀行能夠很好的服務外籍客戶,提升客戶尊享度,同時也為銀行更好地布局國際化戰略、發展海外業務提供技術支撐。

  4.Identification(身份驗證):「認得出」

  語音識別技術還可通過聲紋識別實現客戶身份驗證。在生物特徵識別應用中,基於語音的身份驗證具有非接觸、非侵入、易用性強等特徵,客戶易於接受。聲紋識別可以通過每個人獨特的聲音直接辨識客戶,無需設定、記住和鍵入密碼等操作,同時在信息採集方面較人臉、虹膜、指紋、指靜脈等方式具有更佳的便捷性和友好性,讓身份驗證過程變得快速而簡單。國外領先商業銀行已開啟語音身份驗證的探索,2013年5月,英國巴克萊銀行宣布使用語音識別技術,能夠在30秒內通過一般談話驗證客戶的身份。更進一步,通過建立客戶聲紋庫並對語音中的聲紋鑑別,銀行可有效對客戶進行識別、歷史檔案查詢、信息檢索與推薦。

  毋庸置疑,語音識別技術為商業銀行的員工操作和客戶服務等應用模式提供了新的技術選擇,並能進一步提升業務效率,開拓新的業務運營模式。近年來,語音識別技術得到了迅猛發展,但是該技術在國內商業銀行的應用仍處於起步階段。這主要是因為基於銀行業領域特定的語料庫還不夠成熟,導致無法在真正意義上實現智能語音識別。隨著大數據技術不斷發展,數據積累越來越龐大,銀行業的語料庫必將逐漸完善,語音識別技術在商業銀行的應用將會逐漸深入。

責任編輯:Rachel

相關焦點

  • 語音識別技術簡史
    語音識別的精度和速度取決於實際應用環境,但在安靜環境、標準口音、常見詞彙場景下的語音識別率已經超過 95%,意味著具備了與人類相仿的語言識別能力,而這也是語音識別技術當前發展比較火熱的原因。隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,特別是遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用最為成功的技術之一。
  • 排名 語音識別_語音識別技術排名 - CSDN
    經過半個世紀的發展,語音識別技術在2011年之後迎來了黃金髮展時期:前微軟研究院俞棟和鄧力研究員首次將DNN在大詞彙量語音識別上成功應用,基於神經網絡的語音識別技術迅速成為了研究和產業上的投入密集地,在工業界Google和國內的訊飛成為了最早上線基於DNN的語音識別系統的兩家公司。經過接近10年的發展,語音識別技術取得了空前的進步,在多個場景下已經達到了實用水平。
  • Fintech時代商業銀行的大零售數位化營銷 ——基於社交網絡圖挖掘
    本文以客戶交易流水數據為抓手,提出了一套社交網絡圖數據處理流程,並結合商業銀行大零售業務實際,探索了FinTech時代大數據社交網絡圖挖掘技術在商業銀行數位化營銷相關領域的應用發展。  數位化營銷和社交網絡  「客戶圈子營銷」是當前FinTech與大數據智能發展下的一個較為新興的數位化營銷概念。以往商業銀行在做客戶服務和業務提升時,往往僅關注單一客戶個體。而事實上,客戶是嵌入在各種社交網絡中的,客戶之間存在著各式各樣的關聯關係。
  • 智能語音識別技術入門系列(上)
    本系列文章開始,我們將一起探索自動識別、語言處理技術所包含的核心算法、模型及未來的發展趨勢。本篇文章我們主要討論語音識別的基本概念。並理解語音識別技術的流程。(一) 自動語音識別技術ASR自動語音識別,簡稱ASR。
  • 語音識別技術原理全面解析
    語音識別技術正逐步成為計算機信息處理技術中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。目前是中等詞彙量的識別系統,將來可能就是小詞彙量的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。  5、語音識別的應用  語音識別可以應用的領域大致分為大五類:  辦公室或商務系統。典型的應用包括:填寫數據表格、資料庫管理和控制、鍵盤功能增強等等。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    現階段,在理想的環境下,多家公司的語音識別系統已經越過了實用的門檻,並在各個領域得到了廣泛的應用。人工智慧產業鏈由基礎層、技術層與應用層構成。同樣,智能語音識別亦由這三層組成,本文從語音識別的商業化應用出發,並探討驅動語音識別發展的算法及硬體計算能力,三位一體淺析語音識別現狀、發展趨勢及仍然面臨的難點。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 從不溫不火到炙手可熱:語音識別技術簡史
    【導讀】語音識別自半個世紀前誕生以來,一直處於不溫不火的狀態,直到 2009 年深度學習技術的長足發展才使得語音識別的精度大大提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,並能產生興趣投身於這個行業。
  • 基於語音識別的移動電子病歷應用探索
    隨著網際網路的快速發展、移動終端的普及應用,藉助人工智慧、數據挖掘等信息技術,語音識別技術得到了突飛猛進的發展。特別是在醫療領域,語音識別技術在歐美國家醫院已得到了廣泛應用,主要用於醫療文書的錄入,節省醫生的錄入時間,將更多的時間留給醫生與患者溝通交流。而這幾年在中國醫院,語音識別的應用也得到了深入的探索與研究,但由於醫生使用習慣、錄入識別率等因素影響,並未廣泛地開展起來。
  • 語音識別在生活中的七個經典應用
    語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。 語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。
  • 語音識別技術輔助篩查睡眠窒息症
    原標題:語音識別技術輔助篩查睡眠窒息症   「即便是呼吸的聲音,我們也可以通過算法監測到不同的信息,根據這些信息可以做很多事情。」
  • 生活中的七個語音識別經典應用
    打開APP 生活中的七個語音識別經典應用 佚名 發表於 2018-02-19 05:10:00 語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術
  • 智能語音技術中麥克風陣列的原理
    任何一項技術的發生發展都伴隨著問題的提出及解決,麥克風陣列也是如此。那麼它主要應用在哪些場景下呢?又有著怎樣的功能!  噪聲環境怎麼破?— 語音增強  語音增強是指當語音信號被各種各樣的噪聲(包括語音)幹擾甚至淹沒後,從含噪聲的語音信號中提取出純淨語音的過程。
  • 智能翻譯機逆襲,智能語音技術起了什麼作用?
    智能語音技術經年之後的不斷完善,尤其是隨著語音識別準確率的不斷提高,基於智能語音技術的智能硬體紛至沓來,除了智能音箱一再受眾人追捧外,智能翻譯機也悄然逆襲,併入這條快車道。
  • 機器視覺人臉識別技術在智能商業中的應用
    人工智慧領域主要分布在機器學習(通用)、機器學習(應用)、計算機視覺(通用)、智慧機器人、虛擬個人助理、自然語言處理(語音識別)、自然語言處理(通用)、實時語音翻譯、情境感知計算、手勢控制、推薦引擎及協同過濾、視頻內容自動識別等。
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    目前,政策、經濟、人才、技術各方面都為人工智慧提供了很好的條件: (1) 政策:人工智慧進入國家戰略層面。國務院在《關於積極推進「網際網路+」行動的指導意見》中將人工智慧推上國家戰略層面。在國家「十三五」規劃的「科技創新-2030項目」中,智能製造和機器人被列為重大發展工程。
  • 國內智能語音行業分析報告
    伴隨著人工智慧行業的快速發展,中國在智能語音這個細分市場的發展速度也將會持續增長,但是目前國內在智能語音市場,技術已經相對成熟,且頭部企業在行業的壟斷力度較大。
  • 揭秘語音識別背後的技術,GPU集群+DNN算法
    智能語音目前主要依靠深度學習的技術實現,作為機器學習的一個重要分支,深度學習在於建立、模擬人腦進行分析學習的神經網絡,使得機器能從大量歷史數據中學習規律,從而對新的樣本做智能識別或對未來做預測,以達到具有人類一樣的思考能力
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    迄今為止,國內戰場上的巨頭有阿里、京東、騰訊、百度、小米、科大訊飛等,國外則有蘋果、微軟、亞馬遜、谷歌、臉書、三星等,這些巨頭佔據了全球市值的排名榜,同時發力爭奪未來人工智慧時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰。這些全球巨頭的激烈競爭,將對未來十年產生極其重要的影響,同時,這更是新一波的職業快速發展機會。
  • 量子金融科技時代,可以為商業銀行帶來哪些價值?
    有研究表明,量子科技具有巨大的應用價值和前景,並且在國家政策護航下,未來量子科技市場規模將突破千億元級別。FinTech時代,科技已成為商業銀行的核心能力,在眾多新興精尖技術中,量子計算由於其潛在的超越經典計算的強大算力,在商業銀行應用領域前景廣闊。