人機互動過程拆解:是什麼?怎麼做?

2020-12-12 人人都是產品經理

編輯導讀:AI改變了我們與機器互動的方式,影響了我們的生活,重新定義了我們與機器的關係。本文作者對人機互動的過程進行了分析拆解,對語音識別技術為什麼能把語音信號變成文字展開了詳細的說明,一起來看看~

背景:市面上有哪些搭載類似交互系統的產品?

微信的小微平臺、淘寶的淘小蜜、釘釘的智能工作助理、百度的小度等等,既有面向C端消費者,又有面向B端企業主,如果要論商業化的潛力無疑目前機器人行業很大程度上C端的機器人產品已經幾乎被驗證無法實現盈利了,參考微軟小冰和siri,不過未來教育行業的幼兒機器人也許是一條光明大道。

更多的廠商已經轉向了幫助企業主實現數位化管理、智能化辦公而開發機器人能力,演化除了機器人的自定義平臺,用於企業運維和管理。

智能語音交互系統簡單來講:就是語音識別+語義理解+TTS

雖然說的簡單,但是內部系統往往都比較複雜,每個點拆開來可能就足夠我們去研究迭代一生。為何說AI時代的重點和基礎是語音智能交互?在人工智慧時代,人們發現語音比文字輸入更能收集到有用的大量信息,這也是一種未來的主流形式。

語音交互流程

智能語音交互系統概括起來就是一段音頻被機器人所吸收檢測,將識別到到的語音信號截取、轉換成語料庫裡讀音信號頻率最為相近的文字(所以也有人形容語音識別其實是一種概率事件),而文本會通過特定接口進入語義分析引擎,進行分析。其中就可能要進行分詞、命名實體識別、詞性標註、依存句法分析、詞向量表示與語義相似度計算等NLP基礎功能。

NLP基礎技術

一般情況下都會首先進行分詞分析:

例如:我想在房間裡看電影

分詞:【我】【想】【在】【房間】【看】【電影】

這就是分詞的效果。而分詞的目的是為了找出文字中最重要的核心語義,命名實體識別功能(假如需要的話)

分詞:【我】【想】【在】【房間】【看】【電影】其中涉及到人物、地點、作品這些詞彙就可以自動被提煉出來,很多應用場景會需要用到這種信息分類識別的能力,比如人口錄入系統,只要將基本信息複製進去,自動分類此人的身份證號碼、地址、年齡等需求信息。

詞性標註:詞性標註可以幫助我們找到其中的名稱、動詞、 形容詞等。

依存句法分析的主要功能是能夠針對句子找出句子的核心部分,比如分詞:【我】【想】【在】【房間】【看】【電影】

經過詞性標註和依存句法分析之後可以找出這句話的觀點是:【在】【房間】【看】【電影】,這是整句話的核心。

從而我們可以通過檢索知識庫中和分詞內容相似度計算,並輸出相似度最高答案。

而詞向量與相似度主要能解決什麼問題呢?比如西瓜、呆瓜、草莓,在語義上哪兩個更像呢?

這個時候我們可以將這三個詞通過向量表達式工具和計算相似度來解決:

可以明顯的看出,語義上西瓜和草莓更相似,同屬水果,這樣就解決了大部分字面意思相近但是語義差別較大的情況,避免機器人錯誤理解人類的意圖。

回到題目,當我們的文本進入語義分析引擎,並經過上述的步驟後,計算相似度從而觸發設定閥值以上的答案即可請求伺服器發送正確答案給到終端處,如果需要機器人播報返回的文字時,可以接入TTS語音合成引擎(一般語音識別引擎就有這項功能)。

簡單的來講,語音交互系統流程框架大致如此,無論是軟體語音交互機器人還是實體機器人,本質上流程變動不大,根據業務需求會有些許差別,比如展示相關問,模糊問題引導,詞彙糾錯等需求就需要插入特定的流程。

通過上面所寫的內容,希望能讓大家大致了解市面上搭載智能語音交互系統的產品後臺流程,也能明白一個簡單的對話框背後所涉及的技術高度。

四款人機互動系統:小i機器人、siri、漢娜、Echo。當然還有市面上眾多針對toB的機器人產品

今後真正的個人虛擬助理一定會搭載智能語音交互系統,並且會調用各種讓你意想不到的功能,從而成為你強大的私人秘書,能想像我們只需要說一聲幫我訂今晚到北京的機票,並通過語音密碼付款即可完成購票的整個流程嗎?這種場景真正商業化會在10年內大規模爆發。

說到這裡有必要給大家普及一下語音識別的一些細節內容,有人說:我很納悶,怎麼就能把語音變成文字?

在AI越來越普遍令大家感到新鮮的同時,一些專業名詞也讓大家開始熟悉起來,起碼也都能了解到一些術語所代表的含義。

例如:語音識別就是把語音信息變成文字的技術;自然語言處理就是能讓機器人理解人類通用語言的技術;人臉識別就是拍個照就能認出你是誰的技術。不能不說技術的普及,生活水平的提高會讓人們對技術基礎的理解程度也越來越高,接受能力也變得很高。

經典案例:90年代我國開始研究二維碼,但是大家並不熟悉,關鍵在於沒有產品使得二維碼變得普及,幾年前微信和支付寶開始率先使用二維碼支付後,二維碼迅速成為大街小巷最普及的東西,大家從一開始的質疑到將信將疑最後變成信任,這就是技術普及的力量,讓這種新鮮的技術變成一種社會的常識。

這篇文章我會詳細給大家解釋一下語音識別技術為什麼能把語音信號變成文字?

過程的第一部分就是發送一段語音信號,有點像是心電圖頻率的波動,下圖我們先介紹一下語音識別的整個流程,先有個概念。

語音識別流程圖

這段音頻進入語音識別引擎之後,就會送出識別到的文本,我們將這個文本發送給語義分析並處理,進而得到相似度最高的答案,併合成文本發送到語音合成引擎之中進行語音輸出。

那麼重點來了這個【ASR】是怎麼讓語音變成文字的?

接下來我們繼續分解,看下圖:

語音預處理

語音信號通過我們的接口送進語音引擎中,這段語音信號的質量其實是比較差的,這段語音有周圍的噪聲,機器本身噪聲,所以我們先要做的處理就是降噪、回聲消除、端點檢測,可能大家不是很理解回聲消除是怎麼抑制回聲的,我給個原理圖示大家應該就明白了:

做完了語音預處理之後,把相對比較純淨的信號發送給特徵提取部分,這個部分主要幹什麼呢?

我們人和人是不同的,膚色、身高、體重、樣子這些都是特徵,而語音部分我們提取什麼呢?信號頻率、振幅,這其實就是每個人音色不同的秘密所在,將這些特徵提取送到語音識別引擎的聲學模型中去。它會自動匹配這些語音信息最大概率的發音漢字。說白了就是這個讀音是哪個漢字的讀法,然後把這個漢字單獨拎出來。

其實什麼是聲學模型呢?簡單來講就是一種刻畫(拼音讀法)韻母a、o、e,聲母b、p、m這些的模型,那這些模型是怎麼來的?它是怎麼知道這個字怎麼讀的呢?這個時候我們就需要輸入一些音頻訓練集了,例如我們正常說話一段話,同時輸入剛才說的那一段話的文本,機器會自動取出其中不同的因素,並且拿去繼續訓練模型,修正誤區。

這樣對於機器算法來說,有了輸入和輸出,還能不斷優化自身模型。算法是不是很神奇。這些不同因素數據會先進行預處理,例如百度就做了一定的加噪處理,這樣在噪聲環境下魯棒。

其中語音識別模塊除了聲學模型之外還有一個同等重要的模塊就是語言模塊,什麼叫語言模塊呢?就是刻畫文本和文本之間概率權重的。那麼語言模型是怎麼來的,假如我們要想做醫學領域的語言模型,那就要讓它去學習很多醫學術語,這個時候就需要我們準備這些術語做成一個詞表,但是同樣需要數據清洗,原始數據會有些垃圾,在做一些權重的正規化,並送到模型中去訓練,從而得出或者優化原有模型。簡單說你提前給醫學領域的專用術語背下來了,下次一聽到相關的語音你就能記起來這個專用術語。

例如【板藍根】,訓練之後一聽到這個語音就不會識別成【版爛根】

這樣我們最終就能得到這個語音識別的模型,並且我們可以通過繼續迭代來優化這個模型

既然模型有了,那怎麼看好還是差呢?有幾個方面來分辨。

理想音頻就是識別質量較好的情況,但是現實生活中語音識別往往回因為各種情況導致識別效果不佳,比如丟音,比如你按下手機麥克風按鈕時,還沒有啟動錄音你就開始說話了,那沒啟動時說的語音就被丟棄了,這種情況識別就差很多了,什麼叫截幅呢?就是一般語音識別都是用兩個字節來表示一個語音的取值範圍,當你的增益太大就會被自動截掉,識別的效果也較差了。

回過頭來,我們剛才所得到的語音訓練模型只是一種特定情況下得到的語音模型,不具備普適性。為何這麼說呢?

我們所得到的醫學領域模型,假設是用手機錄音採集的語料,那麼這個模型就是近場識別模型,一旦同樣的術語【板藍根】你用手機詢問就能回答正確,但是你一旦用音箱遠場詢問,那很可能就得出錯誤的回答,這叫聲學一致性。

同樣,不同領域也需要文本一致性,你希望這個領域能多識別該領域的專業詞彙那就需要多訓練這個領域的核心詞彙,否則就會出現【板藍根】的情況。

最後,通過不斷的獲取到不同的音頻數據、文本數據,並繼續迭代優化,我們會得到更好的模型,識別更準的效果。

這就是識別的細節,這也是一種科技的魅力,眾多步驟完成了我們看似簡單的動作。與其說機器的緊密不如說人類的身體系統更加複雜與奧妙。

本文由 @南國書生 原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

相關焦點

  • 人機互動的內容有哪些_人機互動主要研究什麼
    打開APP 人機互動的內容有哪些_人機互動主要研究什麼 網絡整理 發表於 2020-03-31 14:12:13   人機互動的內容有哪些   機交互界面表示模型與設計方法(Model and Methodology)   一個交互界面的好壞,直接影響到軟體開發的成敗。
  • 下一場革命性的人機互動方式會是什麼?
    今晚這堂課咱們來講一講近幾年大火的人機互動技術,以及未來可能會出現的革命性人機互動新方式。只有通過存儲的信息與當前的信息進行比較的加工過程,才能實現對圖像的再認。,接下來的內容我們來講下未來可能會出現的人機互動新方式。
  • 前景專業|人機互動(HCI)
    人機互動(HCI)的興起20世紀70年代,隨著個人計算機的出現,人機互動領域也浮現出來。由於計算機尺寸縮小且價格降低,對於計算機操作不夠熟練的普通用戶,就需要一種簡單有效的人機互動方式。後來,人機互動的重心擴展到遊戲、學習教育、商業、健康與醫療應用、應急規劃與響應,以及協作與社區支持系統等領域。如今,人機互動的跨學科性體現在計算機科學與行為科學的交叉領域。人機互動的目標是創建一套易於用戶操作的安全有效系統,這個概念看似並不複雜,但卻需要綜合計算機科學、認知科學及人因工程學等領域的技術。人機互動領域的研究員通常做些什麼事?
  • 嵌入式人機互動界面研究與實現
    目前,嵌入式人機互動界面開發可以選擇作業系統主要分為WinCE和Linux兩大陣營,隨著2012年底微軟公司宣布Wince停止更新,越來越多的開發人員在選擇作業系統時轉而選擇Linux以及Linux衍生出的Android等作業系統。
  • 人機互動簡述,一起來了解人機互動的世界!
    一、HCI綜述HCI(WIKI)是一門研究系統和用戶之間交互的學問。系統可以是各種各樣的不同的機器,也可以是計算機化的系統和軟體。人機互動界面通常是指用戶可見的部分。用戶通過人機互動界面與系統交流,並進行操作。通俗的講就是研究各種通過交互系統、交互體驗的學科。Physical的交互界面比如收音機的播放按鍵,virtual的界面比如網站、app界面。
  • 視聽整合:人機互動界面的新方向
    當前,雖然有許多關於大腦對多模態信號敏感性的研究,但視聽整合視角下人機互動的相關研究相對較少。本文試探索視聽整合新方法,開發人機互動界面的新潛能。人類智能和人工智慧是智能時代的兩個主要力量,人工智慧是指用機器去實現所有目前必須藉助人類智慧才能實現的任務,本質是基於學習能力和推理能力的不斷進步,模仿人類思考、認知、決策和行動的過程。
  • 人機互動作品集,一定要展現技術嗎?
    如果申請HCI人機互動相關專業,在作品集中項目選題該如何去做?2. 如何讓自己的選題既能跟隨時代發展,又能在合理的範圍內展望未來,不至於太過藝術概念?3. 如何在不懂技術的情況下去做設計創新?該學習或懂得什麼?諸如此類的問題讓本身對科技行業,尤其是技術方面不是很了解的小夥伴們甚是苦惱。
  • Rokid副總裁向文杰:人機互動的終極形態是腦機交互
    大會上,Rokid副總裁、產品技術中心總經理向文杰做了《下一代的人機互動》主題演講。從第一臺PC出現,比爾蓋茨讓每個人辦公桌上有了一臺PC。接下來Smart Phone,賈伯斯推動了手機普及,接下來是什麼呢?
  • 新興+潛力:卡內基梅隆大學人機互動設計專業
    卡內基梅隆大學人機互動專業排名全美第一,是該專業最具代表性的院校,開設在大名鼎鼎的計算機學院之下,不僅就業前景好,而且未來發展潛力巨大,下面託普仕為大家詳細介紹。卡內基梅隆大學人機互動碩士簡介:卡內基梅隆大學人機互動碩士簡稱為MHCI,是世界上最早開設互動設計課程的項目,開設時間是1996年,開設的初衷是為了畢業生可以為設計和指導人與技術交互的未來做好準備。
  • 智能經濟時代人機互動三大趨勢
    演講中,沈抖提出智能人機互動將有三個趨勢:未來智能終端將會指數級增長;人和終端的交互將會多模態,語音、圖像交互將會成為主流;信息和服務將會場景化。  人工智慧正在催生越來越多樣化的智能終端。除了PC、智慧型手機外,汽車、智能音箱、可穿戴設備、服務機器人甚至是無法直接看見的傳感器,都能成為人機互動的終端。每種終端會在不同場景扮演關鍵角色。  智能終端變化帶來交互方式的變革,語音、圖像、視頻、手勢等多模態的交互將成為未來交互的主流方式。網際網路企業應該廣泛利用人工智慧技術,實現交互的革新升級,從而在產品、內容、服務等多個維度不斷適應用戶的新需求和新習慣。
  • 人機互動院校選擇篇:喬治亞理工大學
    今天世畢盟給大家帶來的是喬治亞理工的人機互動設計項目。隨著VR、AR、AI、大數據等時代前沿科技的高速發展,「互動設計」成為了近幾年最熱門的留學專業之一。「人機互動Human Computer Interaction (HCI)」主要研究人與人造物之間的關係,以及如何更好的設計出為人類服務的產品與體驗的設計類學科。
  • 華安鑫創:人機互動圖形設計業務獲得較快發展
    公司在經營過程中,逐漸建立了完善的技術研發體系,取得了相匹配的技術儲備和智慧財產權以支撐業務發展,研發人員可以熟練使用QNX、Linux等主流開發平臺,以滿足下遊開發需求。公司自主研發了3項發明專利、19項實用新型專利、3項外觀設計專利,90項軟體著作權。基於當前的技術儲備,能夠參與到概念和新品車型的前沿開發,研發成果已經應用於下遊的主流車型,當前公司的技術研發實力處於細分領域的領先地位。
  • HMI掃盲貼:人機互動,從安全到智能
    車雲網2014年9月4日報導 人機互動(Human Machine Interaction,簡稱HMI),是一門研究系統與用戶之間的交互關係的學問。系統可以是各種各樣的機器,也可以是計算機化的系統和軟體。所以應用於汽車的HMI可以實現人與車之間的對話功能。
  • 安全為先價值為重 汽車人機互動醞釀超級進化
    在自動駕駛時代,無論車內空間還是汽車與周圍環境的人機互動(HMI),都將迎來顛覆性改變。屆時,汽車底盤很可能實現通用化,製造將主要依靠機器人,而交互體驗仍離不開人的設計。「這個項目從創意到變成現實,還有很長的路要走路,需要進一步考慮在什麼情況下需要這種設計?如何進行操控?與駕乘者形成什麼樣的互動,才能讓人覺得舒服?這就是用戶體驗的價值。」大賽評委、廣汽研究院交互與體驗設計科及ADiGO 智能物聯繫統體驗設計負責人朱太平對《中國汽車報》記者說。
  • 從美本三年畢業到常春藤名校,建築+人機互動雙豐收
    重點不在於你做出來多棒的圖、設計了多牛的樓(那是研究生該教給你的),而是體現出你的思考過程以及思維能力。 整個大二期間拖延癌晚期的我是什麼也沒做,四處旅遊玩耍了一波,真正開始第二個項目是我大三下學期,回美國以後把在歐洲遊學期間的一個項目在康老師的指導下完善了。
  • 人機互動新技術:超聲波成像感知手部動作!
    導讀最近英國布裡斯託大學的最新研究成果顯示:未來智能手錶等可穿戴設備可採用超聲波成像感知手部動作,這為智能設備的人機互動又增添了一種新方法。然而,為了讓用戶有一個良好的體驗,人機互動技術顯得十分關鍵。可是,相對於智慧型手機等大顯示屏的設備,智能手錶的顯示屏面積較小,這就為用戶的人機交體驗帶來很大障礙,交互的舒適度顯著降低,操作難度也大大增加。
  • 深度學習人機互動相關資源推薦來啦
    雷鋒網(公眾號:雷鋒網) AI 科技評論按,目前,深度學習和人機互動的學習資源很多近日,bwang514 在 github 上做了一個「深度學習人機互動相關資源大列表」。上面有一些很棒的關於智能用戶界面和人機互動的課程資源。
  • 關於英飛凌專家Jeffrey對創新人機互動的理解和分析
    「所謂的人機互動就是人跟機器之間的互動,這一過程需要很多的傳感器。英飛凌傳感器的部分有毫米波雷達、矽基麥克風、壓力傳感器、環境傳感器等,這些都是用來偵測外在環境的反應。Jeffrey認為,這個部分在人機互動中屬於非常重要的一環。」
  • Vision BMW i Interaction EASE自動駕駛人機互動概念座艙全球首發
    日前,Vision BMW i Interaction EASE自動駕駛人機互動概念座艙在2020北美消費電子展上全球首發。其超越現實的人機互動理念,前瞻性地展示了寶馬的自然交互未來,讓人們超前感受自動駕駛時代妙不可言的出行樂趣。寶馬堅信個人移動出行是充滿魅力且富有情感力量的。
  • 美國人機互動專業院校專業一覽
    但是你真的對於人機互動相關專業申請有一個整體而清晰的認識嗎?大海撈針的撒申請不如具有明確針對性的申請來的有效。凱諾君為你整理了n+1家開設有不同方向的交互類設計專業的院校,哪一家會是你的dream school呢~在具體的介紹院校前,先來給大家介紹一下人機互動大類下可能有哪些專業選擇:人機互動(Human-Computer Interaction),用戶體驗設計 (User Experience),互動設計(Interactive Design),產品設計(Product Design