走進智能時代的我們,如果想訂個鬧鐘,我們可以直接向我們的手機說,「Hi,Siri,幫我訂一個明天早上七點鐘的鬧鐘」。
我們不需要手動設置即可通過Siri幫助我們完成部分的手機業務,那麼手機中的Siri是如何聽懂我們說的話,又是如何幫助我們做事的?這篇文章將告訴你答案。
一、Siri技術的基石——自然語言處理(NPL)
Siri,全名叫做蘋果智能語音助手。它成立於2007年,2010年被蘋果以2億美金收購,最初是以文字聊天服務為主,隨後通過與全球最大的語音識別廠商Nuance合作,Siri實現了語音識別功能。語音識別是自然語言處理的重要組成部分。如今自然語言處理作為人工智慧技術的重要支撐技術之一,已經廣泛地應用於多個領域,比如同聲傳譯、機器翻譯、智能回答等。
自然語言處理的定義
自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。用通俗的話語來講,就是讓機器能夠理解我們人類所表達的話,並進行交流。比如我們日常生活中常見的智能音響,我們通過語言溝通的方式讓他幫助我們進行播放歌曲,做事等。
自然語言處理的領域
自然語言處理覆蓋了多個領域,其中主要有以下幾個重要的方面:
語音識別QCR(文本或圖片識別)語型分析語法識別語義識別機器閱讀理解(篇章理解)
自然語言處理的應用
機器翻譯文本識別轉換垃圾郵件過濾自動問答文本情感分析輿情分析智能推薦信息檢索
二、Siri的工作原理
語音識別你的手機中的系統裡面有個強大的硬體,這個硬體它裡面內置了一個語音識別裝置系統,它會利用自身的深度神經網絡接受與判別用戶的聲音,並且通過用戶的聲音來判斷是否有說出Hi Siri這個詞語,然後啟動語音識別系統。
編碼轉換在接受到語音之後,機器會把語音轉換成機器可以讀懂的語言,通常轉化成0-1代碼,形成一個數據包。這個數據包會同時會被手機端和服務伺服器端識別,來判斷用戶發出的指令屬於屬於手機端的還是服務端,比如定鬧鈴、查詢日曆等是屬於手機端的,而詢問某個具體的問題則會被伺服器端識別,把數據包發送到伺服器上面,並請求反映。需要說明的是,在這個過程中數據的吞吐量是傳送速度是及其快的,可以達到毫秒級反應。
3.語義內容分析
當數據包發送到伺服器端的時候,會有一個龐大的數據分析進行內容分析,這裡會涉及到核心的算法與模型,這些算法會利深度網絡學習等技術進行內容的歸納、判別、分析,並對這些數據進行評價。
4.做出指令回答
當做出評價之後,數據包會返回到你的手機中,並發出相關的指令,做出相應的回答。
三、結語
關於屏蔽術語與非理解性術語
當提問涉及到一些敏感信息,比如涉黃、涉毒等,它會發出,「我沒有聽懂你說話的話」等,這也是在進行語義分析時要避免的話題。除此之外,當涉及的問題機器不能夠識別的時候,也會出現的話語,這可能是機器在深度學習等技術中還沒有學到相應的話語。
關於Siri,大家還有什麼看法,歡迎 大家評論交流。