英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊莉莎白二世與兒子的低語,讓女王糟糕的婆媳關係浮現在大眾眼前 —— 這可能是「唇語識別」第一次大面積走進大眾的視野。
所謂的「唇語識別」,其實並不神秘。
早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備了「觀察別人的嘴型,解讀其表達語句」的能力。在現代社會裡,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。
但隨著科技的發展,人工智慧在各領域漸次開放,在唇語識別上,機器已經做的比人類好了。
從技術路徑上,唇語識別是一項集機器視覺與自然語言處理於一體的複合型技術:
系統通過機器視覺從圖像中連續識別出人臉,提取口型的連續變化特徵,隨即將連續變化的特徵輸入到識別模型中,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句。早在 2003 年,Intel 就開發了唇語識別軟體 Audio Visual Speech Recognition(AVSR),開發者得以能夠研發可以進行唇語識別的計算機;2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞,新聞測試集識別準確率首次達到了 50% 以上。
在深度學習技術出現以前,對於唇語識別的研究主要從三個方面來進行,分別是嘴唇的定位與檢測、唇語特徵提取和唇動識別。
其中,嘴唇特徵提取是唇語識別的關鍵,將連續變化的特徵輸入到唇語識別模型中,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句,提取出的特徵質量直接影響著唇語識別的準確性。
隨著機器學習方法在語音識別領域裡取得的巨大成功,尤其是隱馬爾科夫模型(HMM)的應用,根據唇語識別研究和語音識別的相似性,出現了大量的 HMM 應用在唇語識別領域的研究成果。
在非特定開放口語測試中,目前的通用識別準確率已經在 70% 以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過 90% 的準確率。
人類費盡心力開發研究人工智慧、提高唇語識別的準確率,除了偷窺伊莉莎白二世和兒子的秘密外,還有很多更為廣泛的用途:
比如應用於金融在線業務的生物識別、噪聲環境下輔助語音識別、輔助聽障人士交流、體育賽事暴力語言識別等多個領域,這些都是有著實際意義且頗為重要的應用場景。
自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰,甚至可能帶來一場革命。
但在人工智慧大範圍落地的今天,國內從業者扎堆湧入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。
但業界的常識是:人工智慧未來將會出現一個數萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智慧的細分程度,勢必如百年前的電力那般觸角龐雜。
而廣袤的嫁接空間也意味著,從真實應用場景出發,人工智慧領域會出現不少藍海市場,被國內巨頭忽視的唇語識別就是其中之一。
觀看下方漫畫短片,讓人工智慧看懂唇語
▼
看完這些,想不想親自搞一搞,這古老又神奇的「唇語識別」技術?
如果為你開放數百個常用詞彙樣本資料庫,你能夠用它做點什麼?
來參加「新網銀行高校金融科技挑戰賽」,與全國高校 AI 算法高手們一較高下吧!
沒有經驗沒關係,沒做過圖片數據和深度學習也沒關係,只要對機器學習和人工智慧感興趣,就可以報名來一展身手,現場有專業的導師團隊進行輔助指導!
高達 47 萬的超高獎金池 , 30萬高薪 offer , 新網銀行、小米科技共享人才池 機會。
優秀團隊還可獲得由團四川省委、四川省教育廳等主辦單位頒發的獲獎證書,此 省級證書 可在獎學金評定、保研升學等方面作為加分依據(具體視各校、學院相關評定規則而定),證書還可提高你的求職、留學申請簡歷的含金量哦...
用代碼改變世界,也用算法成就自己!點擊下方圖片,即可了解本次大賽詳情:
如有疑問
可以掃碼加入QQ群
隨時諮詢、實時了解賽事動態
(內有專家評委在線答疑,帶你輕鬆破題)
看到這裡
有沒有激發你心中昂揚的鬥志?
要不要施展自己的拳腳與抱負?
想不想和全國高校學子同臺一較高下?
來吧!燃燒吧!青年!
讓我們共築金融科技的美好明天
點擊「閱讀原文」,報名開啟新人生~