英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊莉莎白二世與兒子的低語,讓女王糟糕的婆媳關係浮現在大眾眼前 —— 這可能是「唇語識別」第一次大面積走進大眾的視野。
什麼是唇語識別
所謂的「唇語識別」,其實並不神秘。
早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備了「觀察別人的嘴型,解讀其表達語句」的能力。在現代社會裡,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。
但隨著科技的發展,人工智慧在各領域漸次開放,在唇語識別上,機器已經做的比人類好了。
從技術路徑上,唇語識別是一項集機器視覺與自然語言處理於一體的複合型技術。
要理解這個「唇語識別」,需要注意這幾個關鍵詞:
運用機器視覺技術從圖像中識別出說話人的人臉,提取此人連續說話時口型變化的特徵。
將連續變化的特徵輸入到唇語識別模型中,識別說話人口型對應的發音,運用大數據計算出可能性最大的自然語言語句。
圖中字幕是由谷歌AI通過唇讀實時同步輸出,語速之快,難度之大
在唇語識別過程中,口型與發音,發音與文字之間,並不是唯一對應的關係,常常有多個可能的備選結果,需要實時計算出可能性最大的結果。
唇語識別的研究現狀
早在 2003 年,Intel 就開發了唇語識別軟體 Audio Visual Speech Recognition(AVSR),開發者得以能夠研發可以進行唇語識別的計算機。
2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞,新聞測試集識別準確率首次達到了 50% 以上。
海雲數據,截至2018年他們訓練新聞類節目時長是1萬小時。為什麼是新聞類節目?當然是因為播音員的唇語最標準。目前,海雲數據在英文方面可以達到80%的準確度,中文方面是71%
搜狗的通用識別準確率在60%以上,而在車載、智慧家居等垂直場景下,準確率高達90%。
從視頻中可以看出將面部放入橢圓形區域內,不發聲的說出一段話,幾乎說完的瞬間,識別的文字就出現在屏幕上,無論是口語、詩詞、歌詞還是繞口令,都能很好的識別。
唇語識別的技術原理
AI唇語識別技術原理:
唇語識別技術從鏡頭輸入到理解輸出,中間最重要的關鍵是:視覺前段、視覺特徵提取、唇動識別。
視覺前段——包括人臉檢測與唇的檢測和定位,先用人臉檢測演算法得到人臉然後有針對性的定位唇動;
或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像。
視覺特徵提取——是對獲取的唇圖像進行處理得到對應特徵,特徵提取方法主要分為基於圖元的方法和基於模型的方法兩大類;
搜狗所用的基於模型的方法就是,對唇的輪廓建立一個模型,將特徵資訊包含在這個模型之中,並對模型中特徵資訊的變化用一個小的參數來描述。
這類方法的優點是重要特徵被表示成二維參數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對後面的識別過程造成影響。
唇動識別——目前採用的技術大多是隱瑪爾可夫模型( Hidden Markov Model,簡稱 HMM ),該模型認為唇動信號在極短時間內是線性的,可以用線性參數模型來表示,然後將許多線性模型在時間上串接起來,組成一條瑪爾可夫鏈。
瑪爾可夫鏈可以用來描述統計特徵資訊的變化,並且這種變化過程與人的唇動過程是相吻合的,所以 HMM 能夠識別唇動並與相應語句匹配轉化成文字。
隨著機器學習方法在語音識別領域裡取得的巨大成功,尤其是 HMM 的應用,根據唇語識別研究和語音識別的相似性,出現了大量的 HMM 應用在唇語識別領域的研究成果。
在非特定開放口語測試中,目前的通用識別準確率已經在 70% 以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過 90% 的準確率。
唇語識別的研究意義
人類費盡心力開發研究人工智慧、提高唇語識別的準確率,除了偷窺伊莉莎白二世和兒子的秘密外,還有很多更為廣泛的用途:
比如應用於金融在線業務的生物識別、噪聲環境下輔助語音識別、輔助聽障人士交流、體育賽事暴力語言識別等多個領域,這些都是有著實際意義且頗為重要的應用場景。
自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰,甚至可能帶來一場革命。
但在人工智慧大範圍落地的今天,國內從業者扎堆湧入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。
但業界的常識是:人工智慧未來將會出現一個數萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智慧的細分程度,勢必如百年前的電力那般觸角龐雜。
而廣袤的嫁接空間也意味著,從真實應用場景出發,人工智慧領域會出現不少藍海市場,被國內巨頭忽視的唇語識別就是其中之一。
武漢維識教育科技有限公司依託北京一維弦科技有限公司自主智慧財產權的核心算法、智慧機器人等主要產品、理實結合的人才培養課程方案,在華中地區布局人工智慧人才培養戰略:校企合作辦學,支持校企共建高質量的機器人工程專業、機器人工程系、機器人工程學等機器人工程及相關智能科學專業;開辦人工智慧訓練營,圍繞機器人工程、人工智慧、智能科學與技術等相關專業,助推高校和企業人才的智能轉型;建立人工智慧機器人實訓基地,圍繞人工智慧、機器人視覺、機器人運動學、電機控制、智能製造等相關方向,提供實驗技術平臺,助力高校和高職人才的培養。