讀懂唇語,這是擺在我們面前的一道難題,大多數人平均只能讀對一句唇語的十分之一。那麼 AI 能做到嗎?
早在 2016 年,牛津大學人工智慧實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就聯合開發了結合深度學習技術的唇讀程序 LipNet。隨後,提高計算機唇讀精度,便成為了該領域的一項重要挑戰。
近日,來自浙江工業大學、中科院計算技術研究所智能信息處理重點實驗室、中國科學院大學的研究團隊更是共同提出了在局部特徵層和全局序列層上引入互信息約束,增強口型特徵與語音內容的關係,將計算機唇讀精度提升至 84.41%。
當地時間 2020 年 3 月 13 日,相關論文 Mutual Information Maximization for Effective Lip Reading(有效唇讀的互信息最大化)發表於預印本網站 arXiv。
解決詞彙級唇讀的「固有」問題
唇讀(lip-reading/speech-reading),簡單來講就是觀察說話者的口型變化,「讀出」其表達的內容。實際上,唇讀的過程是利用視覺信道信息補充聽覺信道信息,這對聽力較弱的群體、嘈雜環境中的工作者以及執法機構具有實際應用意義。
而在計算機視覺領域的語境下,唇讀作為一種基於深度學習的模型,更多地被用來推斷視頻中的語音內容,可對基於音頻的語音識別、生物認證等進行輔助。
在論文中,研究團隊提到了「詞彙級唇讀」(word-level lip reading)的概念。實際上,詞彙級唇讀是唇讀的一個分支,也是研究團隊此次研究的主要關注方向,它存在一些「固有」問題。
第一,即使在同一視頻中存在其他單詞,每個輸入視頻都用單個詞標籤來注釋。例如下圖中包括總共 29 個幀的視頻樣本被注釋為「ABOUT」,但是「ABOUT」一詞的實際幀僅包括在時間步 T=1219 處的幀,即紅框中的部分,而紅框前後的幀對應的詞彙分別為「JUST」和「TEN」。
上面這個例子反映出詞彙級唇讀的一個問題——模型無法完全關注有效的關鍵幀,因此詞彙邊界劃分不準確。
第二,同一詞彙標籤下的視頻樣本畫面經常存在變化。例如下圖中的畫面都屬於以「ABOUT」為標籤的視頻。
上述 2 個詞彙級唇讀的特性要求唇讀模型能夠抵抗序列中的噪聲,從而在各種語音環境下捕獲一致的潛在模式。
此外,準確捕捉口型的變化也並不容易——發音相似的詞彙口型相似,同音詞的識別也更是使難度升級。
實際上,確保計算機唇讀性能良好,很大程度上正是取決於 2 點:
是否能有效地捕獲口型變化;是否能有效地抵抗由姿態、光線、揚聲器外觀等變化引起的噪聲。引入不同層級的「互信息最大化」
雷鋒網了解到,互信息(mutual information,MI)是用於測量兩個隨機變量之間的關係的基本量,當給定一個隨機變量時,它總是用來計算另一個隨機變量所擁有的信息量。基於此,兩個隨機變量的互信息總是被用來衡量兩變量間的相互依賴性。
為解決上述問題,此次研究團隊主要從兩方面著手,引入了不同層級的「互信息最大化」(mutual information maximization,MIM),旨在使得模型同時具備較好的鑑別能力及魯棒性,保證唇讀更為有效。
【雷鋒網註:基本架構】
一方面,研究團隊施加「局部互信息最大化」(local mutual information maximization,LMIM)約束,限制每個時間步生成的特徵,以使它們能夠與語音內容具有強關係,從而提高模型發現精細的口型變化及發音類似的詞之間的差異(例如「spend」和「spending」)的能力。
【雷鋒網(公眾號:雷鋒網)註:LMIM 訓練基礎網絡】
另一方面,研究團隊引入「全局互信息最大化」(global mutual information maximization,GMIM)約束,使得模型更多地關注對與語音內容相關的關鍵幀的識別,同時更少地關注各種可能出現的噪聲。
【GMIM 訓練基礎網絡】
利用 LRW 和 LRW-1000 評估
為驗證這一方法,研究團隊利用 2 個大規模詞彙水平的數據集對其進行評估,將其與其他主流的唇語識別模型方法進行了詳細的幾方面分析、比較,包括 LMIM 和 GMIM 與基線的比較、深度學習可視化等。
以下是 2 個數據集的具體信息:
LRW:於 2016 年發布,總樣本量為 488766,包括 500 個詞彙等級,涉及講者超 1000名,講話環境差異很大。該數據集被主流唇讀方法廣泛使用,具有挑戰性的數據集;LRW-1000:總樣本量為 70000,總時長約 57 小時,包括 1000 個詞彙等級。該數據集旨在覆蓋不同的語音模式和畫麵條件,從而結合在實際應用中遇到的挑戰。經評估,研究團隊發現 GMIM 可將精度提高到 84.41%,這主要得益於它對不同幀關注不同的特性。與其他除視覺信息外務額外輸入的唇讀方法相比,研究團隊在 LRW 數據集上得到了迄今為止最佳的性能(如下圖)。
此外,通過引入 LMIM,模型對發音相似的詞彙的識別的確顯示出了更高的準確性和明顯的改進,例如 Makes/making 和 Political/politics(如下圖)。
同時,研究團隊利用可視化對 GMIM 的效果進行了進一步探究。如下圖所示,下列這些詞之間的差異範圍從 -20 至 20 擴大到 -40 至 60 之間——這意味著隨著 GMIM 的引入,區分詞彙變得更容易。
可見,在不使用額外數據或額外預訓練模型的前提下,該研究團隊的上述方法相比其他主流唇讀模型性能的確較為突出,希望這一方法為其他模型提供借鑑。