人類讀不懂唇語?交給深度學習,精度可達 84.41%

2020-12-23 雷鋒網

讀懂唇語,這是擺在我們面前的一道難題,大多數人平均只能讀對一句唇語的十分之一。那麼 AI 能做到嗎?

早在 2016 年,牛津大學人工智慧實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就聯合開發了結合深度學習技術的唇讀程序 LipNet。隨後,提高計算機唇讀精度,便成為了該領域的一項重要挑戰。

近日,來自浙江工業大學、中科院計算技術研究所智能信息處理重點實驗室、中國科學院大學的研究團隊更是共同提出了在局部特徵層和全局序列層上引入互信息約束,增強口型特徵與語音內容的關係,將計算機唇讀精度提升至 84.41%。

當地時間 2020 年 3 月 13 日,相關論文 Mutual Information Maximization for Effective Lip Reading(有效唇讀的互信息最大化)發表於預印本網站 arXiv。

解決詞彙級唇讀的「固有」問題

唇讀(lip-reading/speech-reading),簡單來講就是觀察說話者的口型變化,「讀出」其表達的內容。實際上,唇讀的過程是利用視覺信道信息補充聽覺信道信息,這對聽力較弱的群體、嘈雜環境中的工作者以及執法機構具有實際應用意義。

而在計算機視覺領域的語境下,唇讀作為一種基於深度學習的模型,更多地被用來推斷視頻中的語音內容,可對基於音頻的語音識別、生物認證等進行輔助。

在論文中,研究團隊提到了「詞彙級唇讀」(word-level lip reading)的概念。實際上,詞彙級唇讀是唇讀的一個分支,也是研究團隊此次研究的主要關注方向,它存在一些「固有」問題。

第一,即使在同一視頻中存在其他單詞,每個輸入視頻都用單個詞標籤來注釋。例如下圖中包括總共 29 個幀的視頻樣本被注釋為「ABOUT」,但是「ABOUT」一詞的實際幀僅包括在時間步 T=1219 處的幀,即紅框中的部分,而紅框前後的幀對應的詞彙分別為「JUST」和「TEN」。

上面這個例子反映出詞彙級唇讀的一個問題——模型無法完全關注有效的關鍵幀,因此詞彙邊界劃分不準確

第二,同一詞彙標籤下的視頻樣本畫面經常存在變化。例如下圖中的畫面都屬於以「ABOUT」為標籤的視頻。

上述 2 個詞彙級唇讀的特性要求唇讀模型能夠抵抗序列中的噪聲,從而在各種語音環境下捕獲一致的潛在模式。

此外,準確捕捉口型的變化也並不容易——發音相似的詞彙口型相似,同音詞的識別也更是使難度升級。

實際上,確保計算機唇讀性能良好,很大程度上正是取決於 2 點:

是否能有效地捕獲口型變化;是否能有效地抵抗由姿態、光線、揚聲器外觀等變化引起的噪聲。引入不同層級的「互信息最大化」

雷鋒網了解到,互信息(mutual information,MI)是用於測量兩個隨機變量之間的關係的基本量,當給定一個隨機變量時,它總是用來計算另一個隨機變量所擁有的信息量。基於此,兩個隨機變量的互信息總是被用來衡量兩變量間的相互依賴性。

為解決上述問題,此次研究團隊主要從兩方面著手,引入了不同層級的「互信息最大化」(mutual information maximization,MIM),旨在使得模型同時具備較好的鑑別能力及魯棒性,保證唇讀更為有效。

【雷鋒網註:基本架構】

一方面,研究團隊施加「局部互信息最大化」(local mutual information maximization,LMIM)約束,限制每個時間步生成的特徵,以使它們能夠與語音內容具有強關係,從而提高模型發現精細的口型變化及發音類似的詞之間的差異(例如「spend」和「spending」)的能力。

【雷鋒網(公眾號:雷鋒網)註:LMIM 訓練基礎網絡】

另一方面,研究團隊引入「全局互信息最大化」(global mutual information maximization,GMIM)約束,使得模型更多地關注對與語音內容相關的關鍵幀的識別,同時更少地關注各種可能出現的噪聲。

【GMIM 訓練基礎網絡】

利用 LRW 和 LRW-1000 評估

為驗證這一方法,研究團隊利用 2 個大規模詞彙水平的數據集對其進行評估,將其與其他主流的唇語識別模型方法進行了詳細的幾方面分析、比較,包括 LMIM 和 GMIM 與基線的比較、深度學習可視化等。

以下是 2 個數據集的具體信息:

LRW:於 2016 年發布,總樣本量為 488766,包括 500 個詞彙等級,涉及講者超 1000名,講話環境差異很大。該數據集被主流唇讀方法廣泛使用,具有挑戰性的數據集;LRW-1000:總樣本量為 70000,總時長約 57 小時,包括 1000 個詞彙等級。該數據集旨在覆蓋不同的語音模式和畫麵條件,從而結合在實際應用中遇到的挑戰。經評估,研究團隊發現 GMIM 可將精度提高到 84.41%,這主要得益於它對不同幀關注不同的特性。與其他除視覺信息外務額外輸入的唇讀方法相比,研究團隊在 LRW 數據集上得到了迄今為止最佳的性能(如下圖)。

此外,通過引入 LMIM,模型對發音相似的詞彙的識別的確顯示出了更高的準確性和明顯的改進,例如 Makes/making 和 Political/politics(如下圖)。

同時,研究團隊利用可視化對 GMIM 的效果進行了進一步探究。如下圖所示,下列這些詞之間的差異範圍從 -20 至 20 擴大到 -40 至 60 之間——這意味著隨著 GMIM 的引入,區分詞彙變得更容易。

可見,在不使用額外數據或額外預訓練模型的前提下,該研究團隊的上述方法相比其他主流唇讀模型性能的確較為突出,希望這一方法為其他模型提供借鑑。

相關焦點

  • 人工智慧學會讀唇語,AI深度學習後,越來越像人類一樣思考問題
    深度學習(Deep Learning)是機器學習領域中一個新的研究方向,它被引入機器學習使其更接近於最初的目標——人工智慧(AI)。和人一樣,機器也是需要學習的,雖然機器是執行編寫進去的程序進行工作,但是真正的人工智慧是具有自己的學習能力和依據學到的東西進行服務工作的,今天我們就來看看有哪一些深度學習是機器正在做的。給照片添加顏色從過去到現在,我們給黑白照片添加顏色都是人工來完成的,一方面是人工對於顏色的把控是比較準準確的,知道天是藍的,花是紅的。
  • 牛津大學聯合 DeepMind 發布 LipNet :用深度學習讀懂你的唇語
    新的調查顯示 AI 能夠輕鬆戰勝人類,但還有很多工作要做。如何讀懂唇語對人類來說是一個難題,據數據顯示,大多數人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數唇語信號十分隱晦,難以在沒有語境的情況下分辨。現在,研究人員表示人工智慧技術,比如深度學習或許能夠解決這個難題。人工智慧側重於大數據運算,已經幫助改善了機器語音識別,甚至能達到人類的水平。那麼機器學習技術是不是也能運用到讀懂人類的唇語上?
  • 唇語識別的未來擁有無限可能
    可以想像對於唇語專家C羅應該提不起什麼好感,但令C羅遺憾的是,當人工智慧在各領域漸次開放,在唇語識別上,機器也已經做的比人類好了。人類費盡心力開發AI,當然不是為了滿足自身的窺私慾。事實上,讓機器習得「讀唇術」,在公共安全,軍事情報,身份識別和社會公益等領域,都藏匿著頗為重要的應用場景。而國內一家專注大數據可視分析的公司給我們帶來了驚喜。
  • 人工智慧軟體唇語解讀對電視嘉賓 準確率約為唇語專家4倍
    據BBC報導,谷歌最近與英國牛津大學合作開發了一套唇讀軟體,通過收看數千小時BBC的電視節目來開啟唇讀功能。令人震驚的是,該軟體不僅掌握了唇語,還比唇讀專家做得好。此前,英國皇家檢察院僱傭「讀唇女王」傑西卡·裡斯為英國唯一的官方唇讀證人,根據英國警方用監控攝像機偷拍下來的嫌犯錄像,用唇讀翻譯出錄像帶中嫌犯的對話,提供至關緊要的證據。
  • 聾啞女孩靠讀老師唇語考上大學 渴望有隻助聽器
    就這樣,悟性極高的她學習成績不僅沒有掉隊,相反還很不錯:小學和初中成績一直在班級中上等,初中畢業時,她以優異成績考上了隨州當地有名的曾都區第一高級中學。  聾啞男孩賣手抓餅激勵她讀唇語  進入高中,張巧玲個子高,自尊心強不肯說自身困難,被不了解情況的老師編在後排。幾乎完全聽不清老師講課的內容,她一時間很不適應。
  • DeepMind 為何總能完爆人類?世界第一深度學習實驗室內部探秘
    他們一次次超越人類的秘密在哪裡?牛津大學和 DeepMind 的研究人員合作,開發出一款能夠閱讀唇語的系統,這個名叫 Watch, Attend and Spell(WAS)的軟體在實際表現中遠遠超越了人類專家的水平。
  • 失聰女孩靠讀唇語考上清華博士...
    靠學習唇語、看老師板書和自學,她不僅高考時以615分的成績考入吉林大學藥學院,還多次獲得獎學金,之後繼續在吉林大學攻讀完研究生學位,並且通過了清華大學生命科學學院的博士研究生面試。今年9月,江夢南將正式進入清華大學開始她的博士生學業。
  • 搜狗發布唇語識別技術,「讀唇」這事的商業價值是什麼?
    12月初的世界網際網路大會上,搜狗發布了一項「唇語識別」技術。唇語識別,簡單說就是通過圖像識別你的口型,轉寫出你說的內容。在國外的技術界,2016年穀歌和牛津大學的深度學習項目組曾經共同研發唇語識別技術,在那一年的視頻節目測試中,機器唇語識別的準確率達到46.8%,高於人類唇語專家12.4%的識別率。
  • 每周AI應用方案精選:唇語識別技術;阿茨海默症預測技術
    唇語識別是一項基於機器視覺與自然語言處理於一體的技術,因此在研發難度上比語音識別大得多。系統使用了複雜端到端深度神經網絡技術進行中文唇語序列建模,並通過數千小時的真實唇語數據訓練而成。作為人機互動的形式之一,未來唇語識別技術可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。
  • 唇語識別會是AI領域的下一個萬億市場嗎?
    英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊莉莎白二世與兒子的低語,讓女王糟糕的婆媳關係浮現在大眾眼前,這可能是「唇語識別」第一次大面積走進大眾的視野。所謂的「唇語識別」,其實並不神秘。早在古代,就有專門的唇語師存在。
  • 人工智慧新應用:「唇語」識別技術揭秘
    據悉,這是唇語識別技術在國內的首次業務場景落地,利用該項技術能夠解決大量無聲視頻資料的偵查信息,或將使公共安全領域的視頻處理業務得到較大提升。   唇語識別,這一被業內評為「十大黑科技之一」的領先技術,已經實現與公共安全業務場景的應用對接。
  • 失聰女孩靠讀唇語考上清華博士:生活的挑戰都是命運的饋贈!
    靠學習唇語、看老師板書和自學,她不僅高考時以615分的成績考入吉林大學藥學院,還多次獲得獎學金,之後繼續在吉林大學攻讀完研究生學位,並且通過了清華大學生命科學學院的博士研究生面試。今年9月,江夢南將正式進入清華大學開始她的博士生學業。美麗的女孩,她為自己打開了一扇窗1992年,江夢南出生在湖南省郴州市宜章縣的一個瑤族家庭。
  • 令人驚嘆的8個深度學習應用「我去,這也能行!」
    2016 年,圍棋程序 AlphaGo 擊敗人類頂尖選手,讓大眾了解到深度學習的概念。
  • 戴口罩也能讀唇語 印尼夫婦制透明口罩幫助聽障者
    中新網4月28日電 據法新社報導,新冠肺炎疫情流行期間,人們為了防範病毒遮住口鼻,使得聽障人士難以通過唇語進行日常交流,印度尼西亞裁縫師為此想出一個完美的解決方法——製作透明口罩。近日,蘇拉威西省省會錫江(Makassar)的一對夫婦開始製作中間為透明塑膠片的布口罩,來幫助聽障人士解決無法判讀唇語的困境。52歲的柏德路丁說:「自疫情暴發以來,每個人都戴著口罩。對聽障人士來說,我們無法了解他們在說什麼。因為我們看不清他們的嘴唇,無法判讀唇語,從而產生了許多誤會」。
  • 戴口罩也能讀唇語 印尼夫婦製作透明口罩幫助聽障者
    當地時間4月28日,據法新社報導,新冠肺炎疫情流行期間,人們為了防範病毒遮住口鼻,使得聽障人士難以通過唇語進行日常交流,印度尼西亞裁縫師為此想出一個完美的解決方法——製作透明口罩。近日,蘇拉威西省省會錫江(Makassar)的一對夫婦開始製作中間為透明塑膠片的布口罩,來幫助聽障人士解決無法判讀唇語的困境。52歲的柏德路丁說:「自疫情暴發以來,每個人都戴著口罩。對聽障人士來說,我們無法了解他們在說什麼。因為我們看不清他們的嘴唇,無法判讀唇語,從而產生了許多誤會」。
  • 人工智慧解讀唇語 不止能解碼語音和語言翻譯
    【科技訊】11月30日消息,使用人工智慧來解碼語音和語言已有先例,而現在人們又能夠根據人工智慧來解讀唇語。  此處使用的人工智慧算法是基於人類大腦建模的深層神經網絡(DNN)。算法設計針對偏複雜的模式識別。
  • 武漢產3D掃描儀精度可達0.002毫米,只有頭髮絲的十分之一大小
    漢產3D智能掃描儀精度可達0.002毫米「這款智能手持雷射3D智能掃描儀精度可以達到0.002毫米,從研發、設計到生產,全部都是武漢造。」走進武漢創新展區,一臺高約30釐米的精細設備吸引了長江網記者的注意。工作人員正在進行演示,只見他拿起一塊立體模型進行掃描後,3D數據實時上傳到一旁的屏上。
  • 盤點:8個你可能不知道的深度學習應用案例
    深度學習是人工智慧的一個子集,它使用多層人工神經網絡來執行一系列任務,從計算機視覺到自然語言處理。深度學習與傳統機器學習系統的不同之處在於,它能夠在分析大型數據集時進行自我學習和改進,因此能應用在許多不同的領域。
  • 唇語識別、挑戰齊白石畫作、PK資深環衛工……這些人工智慧,有點牛~
    下面介紹的這項人工智慧就是能在聽不到聲音的情況下,通過視覺觀察說話人的唇形變化,來讀懂每一句話的。為了檢驗這項技術,節目組出了一道難題,邀請到資深唇語教學專家邱新會作為行業檢驗官,親自對陣唇語識別機器人。導演組提前採錄了特殊教育學校聽障兒童的語言,現場視頻播放,雙方通過觀看大屏幕,識別出聽障兒童的說話內容,究竟哪一方能獲勝呢?
  • 聾人女孩逆襲成為清華博士,如何學會唇語對他們很重要
    唇語能讓聾啞人走多遠?口形、唇形對於聾啞人士的溝通學習非常重要,有一種專門解讀聾人的語言叫——唇語。唇語不僅能幫助聾啞人士解讀語言,幫助溝通,甚至還能成為語言康復的突破口。中國青年報曾經報導,瑤族女孩江夢南,讀唇語學說話並考上清華博士 26歲失聰女孩江夢南,幼時就雙耳失聰,靠讀唇語學會了說話。小學四年級直接跳級到六年級,高考615分考入吉林大學,後又通過清華大學博士研究生面試。正因為有了語言的溝通,讓江夢南在學習上一路過關斬將,取得了常人都無法比擬的成績,令人羨慕!