牛津大學聯合 DeepMind 發布 LipNet :用深度學習讀懂你的唇語

2021-01-11 雷鋒網

新的調查顯示 AI 能夠輕鬆戰勝人類,但還有很多工作要做。

如何讀懂唇語對人類來說是一個難題,據數據顯示,大多數人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數唇語信號十分隱晦,難以在沒有語境的情況下分辨。

現在,研究人員表示人工智慧技術,比如深度學習或許能夠解決這個難題。人工智慧側重於大數據運算,已經幫助改善了機器語音識別,甚至能達到人類的水平。那麼機器學習技術是不是也能運用到讀懂人類的唇語上?

據國外媒體報導,牛津大學人工智慧實驗室、谷歌 DeepMind 團隊 和加拿大高等研究院(CIFAR)就在近日聯合發布了一篇論文,介紹了結合深度學習技術的唇讀程序 LipNet。在 GRID 語料庫上,LipNet 實現了 93.4% 的準確度,超過了經驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度。研究人員還將 LipNet 的表現和聽覺受損的會讀唇的人的表現進行了比較。平均來看,他們可以達到 52.3% 的準確度,LipNet 在相同句子上的表現是這個成績的 1.78 倍。除此之外,該模型將可變長度的視頻序列轉換成文本的過程幾乎是實時的。

不過,當你沉醉在科幻電影《2001: 太空漫遊》裡,幻想著像 Hall 一樣能讀懂人類唇語的飛船主控計算機出現之前,雷鋒網(公眾號:雷鋒網)小編必須要給你敲響一個警鐘——牛津大學的這一實驗很可能具有局限性。這一實驗首先是基於 GRID 語料庫完成的,這其中包含 34 個志願者錄的短視頻,所有的視頻都長 3 秒,使用 DLib 面部檢測器和帶有 68 個 landmark 的 iBug 面部形狀預測器進行處理。每個句子都是以這樣的模式出現的:命令、顏色、介詞、字母、數字、副詞等。例如「set blue by A four please」或者 " place red at C zero again " 這樣的句式。由於這一模式下的詞句是有限的,只包含了四種不同的命令和顏色。這導致人工智慧領域的一些專家認為,牛津大學這篇論文的研究結果被誇大了,尤其是當他們看到其中一位研究人員在接受採訪時煽情地表示這項成果意味著人們將「沒有秘密。」

「事實並非如此,」 研究人員 Yannis Assael 和 Brendan Shillingford 在接受國外科技媒體 The Verge 採訪時說道,他們正在努力地突破「有限的詞彙和語法」 。Assael 表示,「現在的數據集雖小,但它卻是一個好的跡象,將來我們會使用更大的數據集執行任務。」

除此之外,Yannis Assael 和 Brendan Shillingford 都在強調這一成果不會用於窺探他人的隱私。很簡單,因為唇讀需要看到對方的舌頭,所以你必須在光線很好的地方才能夠完成這一行為。「這在技術上來說是非常困難的。」 Assael 表示,任何唇讀軟體都很難做到監視他人的地步,所以大家可以放心。而且幀率也是一個重要的因素。「除非你拿著一個技術很高的相機對準目標對象,同時還要舉著一個麥克風指向他。」

相反,兩位研究者認為在深度學習的幫助下,這種唇讀方式可以幫助有聽力障礙的人,尤其是在嘈雜的環境中。例如在聚會上,LipNet 就可以錄製實時通話,並將信息清晰準確地送到人們的耳中。「只要你有語音識別和攝像頭,在任何地方都可以實現這項服務。」 Assael 說。他還提到蘋果的 Siri 或谷歌語音助理或許也會用到這樣的技術。那麼在未來,如果你不想親自和計算機對話,只要動動嘴巴它就能知道你在說什麼了。

論文戳這裡 PDF

 Via the verge

推薦閱讀:

只訓練一次數據就能識別出物體,谷歌全新 AI 算法「單次學習」

情感計算是不是手機差異化的下一個突破口?前微軟亞洲工程院副院長為何創業做EMOTIBOT

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • DeepMind最近做了個新軟體 它能讀懂唇語
    【AI世代編者按】專業唇語閱讀者識別唇語的準確率只有20%到60%。人類在日常說話過程中嘴唇的微小移動很難被可靠地解讀,尤其是在有一定距離,或畫面不清晰的情況下。不過,唇語並不只是美劇《海軍罪案調查科》中的噱頭,對全球的失聰者來說,這是一項有用的工具。如果能可靠地解讀,那麼將給數百萬人帶來幫助。
  • 重磅| 如何通過機器學習解讀唇語?DeepMind要通過LipNet幫助機器...
    近日,牛津大學、Google DeepMind 和加拿大高等研究院(CIFAR)聯合發布了一篇同樣具有重要價值的論文,介紹了利用機器學習實現的句子層面的自動唇讀技術 LipNet。該技術將自動唇讀技術的前沿水平推進到了前所未有的高度。原論文可點擊文末「閱讀原文」下載。摘要唇讀(lipreading)是指根據說話人的嘴唇運動解碼出文本的任務。
  • 人類讀不懂唇語?交給深度學習,精度可達 84.41%
    讀懂唇語,這是擺在我們面前的一道難題,大多數人平均只能讀對一句唇語的十分之一。那麼 AI 能做到嗎?早在 2016 年,牛津大學人工智慧實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就聯合開發了結合深度學習技術的唇讀程序 LipNet。隨後,提高計算機唇讀精度,便成為了該領域的一項重要挑戰。
  • DeepMind 為何總能完爆人類?世界第一深度學習實驗室內部探秘
    牛津大學和 DeepMind 的研究人員合作,開發出一款能夠閱讀唇語的系統,這個名叫 Watch, Attend and Spell(WAS)的軟體在實際表現中遠遠超越了人類專家的水平。或許,你還記得 DeepMind 去年推出的唇語技術 LipNet。LipNet 先後在媒體上出了兩次名,最初被媒體報導時,憑藉 50% VS 12% 的壓倒性勝利戰勝了人類唇語專家,讓很多人驚呼,這是構建自動唇語識別系統的重要一步。第二次則是今年初,LipNet 論文被深度學習盛會 ICLR 2017 拒絕。
  • 唇語識別《隱秘的角落》被改臺詞,比想像中更黑暗
    2016 年,牛津大學先是聯合 Deepmind 發布 WLAS(Watch, Listen, Attend band Spell )模型,通過使用 5000 個小時的 BBC 新聞節目進行訓練,在測試集上可以達到
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • 谷歌人工智慧讀懂唇語:準確率比人都高
    據外媒報導,近日谷歌的人工智慧部門DeepMind工作室正式對外宣布,他們正在與牛津大學的研究人員進行合作,開發出一款先進的能讀懂唇語的軟體。他們預計這種唇語軟體能夠比專業的唇語翻譯人員準確率還要高,這也是讓人非常興奮的。
  • 準確率比人都高 谷歌人工智慧讀懂唇語
    據外媒報導,近日谷歌的人工智慧部門DeepMind工作室正式對外宣布,他們正在與牛津大學的研究人員進行合作,開發出一款先進的能讀懂唇語的軟體。
  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    自從 2013 年以來,深度強化學習開始受到關注:在強化學習中使用深度神經網絡來學習更強的表示,使強化學習算法解決了精巧性和實用度等問題。分布式強化學習是一種能讓神經網絡更好地進行強化學習的算法之一。在許多的情況下,尤其是很多現實情況中,未來獎勵的結果實際上是依據某個特定的行為而不是一個完全已知的量進行的預測,它具有一定的隨機性。
  • 令人驚嘆的8個深度學習應用「我去,這也能行!」
    論文參考:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf (需科學上網)[3] 官方網站:http://iizuka.cs.tsukuba.ac.jp/projects/colorization/en/3.LipNet牛津大學和
  • 人工智慧軟體唇語解讀對電視嘉賓 準確率約為唇語專家4倍
    資料圖片將電視機調成「靜音」模式後,你能「看懂」主持人說的話嗎?在這個情景之內,你或許感覺這是一個遊戲,但「唇讀」已伴隨人工智慧越來越精準。據BBC報導,谷歌最近與英國牛津大學合作開發了一套唇讀軟體,通過收看數千小時BBC的電視節目來開啟唇讀功能。令人震驚的是,該軟體不僅掌握了唇語,還比唇讀專家做得好。
  • 搜狗發布唇語識別技術,「讀唇」這事的商業價值是什麼?
    12月初的世界網際網路大會上,搜狗發布了一項「唇語識別」技術。唇語識別,簡單說就是通過圖像識別你的口型,轉寫出你說的內容。在國外的技術界,2016年穀歌和牛津大學的深度學習項目組曾經共同研發唇語識別技術,在那一年的視頻節目測試中,機器唇語識別的準確率達到46.8%,高於人類唇語專家12.4%的識別率。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • 好未來與牛津大學達成戰略合作 引入英語學習「牛津方案」
    原標題:好未來與牛津大學達成戰略合作 引入英語學習「牛津方案」  11月7日,好未來與牛津大學出版社正式籤訂戰略合作協議。據悉,雙方將共同推進英語學習「牛津方案」在中國地區的落地,牛津大學出版社將與好未來旗下的學而思網校和勵步英語在課程設計、教師交流與培訓等方面進行深度合作。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新機器學習庫,分別是 Haiku 和 RLax,它們都有著各自的特色,對於豐富深度學習社區框架、提升研究者和開發者的使用體驗有著不小的意義。 Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • 唇語識別的未來擁有無限可能
    而如今,機器可以比唇語專家更精確地識別這個無聲的世界。如你所知,更便宜的計算,更好的算法,以及更大的數據量,讓六十年來不斷幻滅又重燃希望的人工智慧時代近在咫尺。其中最關鍵的變量就是數據量的井噴(許多深度學習基本模型在上世紀八九十年代就已出現,但數據的稀缺令這種偉大的基礎框架偃旗息鼓),海量數據是「餵養」多層神經網絡的飼料,也得以讓深度學習以一種非常精煉的算法模型解決了過去複雜的輸出模式。唇語「語料」也一樣,為識別系統輸入海量優質數據顯得尤為重要。
  • 盤點:8個你可能不知道的深度學習應用案例
    深度學習是人工智慧的一個子集,它使用多層人工神經網絡來執行一系列任務,從計算機視覺到自然語言處理。深度學習與傳統機器學習系統的不同之處在於,它能夠在分析大型數據集時進行自我學習和改進,因此能應用在許多不同的領域。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?
  • AlphaFold 2發布背後,DeepMind AI去年巨虧6.49億美元
    【新智元導讀】根據最新的年度報告,Alphabet旗下的人工智慧公司DeepMind2019年持續虧損,虧損金額達4.77億英鎊,與上年相比,虧損金額增長了1.5%;而2019年公司的大部分支出都用在了「人員和其他相關支出」。