DeepMind最近做了個新軟體 它能讀懂唇語

2021-01-11 同花順財經

  【AI世代編者按】專業唇語閱讀者識別唇語的準確率只有20%到60%。人類在日常說話過程中嘴唇的微小移動很難被可靠地解讀,尤其是在有一定距離,或畫面不清晰的情況下。不過,唇語並不只是美劇《海軍罪案調查科》中的噱頭,對全球的失聰者來說,這是一項有用的工具。如果能可靠地解讀,那麼將給數百萬人帶來幫助。

  牛津大學的最新研究描述了一種名為LipNet的人工智慧系統。通過「觀看」人類說話的視頻,以及輸入相應文字,這一軟體對唇語的解讀準確率高達93.4%。這項研究得到了谷歌旗下DeepMind的資助。

  此前最佳的唇語解讀工具只能實現逐個單詞的解讀,準確率只有79.6%。牛津大學研究員表示,新系統獲得成功的關鍵在於通過不同方式去思考這一問題。這一系統不再利用可視元素,即說話者嘴型的變化去訓練人工智慧,而是每次都處理一整個句子。這使得人工智慧可以學會單詞對應於什麼樣的嘴型變化。

  為了訓練這一系統,研究員向人工智慧展示了2.9萬條帶文字標籤的視頻,每段視頻長度為3秒。而為了觀察專業唇語閱讀者做得如何,該團隊還邀請了「牛津學生殘疾人社團」的3名成員,用300條隨機視頻去進行類似的測試。這些專家的平均錯誤率為47.7%,而人工智慧的錯誤率只有6.6%。

  儘管這一項目取得了成功,但也暴露出了當代人工智慧研究的局限。在指導人工智慧如何閱讀唇語的過程中,牛津大學團隊使用了經過設計的視頻。視頻中的所有人物都面向前方,光線明亮,說出標準結構的語句。

  視頻中的典型語句時長為3秒鐘,例如:「Place blue in m 1 soon。」這其中包括命令、顏色、介詞、字母、數字,以及副詞。所有語句都採用這樣的模式。因此,人工智慧的超高準確率只是在一種極端情況下取得的。如果要求人工智慧從隨機的YouTube視頻中閱讀唇語,那麼結果可能很不準確。

  有其他研究人員指出,利用這種特殊視頻去訓練並不符合真實世界場景。不過,論文作者南多.德弗雷塔斯(Nando de Freitas)為自己的成果進行了辯護。他指出,該團隊曾嘗試過其他視頻,但這些視頻帶來了太多「噪音」。這些視頻各不相同,因此人工智慧無法取得有意義的結論。這也意味著,完美的數據集可能並不存在。德弗雷塔斯認為,考慮到這一人工智慧的準確率,最終情況如何將取決於任務本身。

  OpenAI的傑克.克拉克(Jack Clark)表示,如果希望在現實世界中得到應用,那麼這一人工智慧還需要三方面的優化:人們在現實世界場景中大量的說話視頻;讓人工智慧可以從多個不同角度去閱讀唇語;以及讓人工智慧可預測的短語類型更多樣化。

  克拉克表示:「這項技術具備顯而易見的應用,但這看起來似乎並不可能。」如果人工智慧可以學會閱讀唇語,那麼將適用於多種場景。此類系統可以被用於幫助聽力障礙人士了解周圍發生的對話,或是讓其他人工智慧更好地辨別視頻中的聲音,生成準確的字幕。(編譯/陳樺)

關注同花順財經(ths518),獲取更多機會

責任編輯:wzy

相關焦點

  • 牛津大學聯合 DeepMind 發布 LipNet :用深度學習讀懂你的唇語
    新的調查顯示 AI 能夠輕鬆戰勝人類,但還有很多工作要做。如何讀懂唇語對人類來說是一個難題,據數據顯示,大多數人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數唇語信號十分隱晦,難以在沒有語境的情況下分辨。現在,研究人員表示人工智慧技術,比如深度學習或許能夠解決這個難題。人工智慧側重於大數據運算,已經幫助改善了機器語音識別,甚至能達到人類的水平。那麼機器學習技術是不是也能運用到讀懂人類的唇語上?
  • 準確率比人都高 谷歌人工智慧讀懂唇語
    不過這款軟體的局限性在於,他對於唇語的解讀僅限於單字,而無法將這些詞彙組成一個整體的句子,所以還需要進行一步的研發。 據外媒報導,近日谷歌的人工智慧部門DeepMind工作室正式對外宣布,他們正在與牛津大學的研究人員進行合作,開發出一款先進的能讀懂唇語的軟體。
  • 谷歌人工智慧讀懂唇語:準確率比人都高
    據外媒報導,近日谷歌的人工智慧部門DeepMind工作室正式對外宣布,他們正在與牛津大學的研究人員進行合作,開發出一款先進的能讀懂唇語的軟體。他們預計這種唇語軟體能夠比專業的唇語翻譯人員準確率還要高,這也是讓人非常興奮的。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    而在當前的 AI 領域,DeepMind 在推動 DRL 研發方面做了大量工作,包括構建了許多專有工具和框架,以大規模地簡化 DRL agent 訓練、實驗和管理。最近,DeepMind 又默默開源了三種 DRL 框架:OpenSpiel、SpriteWorld 和 bsuite,用於簡化 DRL 應用。
  • AI人工智慧設備向腦機接口又邁進一步 已能讀懂唇語
    AI人工智慧設備向腦機接口又邁進一步 已能讀懂唇語網易科技訊11月29日消息,據外媒報導,一種新型的語音合成器可以跳過語音記錄,而直接將說話者嘴部動作轉換為語句。該設備能「觀看」嘴唇的動作,並利用人工智慧網絡將它們轉換成聲音。
  • 械臂最近有點忙:OpenAI教它玩魔方,DeepMind讓它搭積木!
    新智元楊靜、科大訊飛(002230,股吧)胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS 張崢、依圖顏水成、地平線黃暢、autowise.ai 黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的 AI 未來。峰會現場,新智元揭曉 AI Era 創新大獎,並重磅發布 AI 開放創新平臺和獻禮新書《智周萬物:人工智慧改變中國》。
  • 人工智慧軟體唇語解讀對電視嘉賓 準確率約為唇語專家4倍
    資料圖片將電視機調成「靜音」模式後,你能「看懂」主持人說的話嗎?在這個情景之內,你或許感覺這是一個遊戲,但「唇讀」已伴隨人工智慧越來越精準。據BBC報導,谷歌最近與英國牛津大學合作開發了一套唇讀軟體,通過收看數千小時BBC的電視節目來開啟唇讀功能。令人震驚的是,該軟體不僅掌握了唇語,還比唇讀專家做得好。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。比起這個成果,相信大家跟我一樣更感興趣的是,這個DeepMind究竟是個什麼神奇公司,可以破解50年來無人能破的世界級計算難題?為創建超人類AI而生,讓馬斯克極度關注DeepMind跟傳奇的谷歌X實驗室不同,它並非谷歌親身,而是最初於2010年在英國成立的一家AGI(通用人工智慧)公司。
  • 唇語識別《隱秘的角落》被改臺詞,比想像中更黑暗
    日前神秘網友利用唇語識別,解讀《隱秘的角落》中被改掉的臺詞,原始內容比想像中更加黑暗。其實讓計算機讀唇並不是什麼新鮮事,早在 2003 年,Intel 就推出過能讀唇的語音識別軟體。目前的唇語識別大體分為四步:通過圖像識別找到視頻中的說話人,提取連續的口型變化特徵。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新庫,給這個生態注入了新的活力。 Jax 是谷歌開源的一個科學計算庫,能對 Python 程序與 NumPy 運算執行自動微分,而且能夠在 GPU 和 TPU 上運行,具有很高的性能。
  • DeepMind 為何總能完爆人類?世界第一深度學習實驗室內部探秘
    牛津大學和 DeepMind 的研究人員合作,開發出一款能夠閱讀唇語的系統,這個名叫 Watch, Attend and Spell(WAS)的軟體在實際表現中遠遠超越了人類專家的水平。研究人員使用計算機視覺和機器學習算法,使用 5000 小時的 BBC 新聞視頻錄像訓練模型,這些視頻裡包含了 1000 多個不同的人說的將近 12 萬句話,單詞量有 17,500 個。或許,你還記得 DeepMind 去年推出的唇語技術 LipNet。
  • 母女駕車遭劫持,到加油站加油,加油員讀懂小女孩唇語後報警!
    母女駕車遭劫持,到加油站加油,加油員讀懂小女孩唇語後報警!遇到突發的情況,想必大家的第一反應更多的都是恐懼吧,能在危機情況下自救是需要很高的情商和智商的,最近浙江杭州的一位14歲小女孩卻完美的做到了這一點,運用自己的冷靜和高智商解救了自己和媽媽。
  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    這項技術比起前幾個版本的 AlphaGo 更加強大,因為它不再受人類知識極限的約束。相反,它從一張白紙的狀態開始,和世界最強的圍棋選手 AlphaGo(它自己)學習下棋。它與之前的版本在以下幾個方面存在差異:AlphaGo Zero 只需要圍棋棋盤中的黑子和白子作為輸入,而前幾個版本的 AlphaGo 還包括少量手工設計的特徵。
  • DeepMind論文不應帶有錯誤引導成份
    因為它比真正的AlphaGo Zero 弱得多很不幸,網上不少沒有看原文細節的人都以為 AlphaZero 是打敗了真正 AlphaGo Zero   阿嘟昨天睡前困地沒仔細看文章就被那幾張圖表給震驚到了。不過新論文還是說明了DeepMind不論在圍棋還是其他封閉體系的棋藝競技中,深度學習的研究達到一個劃時代的成就。
  • DeepMind第四代:不學規則就能下棋玩遊戲
    谷歌稱 MuZero 可以未知環境中計劃獲勝策略,無需學習規則,便能掌握 Go(圍棋), chess(西洋棋), shogi(日本將棋)和 Atari(電子遊戲)。這和 MuZero 的前幾代——AlphaGo,AlphaGo Zero,AlphaZero 有很大的區別。
  • DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展
    Twitchhttps://www.twitch.tv/starcraftYouTube:https://www.youtube.com/c/deepmind暴雪在最近的BlizzCon上,總結了自己2018年的工作,並相當低調地發布了「與DeepMind合作正在繼續 」的更新:
  • DeepMind新研究登上《Nature》
    解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    機器之心報導編輯:魔王、小舟6.49 億,DeepMind 去年的虧損再創新高,甚至比當年穀歌買下它花的錢還多。但與屢被轉賣的波士頓動力命運不同,谷歌對它的態度是:要多少給多少。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    具體來說,MuZero對三個環境要素進行建模(這三個要素對於規劃非常重要):這三個要素都是使用深度神經網絡來學習,也是MuZero在採取特定行動時考慮後果與做出相應規劃所需要知道的全部內容。這個方法的另一個優點是:MuZero可以反覆使用其學習的模型來改進自己的規劃,而不是從環境中收集新數據。比方說,在Atari suite的測試中,被稱為MuZero Reanalyze的變體在90%的時間裡使用學習的模型來重新規劃先前episode中應該做但沒有做的事情。