唇語識別!AI 領域的下一個萬億市場?

2021-01-11 維識教育科技

英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊莉莎白二世與兒子的低語,讓女王糟糕的婆媳關係浮現在大眾眼前 —— 這可能是「唇語識別」第一次大面積走進大眾的視野。

什麼是唇語識別

所謂的「唇語識別」,其實並不神秘。

早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備了「觀察別人的嘴型,解讀其表達語句」的能力。在現代社會裡,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。

但隨著科技的發展,人工智慧在各領域漸次開放,在唇語識別上,機器已經做的比人類好了。

從技術路徑上,唇語識別是一項集機器視覺與自然語言處理於一體的複合型技術。

要理解這個「唇語識別」,需要注意這幾個關鍵詞:

運用機器視覺技術從圖像中識別出說話人的人臉,提取此人連續說話時口型變化的特徵。

將連續變化的特徵輸入到唇語識別模型中,識別說話人口型對應的發音,運用大數據計算出可能性最大的自然語言語句。

圖中字幕是由谷歌AI通過唇讀實時同步輸出,語速之快,難度之大

在唇語識別過程中,口型與發音,發音與文字之間,並不是唯一對應的關係,常常有多個可能的備選結果,需要實時計算出可能性最大的結果。

唇語識別的研究現狀

早在 2003 年,Intel 就開發了唇語識別軟體 Audio Visual Speech Recognition(AVSR),開發者得以能夠研發可以進行唇語識別的計算機。

2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞,新聞測試集識別準確率首次達到了 50% 以上。

海雲數據,截至2018年他們訓練新聞類節目時長是1萬小時。為什麼是新聞類節目?當然是因為播音員的唇語最標準。目前,海雲數據在英文方面可以達到80%的準確度,中文方面是71%

海雲數據的AI唇語識別測試

搜狗的通用識別準確率在60%以上,而在車載、智慧家居等垂直場景下,準確率高達90%。

搜狗的AI唇語識別測試

從視頻中可以看出將面部放入橢圓形區域內,不發聲的說出一段話,幾乎說完的瞬間,識別的文字就出現在屏幕上,無論是口語、詩詞、歌詞還是繞口令,都能很好的識別。

唇語識別的技術原理

AI唇語識別技術原理:

唇語識別技術從鏡頭輸入到理解輸出,中間最重要的關鍵是:視覺前段、視覺特徵提取、唇動識別。

視覺前段——包括人臉檢測與唇的檢測和定位,先用人臉檢測演算法得到人臉然後有針對性的定位唇動;

或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像。

視覺特徵提取——是對獲取的唇圖像進行處理得到對應特徵,特徵提取方法主要分為基於圖元的方法和基於模型的方法兩大類;

搜狗所用的基於模型的方法就是,對唇的輪廓建立一個模型,將特徵資訊包含在這個模型之中,並對模型中特徵資訊的變化用一個小的參數來描述。

這類方法的優點是重要特徵被表示成二維參數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對後面的識別過程造成影響。

唇動識別——目前採用的技術大多是隱瑪爾可夫模型( Hidden Markov Model,簡稱 HMM ),該模型認為唇動信號在極短時間內是線性的,可以用線性參數模型來表示,然後將許多線性模型在時間上串接起來,組成一條瑪爾可夫鏈。

瑪爾可夫鏈可以用來描述統計特徵資訊的變化,並且這種變化過程與人的唇動過程是相吻合的,所以 HMM 能夠識別唇動並與相應語句匹配轉化成文字。

隨著機器學習方法在語音識別領域裡取得的巨大成功,尤其是 HMM 的應用,根據唇語識別研究和語音識別的相似性,出現了大量的 HMM 應用在唇語識別領域的研究成果。

在非特定開放口語測試中,目前的通用識別準確率已經在 70% 以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過 90% 的準確率。

唇語識別的研究意義

人類費盡心力開發研究人工智慧、提高唇語識別的準確率,除了偷窺伊莉莎白二世和兒子的秘密外,還有很多更為廣泛的用途:

比如應用於金融在線業務的生物識別、噪聲環境下輔助語音識別、輔助聽障人士交流、體育賽事暴力語言識別等多個領域,這些都是有著實際意義且頗為重要的應用場景。

自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰,甚至可能帶來一場革命。

但在人工智慧大範圍落地的今天,國內從業者扎堆湧入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。

但業界的常識是:人工智慧未來將會出現一個數萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智慧的細分程度,勢必如百年前的電力那般觸角龐雜。

而廣袤的嫁接空間也意味著,從真實應用場景出發,人工智慧領域會出現不少藍海市場,被國內巨頭忽視的唇語識別就是其中之一。

武漢維識教育科技有限公司依託北京一維弦科技有限公司自主智慧財產權的核心算法、智慧機器人等主要產品、理實結合的人才培養課程方案,在華中地區布局人工智慧人才培養戰略:校企合作辦學,支持校企共建高質量的機器人工程專業、機器人工程系、機器人工程學等機器人工程及相關智能科學專業;開辦人工智慧訓練營,圍繞機器人工程、人工智慧、智能科學與技術等相關專業,助推高校和企業人才的智能轉型;建立人工智慧機器人實訓基地,圍繞人工智慧、機器人視覺、機器人運動學、電機控制、智能製造等相關方向,提供實驗技術平臺,助力高校和高職人才的培養。

相關焦點

  • 唇語識別會是AI領域的下一個萬億市場嗎?
    隨著機器學習方法在語音識別領域裡取得的巨大成功,尤其是隱馬爾科夫模型(HMM)的應用,根據唇語識別研究和語音識別的相似性,出現了大量的HMM應用在唇語識別領域的研究成果。在非特定開放口語測試中,目前的通用識別準確率已經在70%以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過90%的準確率。
  • 唇語識別的未來擁有無限可能
    可以想像對於唇語專家C羅應該提不起什麼好感,但令C羅遺憾的是,當人工智慧在各領域漸次開放,在唇語識別上,機器也已經做的比人類好了。人類費盡心力開發AI,當然不是為了滿足自身的窺私慾。事實上,讓機器習得「讀唇術」,在公共安全,軍事情報,身份識別和社會公益等領域,都藏匿著頗為重要的應用場景。而國內一家專注大數據可視分析的公司給我們帶來了驚喜。
  • 指紋識別不稀奇 唇語密碼系統才難「解
    所以,綜上所述,唇語密碼用於身份驗證還是很靠譜的。  唇語密碼+安防=?  一項技術的特性在很大程度上決定著其將要面臨的應用途徑與市場領域,優勢決定應用價值和應用市場,短板決定應用市場的範圍大小。唇語密碼系統其本質就是一種特殊的「密碼」,相比於其他生物識別技術而言,唇語密碼的應用領域更窄一些,指紋、人臉、虹膜對於每一個獨立的個體都是獨一無二的,除了可以驗證「你是鑰匙」外,都可以作為驗證「你是你」的工具,而唇語密碼只能驗證「你是鑰匙」。所以,當唇語密碼用於安防時,其存在的形式應該是「唇語門禁」。
  • 每周AI應用方案精選:唇語識別技術;阿茨海默症預測技術
    方案1:唇語識別技術解決方案簡介:在非特定人開放口語測試集上,搜狗唇語識別系統已經達到60%以上的準確率,超過Google發布的英文唇語系統50%以上的準確率。在垂直場景如車載、智能家居等場景下,搜狗唇語識別系統甚至已經達到90%的準確率。
  • 人工智慧新應用:「唇語」識別技術揭秘
    12月27日,在海雲數據新品發布會現場,一位「警官」在無聲的狀態下,用嘴唇作出「查詢目前的報警詳情」、「查看案件現場警力資源」等業務指令,而另一邊的「指揮中心」則對這一連串的指令進行了準確識別,並給出了處理意見。
  • 科學網—「唇語識別系統」等16項目獲選「人工智慧創新之星」
    「唇語識別系統」等16項目獲選「人工智慧創新之星」   本報訊 8月9日,中國人工智慧峰會暨多媒體信息識別技術競賽成果發布會在廈門國際會議中心召開。
  • 程式設計師硬核解析《隱秘的角落》:用AI識別唇語,破解原本臺詞
    介紹東澤的試驗之前,我們先簡單回顧下《隱秘的角落》:電視劇改編自網絡作家紫金陳的小說,劇中有三個少年,分別是成長於單親家庭的朱朝陽、從孤兒院出逃的嚴良和普普。三個少年在暑假時目睹了一樁兇殺案。他們因為各種原因沒有報警,反而與兇手做起了「交易」。故事由此展開。隱秘的角落劇照,從左到右依次為嚴良、普普和朱朝陽。圖自網絡。
  • 搜狗發布唇語識別技術,「讀唇」這事的商業價值是什麼?
    12月初的世界網際網路大會上,搜狗發布了一項「唇語識別」技術。唇語識別,簡單說就是通過圖像識別你的口型,轉寫出你說的內容。在國外的技術界,2016年穀歌和牛津大學的深度學習項目組曾經共同研發唇語識別技術,在那一年的視頻節目測試中,機器唇語識別的準確率達到46.8%,高於人類唇語專家12.4%的識別率。
  • 馬上金融自主研發唇語識別系統上線
    近日,馬上金融自主研發的唇語識別活體檢測系統正式上線,並應用於風控反欺詐場景,成為消費金融智能風控領域的一項重要創新性突破。據悉,該系統集人臉識別、機器視覺、語音識別及自然語言處理等多種AI技術於一身,識別通過率達96.67%以上,識別速度在3s以內,能夠有效降低線上欺詐風險,提升用戶體驗。目前,人工智慧與金融業務的深度融合正在產生深刻變革。
  • 唇語識別《隱秘的角落》被改臺詞,比想像中更黑暗
    日前神秘網友利用唇語識別,解讀《隱秘的角落》中被改掉的臺詞,原始內容比想像中更加黑暗。其實讓計算機讀唇並不是什麼新鮮事,早在 2003 年,Intel 就推出過能讀唇的語音識別軟體。目前的唇語識別大體分為四步:通過圖像識別找到視頻中的說話人,提取連續的口型變化特徵。
  • 能「讀」唇語識別新生身份 海南醫學院這個智能化校園系統有點牛
    今年,海醫在省內高校中率先上線「人臉識別+唇語讀數」人工智慧身份核驗應用,成為迎新亮點。報到事宜在家就能辦妥,讓新生們告別排長隊,報到少跑腿,受到師生一致好評。 智能應用能「讀」唇語辨身份 今年曝光的「芶晶事件」引發社會熱議,將入學頂替現象推上風口浪尖。
  • 當使用人工智慧AI到醫療領域,會有什麼傑出的效果
    通用型人工智慧是ai領域研究的主要目標之一,通過結合計算機視覺識別和深度學習,ai技術手段能夠識別陌生人。在很多的應用場景中,一些像醫療服務、航空、地鐵、國防等領域,有大量的數據需要知識圖譜來存儲,這些應用都離不開。
  • 語音識別發展的下一個藍海市場:語義識別
    但是對於一個只會語音識別的機器來說,它不會去思考句子中的「他」到底指的兒子還是爸爸,事實上,它也「想不清楚」。但是通過語義識別,機器會對聽到的信息進行加工理解,從而給出正確的答案。   與語音識別相比,顯然語義識別顯然要更深一個層次,用到的技術也更為複雜。   本期《趣科技》, 小編就給大家介紹一下人工智慧中,自然語言識別這一重要支系。
  • 人工智慧學會讀唇語,AI深度學習後,越來越像人類一樣思考問題
    深度學習(Deep Learning)是機器學習領域中一個新的研究方向,它被引入機器學習使其更接近於最初的目標——人工智慧(AI)。讀取唇語讓機器人學會讀唇語看上去是一件不可思議的事情,但是麻省理工的研究員從最簡單的敲擊的聲音讓機器進行學習,慢慢讓它學會識別肌肉動作並與相對應的語句相結合,這已經取得了非常好的效果了。如果可以成熟了,為AI給聾啞人士提供服務奠定了基礎。深度學習一方面是為了AI可以更像人類,另一方面也是人類重新認識自己的過程。
  • 唇語識別、挑戰齊白石畫作、PK資深環衛工……這些人工智慧,有點牛~
    為了檢驗這項技術,節目組出了一道難題,邀請到資深唇語教學專家邱新會作為行業檢驗官,親自對陣唇語識別機器人。導演組提前採錄了特殊教育學校聽障兒童的語言,現場視頻播放,雙方通過觀看大屏幕,識別出聽障兒童的說話內容,究竟哪一方能獲勝呢?
  • 實例拆解:安可產品,淘寶之後又一個萬億級市場?
    其次撰寫為什麼安可產品是個萬億級產品市場?規劃安可產品都有哪些產品內容?最後結合阿里雲產品總監規劃阿里雲安可產品實例講安可產品設計規劃怎麼做!安可產品?這個就算網際網路圈人聽起來貌似也陌生的產品類型。但安可產品,確是即將到來的萬億級產品市場!首先你會疑惑想問筆者,啥叫安可產品,啥叫安可市場?
  • 牛津大學聯合 DeepMind 發布 LipNet :用深度學習讀懂你的唇語
    如何讀懂唇語對人類來說是一個難題,據數據顯示,大多數人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數唇語信號十分隱晦,難以在沒有語境的情況下分辨。現在,研究人員表示人工智慧技術,比如深度學習或許能夠解決這個難題。人工智慧側重於大數據運算,已經幫助改善了機器語音識別,甚至能達到人類的水平。
  • AI人工智慧設備向腦機接口又邁進一步 已能讀懂唇語
    AI人工智慧設備向腦機接口又邁進一步 已能讀懂唇語網易科技訊11月29日消息,據外媒報導,一種新型的語音合成器可以跳過語音記錄,而直接將說話者嘴部動作轉換為語句。該設備能「觀看」嘴唇的動作,並利用人工智慧網絡將它們轉換成聲音。
  • 聾人女孩逆襲成為清華博士,如何學會唇語對他們很重要
    唇語能讓聾啞人走多遠?口形、唇形對於聾啞人士的溝通學習非常重要,有一種專門解讀聾人的語言叫——唇語。唇語不僅能幫助聾啞人士解讀語言,幫助溝通,甚至還能成為語言康復的突破口。但是父母並沒有放棄,母親辭職,特意去了一個聾啞人學校自學手語唇語,並成為當地第一個拿到特教職業師資證書的人。父母不甘心讓她上聾啞學校,也拒絕再要一個孩子,決定全心全意培養江夢南,教她靠讀唇語學習發聲和說話。
  • 谷歌人工智慧讀懂唇語:準確率比人都高
    據外媒報導,近日谷歌的人工智慧部門DeepMind工作室正式對外宣布,他們正在與牛津大學的研究人員進行合作,開發出一款先進的能讀懂唇語的軟體。他們預計這種唇語軟體能夠比專業的唇語翻譯人員準確率還要高,這也是讓人非常興奮的。