「唇語識別」,AI 領域的下一個萬億市場?

2021-03-06 SegmentFault

英國查爾斯王子迎娶卡米拉時,讀唇者成功破解了伊莉莎白二世與兒子的低語,讓女王糟糕的婆媳關係浮現在大眾眼前 —— 這可能是「唇語識別」第一次大面積走進大眾的視野。

所謂的「唇語識別」,其實並不神秘。

早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備了「觀察別人的嘴型,解讀其表達語句」的能力。在現代社會裡,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。

但隨著科技的發展,人工智慧在各領域漸次開放,在唇語識別上,機器已經做的比人類好了。

從技術路徑上,唇語識別是一項集機器視覺與自然語言處理於一體的複合型技術

系統通過機器視覺從圖像中連續識別出人臉,提取口型的連續變化特徵,隨即將連續變化的特徵輸入到識別模型中,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句。

早在 2003 年,Intel 就開發了唇語識別軟體 Audio Visual Speech Recognition(AVSR),開發者得以能夠研發可以進行唇語識別的計算機;2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞,新聞測試集識別準確率首次達到了 50% 以上。

在深度學習技術出現以前,對於唇語識別的研究主要從三個方面來進行,分別是嘴唇的定位與檢測、唇語特徵提取和唇動識別。

其中,嘴唇特徵提取是唇語識別的關鍵,將連續變化的特徵輸入到唇語識別模型中,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句,提取出的特徵質量直接影響著唇語識別的準確性。

隨著機器學習方法在語音識別領域裡取得的巨大成功,尤其是隱馬爾科夫模型(HMM)的應用,根據唇語識別研究和語音識別的相似性,出現了大量的 HMM 應用在唇語識別領域的研究成果。

在非特定開放口語測試中,目前的通用識別準確率已經在 70% 以上,而在金融風控、車載、智能家居等垂直場景下,已達到超過 90% 的準確率。

人類費盡心力開發研究人工智慧、提高唇語識別的準確率,除了偷窺伊莉莎白二世和兒子的秘密外,還有很多更為廣泛的用途:

比如應用於金融在線業務的生物識別、噪聲環境下輔助語音識別、輔助聽障人士交流、體育賽事暴力語言識別等多個領域,這些都是有著實際意義且頗為重要的應用場景。

自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰,甚至可能帶來一場革命。

但在人工智慧大範圍落地的今天,國內從業者扎堆湧入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。

但業界的常識是:人工智慧未來將會出現一個數萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智慧的細分程度,勢必如百年前的電力那般觸角龐雜。

而廣袤的嫁接空間也意味著,從真實應用場景出發,人工智慧領域會出現不少藍海市場,被國內巨頭忽視的唇語識別就是其中之一。

觀看下方漫畫短片,讓人工智慧看懂唇語


看完這些,想不想親自搞一搞,這古老又神奇的「唇語識別」技術?

如果為你開放數百個常用詞彙樣本資料庫,你能夠用它做點什麼?

來參加「新網銀行高校金融科技挑戰賽」,與全國高校 AI 算法高手們一較高下吧!

沒有經驗沒關係,沒做過圖片數據和深度學習也沒關係,只要對機器學習和人工智慧感興趣,就可以報名來一展身手,現場有專業的導師團隊進行輔助指導!

高達 47 萬的超高獎金池  30萬高薪 offer 新網銀行、小米科技共享人才池 機會。

優秀團隊還可獲得由團四川省委、四川省教育廳等主辦單位頒發的獲獎證書,此 省級證書 可在獎學金評定、保研升學等方面作為加分依據(具體視各校、學院相關評定規則而定),證書還可提高你的求職、留學申請簡歷的含金量哦...

用代碼改變世界,也用算法成就自己!點擊下方圖片,即可了解本次大賽詳情:

如有疑問

可以掃碼加入QQ群

隨時諮詢、實時了解賽事動態

(內有專家評委在線答疑,帶你輕鬆破題)

看到這裡

有沒有激發你心中昂揚的鬥志?

要不要施展自己的拳腳與抱負?

想不想和全國高校學子同臺一較高下?

來吧!燃燒吧!青年!

讓我們共築金融科技的美好明天

點擊「閱讀原文」,報名開啟新人生~ 

相關焦點

  • 10萬億的AI戰場,隱藏著哪些實力「後浪」?
    這項重大計劃中,到2025年5年間,10萬億將投資於城市政府和華為等民營企業巨頭鋪設第五代無線網絡、安裝攝像頭和傳感器、並開發人工智慧軟體,以支持自動駕駛、自動化工程和大規模安防視頻領域。此消息雖未被正式證實,毋庸置疑的是,以5G、人工智慧、工業網際網路、物聯網為核心的新型基礎設施建設將是未來發展重點領域,其本質上是信息數位化的基礎設施建設,支撐傳統產業向網絡化、數位化、智能化方向發展, AIoT也將成為5G時代下最有潛力的應用方向。如若消息屬實,10萬億的投資注入,加之業務需求,市場很有可能從四個方面獲得層級爆發。
  • 人類讀不懂唇語?交給深度學習,精度可達 84.41%
    讀懂唇語,這是擺在我們面前的一道難題,大多數人平均只能讀對一句唇語的十分之一。而在計算機視覺領域的語境下,唇讀作為一種基於深度學習的模型,更多地被用來推斷視頻中的語音內容,可對基於音頻的語音識別、生物認證等進行輔助。在論文中,研究團隊提到了「詞彙級唇讀」(word-level lip reading)的概念。實際上,詞彙級唇讀是唇讀的一個分支,也是研究團隊此次研究的主要關注方向,它存在一些「固有」問題。
  • 人工智慧+「以圖搜圖」,細分巷道裡的千億級市場
    這家公司目前推出的兩款產品都致力於利用 AI 的視覺識別技術來識別商品。根據平安證券發布的一份關於「人工智慧圖像識別」的專題報告顯示,圖像識別正在多領域被廣泛應用,而且具有巨大的市場空間。在現實中,圖像識別的應用已經在金融、安防和醫療領域被提前布局。但是在黃鼎隆和 Matt 看來,把人工智慧技術直接跟「交易」相關的領域結合,提高生產效率,將是把人工智慧技術推向成熟商業化的最短路徑。
  • 「口罩識別」後,「頭盔識別」躋身 AI 安防 C 位
    一紙公文瞬間激活了整個頭盔市場,坊間直言又一個因政策出臺而引發的百億級生意橫空出世。一時間,電商平臺頭盔銷量猛增,價格迅速上漲,朋友圈中原本倒騰口罩的都開始調頭賣頭盔了。也就是說,口罩識別等小眾需求在某些場景已是大眾問題,未來的識別精確度會越來越高。從這也能發現:上到公安部天眼抓逃、下到基層民警地網識人,每一個看起來很小的系統中,都繁雜地加載了包括人臉識別、頭盔識別、口罩識別、形態識別等多種算法。
  • 聚焦下沉市場做S2B2C,「扳手」要用小B撬動線下家電銷售市場通路
    集中在珠三角、長三角的一二三線城市,「扳手」線下銷售、安裝、維修涉及品類包括空調、冰箱、洗衣機、電視、廚電、淨水淨風、智能家電等。目前企業已完成B輪融資。瞄準家電下沉市場,聯合小B家電銷售是價值萬億的市場。據《中國家電行業年度報告》數據統計,2018年中國家電市場除彩電之外,空調、冰洗、廚衛、生活小家電都實現了增長。
  • 「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...
    為應對自 2017 年起引起全球恐慌的「AI 大毒瘤」Deepfake,政府、企業、學界聯合發力。2019 年,Facebook 斥巨資發起「Deepfake 檢測挑戰賽」(Deepfake Detection Challenge,DFDC)。
  • 「水很深」的千億醫療器械市場,能不能長出「阿里巴巴」
    2003 年阿里打造淘寶平臺,通過剛剛萌芽的網際網路技術,拉平了賣家和消費者之間的信息差,打開了一個數萬億的市場,為阿里未來成為萬億市值的網際網路一極奠定了基礎。在阿里的啟發下,眾多創業者瞄準了電商的垂直賽道,但最終成功的不多。本來「水很深」的醫療領域,要到 10 年後萬眾創新的時代,才出現網際網路醫藥平臺,但開始也僅限於影響不大的非處方藥售賣。
  • Moncler Genius 或已是下一個時尚潮流領域的新「天團」
    這一「年齡」在時尚及奢侈品領域尚屬年輕,但近年來品牌在產品和知名度上的提升卻有目共睹,在今年 2 月 10 日發布的品牌 2019 財年報告中 Moncler  淨利潤同比增長 9%,達到 3.615 億歐元,收入增長 15%,從 2018 年的 14.2 億歐元增長至 16.2 億歐元,第四季度作為 Moncler 服裝產品的旺季,收入大漲 16%。
  • Clearview AI:從上流社會的「秘密玩具」,到巨頭圍剿的「亡命之徒」
    Catsimatidis 發現,女兒挽著一個他不認識的男人。在女兒入座後,Catsimatidis 請一位服務員過去拍下了男子的照片。他發現女兒的約會對象是一位來自舊金山的風險投資家。「我想確定他不是一個江湖騙子。」Catsimatidis 說。隨後,他用簡訊給女兒發送了該男子的履歷資料。如果你認為以上場景只是一個電影片段,那你恐怕猜錯了。Catsimatidis 使用的面部識別軟體叫做 Clearview AI ,在過去的 2 年多時間裡,它一直是富豪們秘密使用的軟體。
  • 蘋果自動駕駛部門「裁員」又「重組」,AI負責人接掌「泰坦」
    現在,除了「泰坦」項目之外,賈南德雷亞還會繼續負責Siri和蘋果產品的機器學習技術。在此之前,領導「泰坦」的是道格·菲爾德(Doug Field),他之前在蘋果擔任過硬體副總裁,後又加入特斯拉,擔任工程副總裁,特斯拉Model 3 就是他當時負責的項目。
  • 保險科技領域SaaS風控黑馬「中研智科」,獲數百萬天使融資
    保險科技領域SaaS風控黑馬「中研智科」,獲數百萬天使融資 2020-12-23 15:12
  • ...成長力投資機構」暨「新經濟十大領域投資人/投資機構」榜單發布!
    截止2020年10月,中國私募基金管理資本總額已達到15.84 萬億元 ,相比私募基金元年2004年的7.89億元已增長了上萬倍,其中國有控股和國資參股的資金比例超過七成,國資背景的LP成為主導力量。投資了時下估值暴漲的理想汽車、小鵬汽車的經緯中國張穎,前段時間提到:今年尤其不同,低利率時代逼迫投資者追逐有限的優質標的,使得擁擠的交易變得更加擁擠,市場對公司價值的判斷正在非常誇張的前置。
  • AI金融「交互應用」的窘境與進擊的獨角獸
    但在用戶的「交互方式」上,AI早就不聲不響地「攻下數城」。通過生物識別,AI不僅成功地取代銀行卡這一物理介質,還替代了密碼輸入等核對流程,讓金融的交易與身份識別更加「無感」;通過語音識別&NLP,AI直接讓客服這一工作,從「人人」交互轉變為「人機」交互。隨著圖像和語料數據的激增,一些「金融智能交互」企業,甚至向前一步,成長為新一代獨角獸。
  • 「數位」與「研強物聯」達成戰略合作,位置服務賦能兒童智能穿戴領域
    近日,領先的智能位置服務商「數位」與物聯網領域領導品牌「研強物聯」達成戰略合作,雙方將以兒童手錶為切入點,共同布局智能穿戴設備領域,成就用戶美好生活。目前,市面上主要基於GPS定位的兒童手錶,僅能識別兒童所處樓宇、街道,並不能充分滿足用戶需求。
  • 外國小哥克隆了一個耶穌?「末日天啟」等主題,AI寫下3萬字!
    【新智元導讀】最近,一則「AI耶穌」的帖子上傳到了Github,引起外國網友熱議。原來,作者給一個NLP模型輸入欽定版聖經,AI居然也寫出了3萬字的經文!現在的AI可是越來越能了。不僅能寫滿分作文,狂噴馬斯克……還能搞定《聖經》!哈利路亞……最近,有個外國小哥居然用AI「克隆」了一個耶穌。
  • 切入汽車金融領域,「符號律動」想幫客戶解決風控難題
    36氪日前接觸到的一家初創公司——「符號律動」,成立於2018年,定位於專注提供智能分析與風控服務的科技公司,目前主打汽車金融市場,主要幫助汽車金融客戶進行授信,為網約車公司提供司機背調等服務。 提及切入汽車金融市場的原因,公司創始人兼CEO桃片從市場規模和行業現狀兩方面介紹。
  • 實例拆解:安可產品,淘寶之後又一個萬億級市場?
    其次撰寫為什麼安可產品是個萬億級產品市場?規劃安可產品都有哪些產品內容?最後結合阿里雲產品總監規劃阿里雲安可產品實例講安可產品設計規劃怎麼做!安可產品?這個就算網際網路圈人聽起來貌似也陌生的產品類型。但安可產品,確是即將到來的萬億級產品市場!首先你會疑惑想問筆者,啥叫安可產品,啥叫安可市場?
  • 開發智能助眠眼罩,「趣安科技」切入智能眠設備市場
    全球睡眠經濟的商業規模已達萬億以上,預計到2020年,中國的「睡眠經濟」市場規模將達到4000億,「睡眠」正成為當代年輕人千金難求的稀有資源。丁香醫生發布的《2019睡眠狀況洞察報告》報告更強調了一個數字:「91%的受調查者自認存在睡眠問題」。
  • 「智元匯」以人臉識別支付開啟「無感...
    來源:新聞報導截屏 這是乘客在鄭州和西安地鐵的乘車場景 ,其背後的「人臉識別」行動支付技術是由成都智元匯信息技術股份有限公司(簡稱「智元匯」)提供,據「智元匯」研發中心兼行動支付中心總經理嚴軍介紹,「智元匯的刷臉進站技術
  • IDC發布雲AI Cloud市場報告 百度智能雲在機器視覺、NLP等領域排名...
    12月23日,全球知名諮詢機構IDC發布《中國人工智慧雲服務市場 研究報告(2020H1)》報告,在中國AI公有雲服務市場,百度智能雲市場份額排名中國第一。這是百度智能雲連續三次在AI Cloud市場排名第一。其中,百度智能雲在人體識別、圖像視頻、NLP(自然語言處理)等領域市場份額第一,整體行業用戶認知度最高。IDC表示,百度智能雲的AI應用全面開花,並在多行業落地。