模式識別是人工智慧領域的一個重要分支。人工智慧通過計算使機器模擬人的智能行為,主要包括感知、推理、決策、動作、學習,而模式識別主要研究的就是感知行為。在人的五大感知行為(視覺、聽覺、嗅覺、味覺、觸覺)中,視覺、聽覺和觸覺是人工智慧領域研究較多的方向。模式識別應用技術主要涉及的就是視覺和聽覺,而觸覺則主要與機器人結合。隨著計算機和人工智慧技術的發展,模式識別取得了許多引人矚目的應用成就和不可忽視的科學進展,它使得計算機智能化水平大為提高、更加易於開發和普及,在社會經濟發展和國家公共安全等領域中應用日益廣泛。生物特徵識別、多媒體信息分析、視聽覺感知、智能醫療都是目前發展較快的模式識別應用領域。
模式識別最主要的應用技術是生物特徵識別。生物特徵識別是指通過計算機對人體的生理特徵(面部、手部、聲紋)或行為特徵(步態、筆跡)等固有模式進行自動識別和分析,進而實現身份鑑定的技術。它是智能時代最受關注的安全認證技術,憑藉人體特徵的唯一性來標識身份,已經逐漸替代人們常使用的鑰匙、磁卡和密碼,在智能家居、智慧機器人、網際網路金融、軍事裝置等領域發揮重要作用。
多媒體信息分析是模式識別最廣泛的應用方面之一。旨在解決多媒體數據的挖掘、理解、管理、操縱等問題,同時以高效的方式對不同模態的異構數據進行智能感知,以便服務於實際應用。作為新一代信息資源,多媒體數據除傳統的文字信息外,還包含了表現力強、形象生動的圖像和視頻等媒體信息。相對於真實的多媒體數據,使用模式識別方法也可以合成的高質量和多樣化的虛擬數據,合成及鑑偽虛假信息在經濟、政治、安防等領域都具有重要應用價值。
醫療診斷和醫學圖像處理是模式識別的一個較新的應用領域。主要是將模式識別技術應用在醫學影像的處理和理解方面,並結合臨床數據加以綜合分析,找到與特定疾病相關的影像學生物指標,從而輔助醫生早期診斷,治療和預後評估。主要涉及醫學圖像分割、圖像配準、圖像融合、計算機輔助診斷、三維重建與可視化等。
模式識別應用技術具體研究進展主要表現在如下幾個方面:面部生物特徵識別、手部生物特徵識別、行為生物特徵識別、聲紋生物特徵識別、文字與文本識別、複雜文檔版面分析、多媒體數據分析、多模態情感計算、圖像和視頻合成、圖像取證與安全、遙感圖像分析、醫學圖像分析等。
人體多種模態的生物特徵信息主要分布於面部(人臉、虹膜、眼周、眼紋)和手部(指紋、掌紋、手形、靜脈)。相比手部生物特徵,人體面部的人臉和虹膜等特徵具有表觀可見、信息豐富、採集非接觸的獨特優勢,在移動終端、中遠距離身份識別和智能視頻監控應用場景具有不可替代的重要作用,因而得到了國際學術界、產業界乃至政府部門的高度關注。
人臉識別是計算機視覺的經典問題,主要研究聚焦在人臉檢測、人臉對齊和人臉特徵分析與比對、人臉活體檢測、人臉表情識別等。人臉檢測早期經典算法是Viola和Jones提出的Haar特徵和Adaboost機器學習方法,近些年來RCNN、Fast RCNN、Faster RCNN、SSD、YOLO等深度神經網絡的目標檢測方法在人臉領域取得更好的檢測精度。如何檢測小人臉和部分臉是現在人臉檢測的重點關注方向,例如中科院自動化所提出了RefineFace實現高精度、高效率的人臉檢測。人臉對齊需要在圖像中定位出人臉的眼角、鼻尖、嘴角等關鍵點,代表性的方法包括Active Shape Models、Constrained Local Models、Active Appearance Models、Explicit Shape Regression以及基於深度神經網絡的回歸方法等。中科院自動化所針對嚴重遮擋下人臉圖像的關鍵點定位,提出一種基於數據及模型混合驅動的人臉關鍵點定位方法,目的在於充分利用數據驅動下深度網絡的表達能力和模型驅動下點分布模型的推理能力。三維人臉關鍵點定位成為近期熱點,中科院自動化所提出了基於語義體素表達和對抗先驗學習的三維人臉形狀估計方法。從特徵表達的角度看,人臉識別的發展初期主要是基於面部關鍵位置形狀和幾何關係或者模板匹配的方式。90年代人臉識別發展迎來了第一個高潮期,最具代表性的是基於人臉的統計學習方法,衍生出來的幾個經典算法有子空間學習算法和LBP等局部特徵算法。2008年研究人員採用稀疏表達方法提升了人臉識別魯棒性。基於深度神經網絡的人臉識別方法已成為研究熱點,代表性工作包括DeepFace、DeepID、FaceNet、VGGFace、SphereFace、ArcFace等,深度學習人臉識別算法在LFW資料庫上達到了超越人眼的水平。為了提高深度學習計算效率,中科院自動化所借鑑視覺認知機理、引入Ordinal Measures到深度神經網絡,提出了輕量級的Light CNN人臉特徵模型。中科院自動化所基於生成對抗網絡提出了一系列人臉圖像合成方法,顯著提升了人臉識別對姿態、解析度、年齡、美妝、遮擋、表情等問題的魯棒性。人臉活體檢測成為人臉識別應用安全瓶頸問題,人臉視頻真偽可以通過檢測動態眨眼搖頭或者提取rPPG信息通過皮膚細微亮度變化來檢測心跳,但是這種需要用戶配合的方式耗時長用戶體驗差,因此靜默活體檢測成為重要研究方向。傳統靜默防偽方法基於紋理分析、高頻圖像特徵等,目前深度學習成為靜默活體檢測的重點,例如樸素二分類方法、分塊卷積網絡方法、Auxiliary Supervision方法、深度圖回歸方法、深度圖融合rPPG回歸方法等。如何解決各種條件下人臉活體檢測方法的泛化能力還是一個難點問題。
虹膜識別方面,LG、Panasonic、IrisGuard、IrisKing 等公司設計了一系列近距離虹膜圖像採集設備。為了提高虹膜成像的便捷性同時為了拓展虹膜識別的應用範圍,越來越多的機構開始著手遠距離虹膜圖像獲取的研究,美國AOptix公司的InSight系統可以實現3米遠的虹膜清晰成像。中科院自動化所提出基於光機電和多相機協同的虹膜成像模型,在虹膜圖像獲取裝置中嵌入目標檢測、質量評價、超解析度、人機互動、活體判別等算法,賦予機器智能化贏取虹膜成像便捷化。實現了虹膜成像從近距離(0.3米)到遠距離(3米)、從單模態(單目虹膜)到多模態(高分辨人臉和雙目虹膜)、從「人配合機器」到「機器主動適應人」的創新跨越,並研製成功4D光場虹膜成像設備,通過高解析度光場相機、四維光場獲取與數據處理、重對焦、深度估計、超分辨等核心算法的系統研究,實現了虹膜/人臉成像從小景深到大景深(6倍景深拓展)、從單用戶到多用戶、從2D到3D的重大技術跨越,建設的CASIA虹膜圖像資料庫在170個國家和地區的3萬多個科研機構和企業推廣應用。虹膜識別算法的兩個主要步驟是虹膜區域分割和虹膜紋理特徵分析。虹膜區域分割大致可以分為基於邊界定位的方法和基於像素分類的方法。虹膜紋理特徵分析包括特徵表達和比對兩部分。特徵表達方法從複雜的紋理圖像中提取出可用於身份識別的區分性信息,其中代表性的工作有基於Gabor 相位的方法、基於多通道紋理分析的方法、基於相關濾波器的方法、基於定序測量的方法等。傳統的虹膜識別算法多採用人工設計邏輯規則和算法參數,導致算法泛化性能欠佳,不能滿足大規模應用場景。數據驅動的機器學習方法從大量訓練樣本中自動學習最優參數,可以顯著提高虹膜識別算法精度、魯棒性和泛化性能。大規模虹膜識別應用帶來了許多新的挑戰,虹膜特徵的快速檢索、多源異質虹膜圖像的魯棒識別成為當前虹膜識別的研究難度和熱點問題。中科院自動化所受啟於人類視覺機理,提出使用定序測量濾波器描述虹膜局部紋理,並設計了多種特徵選擇方法確定濾波器最優參數;首次將深度學習應用於虹膜識別,提出了基於多尺度全卷積神經網絡的虹膜分割方法和基於卷積神經網絡的虹膜特徵學習方法;探索了深度學習特徵與定序測量特徵的互補性關係;系統研究了基於層級視覺詞典的虹膜圖像分類方法,顯著提升了虹膜特徵檢索、人種分類和活體檢測精度。
從應用角度看,面部生物特徵識別應用廣泛,可應用於安防監控、自動門禁系統、身份證件的鑑別、銀行ATM 取款機以及家庭安全等領域。具體來看主要有:1)公共安全:公安刑偵追逃、罪犯識別、邊防安全檢查;2)信息安全:計算機、移動終端和網絡的登錄、文件的加密和解密;3)政府職能:電子政務、戶籍管理、社會福利和保險;4)商業企業:電子商務、電子貨幣和支付、考勤、市場營銷;5)場所進出:軍事機要部門、金融機構的門禁控制和進出管理等。
手部生物特徵主要包括指紋、掌紋、手形以及手指、手掌和手背靜脈,這些生物特徵發展早期主要採取結構特徵進行身份識別,例如指紋和掌紋中的細節點、靜脈中的血管紋路、手形幾何尺寸等,但是近些年來基於紋理表觀深度學習的方法在手部生物特徵識別領域得到快速發展。
指紋識別技術主要包括三方面內容,即指紋圖像採集、指紋圖像增強和指紋的特徵提取及匹配。在電子計算機被發明後,基於光學的指紋採集設備替代了傳統的油墨,極大提高了指紋的採集、識別以及存儲效率。隨後,基於電容式傳感器的指紋採集裝置出現,廣泛應用於蘋果手機等移動終端設備的用戶身份認證系統中,主要包括按壓式和刮擦式兩種。除此以外,基於溫度傳感器、超聲波和電磁波的指紋採集技術也都被提出,且各有所長。近些年,非接觸式的3D指紋採集系統也被提出以改善用戶體驗與識別精度。指紋圖像增強主要包括圖像平滑(去燥與指紋紋路拼接)、圖像二值化(前後景分離)和細化(指紋骨架獲取)三部分。頻域濾波、Gabor變換和匹配濾波器等傳統圖像處理方法可以有效地去除指紋圖像中的噪聲,檢測、補全指紋紋路中的斷點並進行細化。隨著深度學習的發展,深度卷積網絡憑藉其強大的特徵提取能力,在扭曲指紋圖像校正等指紋圖像增強的相關問題中得到廣泛應用。指紋圖像特徵提取與匹配方法可以大體分為方向場特徵法與特徵點法兩類。方向場描繪了指紋圖像的紋脊和紋谷分布,是指紋圖像匹配的重要依據。有很多方法被提出以減小噪聲對於方向場計算的影響並且提高運算效率。特徵點指的是指紋圖像中常見的紋路模式,包括拱形、帳弓形、左環形、右環形、螺紋形等主要指紋紋型。特徵點的區域分布特徵和旋轉不變性等特性也常被用來提高識別算法的魯棒性。隨著指紋識別技術在不同場景中得到應用,採集到的指紋圖像質量參差不齊,有時甚至無法得到完整指紋,所以部分指紋圖像識別問題是目前的一個研究熱點。除此之外,為了保障用戶的個人財產安全,指紋識別技術中的活體檢測問題也是研究人員重點關注的問題。為了解決這個問題,一方面可以從硬體角度在指紋採集系統中加入額外傳感器以檢測手指的溫度、顏色和血液流動情況等活體要素,另一方面可以從圖像質量的角度對採集到的指紋數據進行評估,從而篩選出高質量的活體指紋。
掌紋是位於手指和腕部之間的手掌皮膚內表面的紋路模式,在解析度較低的掌紋圖像裡比較顯著的特徵包括主線、皺紋線和紋理,在高解析度的掌紋圖像裡我們還可以看到類似於指紋圖像裡的細節特徵,例如脊線、細節點、三角點等。和其他生物識別方法相比,掌紋識別有很多獨特的優勢:信息容量高、唯一性好、適用人群廣、硬體成本低、界面友好、採集方便、用戶接受程度高、乾淨衛生。基於掌紋的身份認證首先是從刑偵領域得到應用,因為在犯罪現場30%的可用信息都是來自掌紋。但是司法公安領域的掌紋圖像主要是由專家人工比對,並且解析度要求比較高(一般在500dpi左右)。自動掌紋識別研究起步於上世紀末期,已有的掌紋識別方法根據特徵表達方法可大致分為三類:1)基於結構特徵的掌紋識別方法,早期的掌紋識別研究都是模仿指紋識別的特徵提取和匹配方法,提取掌紋圖像中的特徵線或者特徵點進行結構化的匹配。這種方法需要高解析度的掌紋圖像才能準確提取結構化特徵,特徵提取和匹配的速度較慢,對噪聲敏感,但是可用於大規模掌紋圖像庫的檢索或粗分類。2)基於表象分析的掌紋識別方法,這類方法將掌紋圖像的灰度值直接當成特徵向量,然後用子空間的方法來線性降維。例如基於PCA、LDA或者ICA的掌紋識別方法。這類方法可以快速識別低解析度的掌紋圖像,但是對可能存在的類內變化比較敏感,例如光照和對比度變化、校準誤差、形變、變換採集設備等。並且需要在大規模測試集上訓練得到最佳的投影基,推廣能力差。3)基於紋理分析的掌紋識別方法,直接將低解析度的掌紋圖像看成是紋理,豐富的紋理分析算法資源就可以充分利用。例如傅立葉變換、紋理能量、Gabor相位、能量和相位的融合算法、皺紋線的方向特徵等。這類方法大部分都是提取掌紋圖像局部區域的光照不變特徵,對噪聲幹擾的魯棒性強,分類能力和計算效率都很理想,是比較適合於掌紋識別的圖像表達方法。中科院自動化所將定序測量虹膜特徵表達方法推廣到掌紋識別,建立了掌紋圖像特徵表達的一般框架,統一了該領域識別性能最好的三種掌紋識別方法,並提出了新穎的十字架形微分濾波器來抽取掌紋圖像中的定序測量特徵,取得了比主流方法更快更準的識別效果。為了提高掌紋識別精度和活體檢測能力,香港理工大學提出三維掌紋圖像獲取與識別方法。
手指、手掌、手背的靜脈結構人各有異,通過近紅外透射式或者反射式成像形成靜脈紋路圖像。2000年日本醫學研究者Kono首次提出使用手指中的靜脈血管進行身份識別,之後模式識別科研人員提出了多種特徵表達模型:1)細節點特徵,例如分叉點和端點,尺度不變特徵變換;2)靜脈紋路特徵,例如平均曲率、最大曲率、線性跟蹤方法;3)子空間降維,例如主成分分析、流形學習、線性判別分析;4)局部二值碼,例如局部二值模式、局部差分模式、局部線性二值模式;5)深度神經網絡提取紋理特徵。由於安全性高,靜脈識別在金融領域得到成功應用。
行為生物特徵識別是通過個體後天形成的行為習慣如步態、筆跡、鍵盤敲擊等進行身份識別。行為生物特徵識別可用於持續性活體身份認證,例如金融、商業、政府、公安等應用領域。近些年也出現了一些新興的行為生物特徵模態,例如利用智慧型手機的劃屏行為、網絡社交媒體的統計行為特徵進行身份識別。
在行為生物特徵中,步態識別(gait recognition)是指通過分析人走路的姿態以識別身份的過程,它是唯一可遠距離識別且無需測試者配合的行為生物特徵。美國911 事件等恐怖事件以後,遠距離身份識別研究在視覺監控等領域引起了濃厚興趣。在銀行、軍事裝置、機場等重要敏感場合,有效準確地識別人、快速檢測威脅並且提供不同人員不同的進入權限級別非常重要。最早的步態用於身份識別的研究是上世紀90年代來自英國南安普頓大學的Mark Nixon教授團隊。2000年,美國DARPA啟動了HID(human identification at a distance)計劃,旨在解決遠距離虹膜、人臉和步態識別研究,麻省理工、喬治亞理工、南安普頓、馬裡蘭、中佛等多家高校參與了該項目的研發工作。
為了發揮步態的遠距離識別優勢,需要同時解決行人分割和跨視角步態識別兩大難題。早期的研究都是基於固定攝像機的假設下、使用計算機視覺中的背景建模與運動檢測等技術來解決人體檢測和分割問題,但是精度和效率一般。針對高精度快速人形分割這一困擾業界多年的難題,中科院自動化研究所自2013年起提出了一系列解決方法,其中代表性的創新方法是基於上下文的多尺度人形分割網絡,通過採用多個尺度的圖像作為輸入,來訓練卷積神經網絡預測圖像的中心點,能夠有效克服不同背景、衣服各異、姿態變化、不同尺度等影響。
在過去的20多年裡,一系列經典的步態識別算法相繼提出用以解決步態識別問題,包括基於特徵表達的方法,以及基於模型和相似度或度量學習的方法。在這些方法中,大多數研究是設計用於步態識別的特徵表達。基於特徵的步態識別方法通常從步態剪影中提取得到,通過處理一個剪影序列(通常為一個步態周期)可以生成特定的步態模板。常見的步態特徵模板包括GEI(Gait Energy Image),GEnI(Gait Entropy Image), GFI(Gait Flow Image)以及 CGI(Chrono Gait Image)等。
隨著深度學習在計算機視覺領域的成功應用,許多數據驅動的方法逐漸被引入到步態識別之中,通常可以學習到更好的特徵表達。DeepCNN提出採用一種基於深度卷積神經網絡CNN的框架學習成對的GEI之間的相似度,從而實現跨視角步態識別,取得了當前最好的識別準確率,在CASIA-B步態數據集上實現了94%的跨視角識別準確率。近些年復旦大學嘗試將步態剪影序列看做一個圖像集(GaitSet)並從中直接學習步態表達,而不再使用步態能量圖GEI,在多個公開的跨視角步態數據集上取得了當前最優的性能。這種方法的優勢在於其可以充分利用CNN的強大學習能力,將整個步態序列的每一幀圖像都作為訓練樣本。另外,該方法也避免了生成GEI方法通常中會損失部分信息的局限,可以通過遍歷整個步態序列學習不同步態圖像之間的差異。這種思路取得的性能證明了通過小片段序列學習步態特徵的可行性。
在產業化推動方面,步態識別領域進展迅速。中科院自動化所率先建成了全球最大的戶外步態資料庫,採集了1014個行人的76萬段步態序列,其數據量是此前最大資料庫規模的100倍。2016年,由中科院自動化研究所孵化的第一家步態識別商業化公司——銀河水滴科技公司成立。該公司擁有行業領先的步態識別技術以及超大型步態資料庫,在「遠距離步態識別系統研究與應用」方面曾獲北京市科技技術二等獎,其研發的「水滴神鑑」人臉步態智能檢索一體機可以通過步態識別技術迅速鎖定目標人員,提高破案效率以及公共安全的智能化水平。2017年9月,步態識別技術亮相CCTV 1「機智過人」節目,獲得CCTV人工智慧年度盛典機智先鋒團隊稱號,產生顯著的社會效益和影響。2019年,水滴科技憑藉遠距離步態識別技術在世界人工智慧大會上榮獲最高獎(卓越人工智慧引領者獎)。步態識別技術已經成功應用於智能家居、智慧機器人、視覺監控等領域。
筆跡鑑別由於具有易採集性、非侵犯性和接受程度高的優點,在金融、司法、電子商務、智能終端有應用需求,上世紀70年代以來開展了大量研究。筆跡鑑別的對象是手寫文檔或籤名(針對籤名的筆跡鑑別又稱為籤名認證), 數據採集形式可以是聯機(用手寫版或數碼筆記錄書寫時的筆劃軌跡)或者脫機(對寫在紙上的筆跡掃描或拍照獲得圖像)。文檔筆跡鑑別方法又分為文本無關方法或文本相關方法,前者對任意內容的文本提取書寫風格特徵,後者從指定內容(不同人書寫的相同文本)提取特徵。文本相關方法的精度更高但依賴於文本內容或需要字符分割選出特定字進行分析。籤名認證一般是把一個手寫籤名與指定身份書寫人的參考籤名(身份註冊時留下的籤名樣本)比較判斷是否為同一人所寫(為真實籤名或偽造籤名),偽造籤名的判別是一個難點。文檔筆跡鑑別和籤名驗證研究中提出了很多特徵提取方法,如基於紋理分析、全局形狀分析和局部形狀分析的特徵,字符識別中常用的特徵(如輪廓或梯度方向直方圖)也常用於筆跡鑑別。近年來,深度卷積神經網絡(CNN)也越來越多地用於筆跡鑑別的特徵提取。對籤名驗證,常用孿生卷積神經網絡(Siamese CNN)對兩幅籤名圖象同時提取特徵並計算相似度,特徵與相似度參數可端到端訓練。跟傳統方法相比,深度神經網絡也明顯提高了文檔筆跡鑑別和籤名認證的精度。
聲紋識別,又稱說話人識別,是根據語音信號中能夠表徵說話人個性信息的聲紋特徵,利用計算機以及各種信息識別技術,自動地實現說話人身份識別的一種生物特徵識別技術。聲紋是一種行為特徵,由於每個人先天的發聲器官(如舌頭、牙齒、口腔、聲帶、肺、鼻腔等)在尺寸和形態方面存在差異,再加之年齡、性格、語言習慣等各種後天因素的影響,可以說每個說話人的聲紋是獨一無二的,並可以在相對長的時間裡保持相對穩定不變。
從發音文本的範疇,聲紋識別可分為文本無關、文本相關和文本提示三類。文本相關的 聲紋識別的文本內容匹配性明顯優於文本無關的聲紋識別,所以一般來說其系統性能也會相對好很多。但是,文本相關對聲紋預留和識別時的語音錄製有著更為嚴格的限制,並且相對單一的識別文本更容易被竊取。相比於文本相關,文本無關的聲紋識別使用起來更加方便靈活,具有更好的體驗性和推廣性。為此,綜合二者的優點,文本提示型的聲紋識別應運而生。對文本提示而言,系統從聲紋的訓練文本庫中隨機地抽取組合若干詞彙,作為用戶的發音提示。這樣不僅降低了文本相關所存在的系統闖入風險,提高了系統的安全性,而且實現起來也相對簡單。
在20世紀40年代,Bell實驗室的L.G.Kersta等人藉助肉眼觀察語譜圖發現不同人的發音在語譜圖中具有差異性,提出通過觀察語譜圖實現說話人識別。根據語譜圖上的共振峰紋路,首次提出了「聲紋」的概念。1966年,隨著計算機技術的不斷進步,聲紋識別逐步由單純的人耳聽講,轉向基於計算機的自動識別。早期的聲紋識別主要採用有效的聲學特徵參數和模式匹配的方法,匹配往往通過特徵矢量之間的距離測度來實現,累計距離為匹配結果。到20世紀70年代至80年代,動態時間規整、矢量量化和隱馬爾科夫模型技術的出現極大地促進了語音識別性能的提升。2000年前後,聲紋識別技術迎來第一個關鍵的發展節點,D. Reynolds等人提出的通過大量背景數據訓練通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM/UBM)的方法,對所有說話人的整體發音特性進行統一建模。進入21世紀後,在傳統高斯混合模型-通用背景模型的方法上,P.Kenny、N. Dehak等人先後提出了聯合因子分析技術(jiont factor analysis,JFA)和擾動屬性幹擾算法,使得聲紋識別在複雜背景條件下也能取得較好的效果。由JFA建模思想得到啟示,提出基於總體變化因子向量(identity vector,i-vector)的說話人建模方法,這也是該研究領域的經典技術之一。後來研究人員為了解決信道失配問題,在i-vector基礎上引入有類內協方差歸一化(Within-Class Covariance Normalization, WCCN)、概率線性鑑別分析(Probability Linear Discriminant Analysis, PLDA)等區分技術。2012年以來,基於深度網絡的特徵學習方法,利用複雜非線性結構賦予的特徵提取能力,能自動對輸入的語音信號進行特徵分析,提取出更高層、更抽象的說話人聲紋表徵,如d-vector、x-vector等。相對於傳統的 i-vector 生成過程,基於深度學習的說話人識別方法優勢主要體現在區分性訓練和利用多層網絡結構對局部多幀聲學特徵的有效表示上。d-vector是基於深度神經網絡(deep neural networks,DNN)框架下的說話人識別系統,通過訓練說話人標籤的DNN模型,提取測試說話人語音的瓶頸特徵,對瓶頸特徵進行累加求均值,得到語音的d-vector。第二個關鍵發展節點是D. Snyder等人提出x-vector方法,該模型突破GMM-UBM模型的結構上的缺陷,直接將說話人的標籤作為時延神經網絡(time delay neural networks,TDNN)的輸出,並能比較好的充分利用更多的訓練數據提升模型的識別效果。由於語音經過TDNN時延網絡,可以從輸出層得到關於輸入語音幀的長時特徵,因此x-vector在短時說話人識別中能夠達到更高的準確率。2016年,Google的Heigold等人提出了端到端聲紋識別系統,端到端的網絡包含兩部分:預先訓練好的特徵提取網絡和用於決策打分的判決網絡,輸入為不同說話人的語音信號,輸出即為說話人識別結果,之後如注意力機制、自適應方法等在端到端系統中的應用進一步提高了系統的性能。
聲紋識別術在實際生活中有著廣泛的應用,可以分為聲紋確認、聲紋辨認、聲紋識別和聲紋追蹤,在軍事、國防領域,有力保障了國家和公共安全;在金融領域上,通過動態聲紋密碼的方式進行客戶端身份認證,可有效提高個人資金和交易支付的安全;在個性化語音交互中,有效提高了工作效率;除此之外,還在教育、娛樂、可穿戴設備等不同方面取得了不錯的效果。
聲紋識別的廣泛應用與其技術的發展進步是息息相關的。在實際應用中,聲紋識別還面臨著以下挑戰:魯棒性挑戰、防攻擊挑戰、超短語音挑戰等。如何解決這些挑戰是未來的發展方向。
隨著數位化時代的不斷發展,人們的生活中充滿了大量的數位化影像,比如日常拍攝的照片以及錄製的視頻,還有各類網際網路娛樂應用的圖像與視頻內容。然而隨著圖像與視頻合成技術的不斷進步,曾經「眼見為實」的斷言到如今也已失效,圖像與視頻合成技術就是能夠按照需求生成對應的圖像與視頻的技術,比如根據描述生成一幅圖像,根據肖像畫生成一個人的照片等。對於圖像和視頻的合成,可以是對既有畫面的編輯和修改,也可以是合成全新的完全不存在於現實的景象。對於具體的單幅圖像合成和視頻的合成也有技術實現上的區別,下面對其發展進行介紹。
在計算機視覺領域中,圖像合成是一個重要研究方向。在深度學習技術興起之前,機器學習技術主要聚焦於判別類問題,圖像的合成主要通過疊加與融合圖像等方式進行。而隨著深度學習技術的迅速發展以及計算硬體性能的快速提升,生成式模型得到了更為廣泛和深入的研究。變分自編碼機(VAE)就是一類有效的方法,能夠穩定的合成圖像,但是其合成的圖像一般較為模糊,缺少細節。而2014年Ian Goodfellow提出了Generative Adversarial Network(GAN),為圖像與視頻的合成帶來了令人驚豔的技術,其合成的圖像逼真自然且擁有銳利的細節,對後續圖像與視頻合成的研究產生了深遠影響。自此之後,圖像和視頻合成領域產生了大量基於GAN的生成模型的改進方法,從不同角度改良其生成過程的不足。同時隨著近年來計算技術的發展和計算資源的性能提升,不論是單幀圖像的合成還是視頻的合成,都達到了高解析度、高逼真度的效果。
由於早期的生成式模型研究受限於計算資源以及算法能力,大多聚焦於簡單離散數據的生成研究,所以這裡主要介紹近些年來基於深度生成模型的圖像及視頻合成方面的研究進展。早期的圖像視頻合成主要依託字典學習和馬爾科夫方法,利用學習好的基圖像進行合成和推理。目前主流的圖像視頻合成類方法主要有四大類,第一類方法是GAN,目前最火熱也是被研究最多的一類方法,有多種變體,其代表性的方法如CycleGAN,PGGAN,BigGAN等。第二類方法是VAE,其具有代表性的方法主要有Intro-VAE,BetaVAE,InfoVAE等。另外兩類方法相比於前兩類收到的關注度較小,分別是流模型與自回歸模型,其具有代表性的成果如Glow及PixelCNN,PixelRNN等。此外,基於深度學習的壓縮感知在採樣規模和信號重建角度研究了圖像和視頻數據的重構問題。
文字圖像的合成由於其問題的挑戰性(特別是手寫文字的合成)和蘊藏的巨大商業價值,近年來一直吸引了很多的研究者。文字圖像的合成雖然也可以採用常用的場景圖像合成技術,但是由於文字的特殊結構性,因此,圍繞文字圖像的合成也產生了一系列的研究成果。主流的方法可以分為三大類,第一類是基於模板的方法,主要是將文字表示為筆畫或者部首的層次化模板,然後在先驗知識的引導下生成不同風格的文字,這類方法思路直觀,但對合成複雜結構的文字效果欠佳。第二類方法是基於GAN的方法,這類方法主要是借鑑了基於GAN的各種變體的場景圖像的合成技術來完成文字圖像的合成。這類方法相對於模板的方法雖然取得了巨大的進步,但是這類模型常常會不可控地生成無意義的,或者模糊不清的文字。第三類方法是基於RNN的方法,這類方法將文字的書寫過程引入文字的生成過程,在在線樣本(含有筆順信息)的幫助下,採用RNN模擬文字的一筆一划的書寫過程來合成文字。相對前兩類方法,第三類方法不僅能夠生成風格更加多樣,而且也能生成更加逼真的文字圖像。但是這類方法也需要大量的訓練樣本來完成RNN書寫模型的訓練。
圖像與視頻的合成在計算機視覺領域中有著重要地位,其成果帶動了相關領域的研究和應用。如GAN在語音合成、文本生成、音樂生成等領域的應用,使其效果產生了質的飛躍。而圖像與視頻合成在當今社會及商業中也應用廣泛,在娛樂方面有著各類美妝類、變臉類應用,而在安防領域有著異質圖像合成、肖像自然圖像合成等重要應用。在未來,對於圖像與視頻合成的深入研究將在更為廣泛的領域產生更加深遠的影響。
遙感圖像處理旨在通過對遙感圖像的分析來獲得有關場景、目標的特徵及規律。遙感圖像處理既指從遙感圖像獲取特徵或規律的技術或手段,也指獲取特徵或規律後的應用目的。遙感圖像處理所獲取的特徵主要包括時間特徵、空間特徵、語義特徵,所獲取的規律主要包含地物真實特徵與圖像特徵的對應關係及從圖像獲得的場景、目標與周圍環境或時間的演變或變化規律。
在遙感圖像處理中,特徵提取是開展基於模式識別技術研發與應用的基礎,主要包含時間特徵、空間特徵和語義特徵提取。空間特徵描述地物或目標與近鄰位置的空間相似關係,常用的空間特徵包括局部自相似特徵、分形、紋理等,主要通過顏色與形狀分析和圖像分割等手段來實現。時間特徵描述多時相圖像關於場景、目標的時間變化特性,主要通過變化檢測手段來實現。語義特徵描述遙感圖像場景及地物目標的屬性、類型或相關概念,主要通過模式分類等手段來實現。規律是利用多源、多時相等多種遙感圖像並在輔助數據、專家知識的基礎上形成的在更長時間、更大空間上關於某種地物、目標的成像規律或時空演變規律。圍繞空間特徵和時間特徵提取,遙感圖像處理主要進展集中體現在遙感圖像融合、遙感圖像解譯、變化檢測、高光譜解混、高光譜分類等幾個方面。
遙感圖像融合的基本任務是針對同一場景並具有互補信息的多幅遙感數據或其它觀測數據,通過對它們的綜合處理、分析與決策手段,獲取更高質量數據、更優化特徵、更可靠知識的技術和框架系統。根據遙感數據獲取來源,可分為多源與多時相遙感圖像數據融合的方法。多源遙感圖像融合通過將多個傳感器和信息源的數據進行聯合、相關、組合,以獲取目標更精確、更全面的信息,根據圖像融合的層次,又可分為像素級、特徵級、決策級融合。多時相遙感圖像融合主要包括基於預處理、基於分類、基於變化檢測、基於信息提取、基於環境應用等多時相數據融合方法。
遙感圖像解譯的基本任務是對遙感圖像中各種待識別目標的特徵信息進行分析、推理與判斷,最終達到識別目標或現象的目的。目標識別、檢測、分割是實現遙感圖像解譯的基礎。在方法上,這些任務大多被描述為一個模式分類問題,主要採用決策樹、支持向量機、人工神經網絡、線性判別分析和最近鄰分類器、聚類等方法來實現。目前,深度學習方法已成為遙感圖像解釋的主流方法,在目標識別、檢測、語義分割中取得較優的性能。在深度學習框架下,主要針對兩階段Faster-RCNN、FPN、Cascade R-CNN,以及一階段的網絡YOLO系列、SSD、RetinaNet、RefineDet等進行適應性改進。特別地,針對遙感圖像,近些年R3Net、YOLT等網絡結構在遙感圖像目標檢測中展現了較好的性能,主要包含城市目標檢測、艦船檢測、飛機檢測、海面/陸地檢測與分離、雲/雪檢測、特定目標檢測。在遙感圖像語義分割方面,主要基於FCN、SegNet、DeepLab和SharpMask等深層神經網絡進行改進,通過重訓練網絡使之適應遙感圖像數據和任務,主要包含城市道路分割、城市典型目標分割、感興趣農作物分割、水域分割、雲/雪分割等。
變化檢測的基本任務是利用不同時間獲取的覆蓋同一地表區域的遙感圖像來確定和分析地表變化。根據變化分析的層次,變化檢測方法可分為像素級變化檢測、特徵級變化檢測以及對象級變化檢測。當前,變化檢測的進展集中體現在深度學習方面,主要包含基於卷積神經網絡、深度置信網絡和自編碼器的變化檢測方法,基於非受限玻爾茲曼機的SAR圖像變化檢測、棧式噪聲自編碼器與棧式映射網絡變化檢測、深度映射變化檢測、深度聚類變化檢測等。
高光譜解混的基本任務是估計高光譜圖像中地物目標端元(如「樹」、「水」等純物質)及其像素級豐度的技術。根據所使用的解混模型,高光譜解混可分為基於幾何的方法和基於統計的方法。由於非負矩陣分解(Nonnegative Matrix Factorization,NMF)存在解空間大,只能收斂到次優局部極值點等缺陷,一些基於NMF的擴展方法也被相繼提出,如非光滑NMF、最小體積限制 NMF、結構稀疏NMF、端元相異性約束NMF等方法。近年來,基於神經網絡模型的解混方法也被相繼提出,包括多層感知器、自組織映射網絡、自適應共振理論映射模型、深度回歸網絡等。
高光譜圖像分類的基本任務是對高光譜圖像中的每個像素進行分門別類,以達到對地物、目標進行高精度分類和自動化識別的目的,是對地觀測的重要組成部分。然而,高光譜圖像的高維特性、波段間高度相關性、同物異譜、同譜異物、光譜混合等特點使得高光譜圖像分類面臨巨大挑戰。早期應用於高光譜圖像分類的機器學習方法有支持向量機、K-近鄰法、樸素貝葉斯、決策樹、基於稀疏表達的方法等。近年來,隨著深度學習新技術的出現,基於深度學習的高光譜圖像分類方法在方法和性能上取得了突破性進展,該類方法能夠通過訓練集來學習自動地獲得數據的高級特徵,使得分類模型能更好地表達數據集本身的特點,提高分類精度,主要包含基於3D-CNN的方法、基於空-譜殘差網絡的方法、基於深度金字塔殘差網絡的方法、基於生成式對抗網絡的方法等。
目前遙感數據處理已經廣泛應用於自然環境監測、國防安全、農林普查、礦物勘探、災害應急、交通運輸、通訊服務、規劃修編等一系列實際任務。
醫學影像分析(Medical Image Analysis)屬於多學科交叉的綜合研究領域,涉及醫學影像、數據建模、數字圖像處理與分析、人工智慧和數值算法等多個學科。醫學圖像中的模式識別問題,主要指將模式識別與圖像處理技術應用在醫學影像上,並結合臨床數據加以綜合分析,最終目的是找到與特定疾病相關的影像學生物指標,從而達到輔助醫生早期診斷,輔助治療和預後評估。醫學圖像分析主要包括醫學圖像分割、圖像配準、圖像融合、三維重建與可視化,腦功能與網絡分析、計算機輔助診斷等。下面主要介紹醫學圖像分割、配準融合以及計算機輔助診斷方面的重要進展。
醫學圖像分割:醫學圖像分割是醫學圖像分析中典型的任務,是醫學圖像分析的基礎,它本質上是像素級別的分類,即判斷圖片上每一個像素的所屬類別。一般的流程分為數據預處理、感興趣區域提取、分割、分割結果後處理等。傳統圖像分割方法包括閾值分割、區域增長、形變模型、水平集方法、多圖譜引導的分割方法等。隨著全卷積神經網絡(FCN) 和U-Net網絡等深度學習算法的提出,深度學習在醫學圖像分割領域的應用快速發展。FCN採用端到端的學習模式實現了輸出圖像區域分割,保證了對任意尺寸的圖像都能進行處理,但其在醫學圖像上得到的分割結果相對粗糙。U-Net網絡結構更適用於醫學圖像,並且針對小樣本的醫學圖像數據也取得了較好的分割結果,後續的改進模型引入了殘差結構和循環結構,並且與多尺度特徵融合、注意力機制等技術相結合,進一步提升了分割的效果。
醫學圖像配準和融合:在臨床應用中,單一模態的圖像往往不能提供醫生所需要的足夠信息,常需將多種模式或同一模式的多次成像通過配準融合來實現感興趣區的信息互補。醫學圖像的配準大部分情況下指對於在不同時間或不同條件下獲取的兩幅圖像,基於一個相似性測度尋求一種或一系列空間變換關係,使得兩幅待配準圖像間的相似性測度達到最大。醫學圖像配準包括被試個體內配準、被試組間配準、二維-三維配準等多個應用場景。醫學圖像配準的經典方法包括基於互信息的配準、自由形變模型配準、基於Demons的形變配準(DEMONS)、基於層次屬性的彈性配準(HAMMER)、大形變微分同胚度量映射(LDDMM)等。幾年來,基於深度學習的配準方法得到了領域內的重視,深度學習應用在配準上主要採取以下兩種策略,1)用深度神經網絡來預測兩幅圖像的相似度,2)直接用深度回歸網絡來預測形變參數。
計算機輔助診斷:結合計算機圖像處理技術以及其他可能的生理、生化手段,輔助發現病灶和特異性變化,提高診斷的準確率。其一般流程是對圖像進行預處理,然後通過手工特徵或者特徵學習方法對整張圖像進行全局掃描,然後訓練模型,判斷圖片中是否存在病變,並對疾病進行分類。隨著深度學習的發展,尤其是卷積神經網絡CNN的提出,Alexnet、VGG、Resnet等網絡在圖像分類領域取得了優異的結果,其思想是通過有監督或無監督的方式學習層次化的特徵表達,來對物體進行從底層到高層的特徵描述。如何設計網絡,提取圖片或者特定的區域的有效的特徵,提高分類精度是目前主要研究的問題。例如:DeepMind公司利用深度學習開發了一套眼睛OCT診斷系統,其準確度和世界一流專家相當。史丹福大學的研究者發布了一系列成功的研究案例,如診斷皮膚癌的算法,準確率高達91%,與人類醫生的表現相同;開發了一種新的深度學習算法,可基於單導程 ECG 信號分類 10 種心率不齊以及竇性心律和噪音,堪比心臟科醫生。國內自動化所研究團隊基於多中心大樣本的精神分裂症神經影像、多組學資料庫,利用了數據建模與機器學習技術,首次發現並從多方面驗證了紋狀體環路功能異常是精神分裂症精準診療的有效生物標記,該標記可以精準地從健康人群中篩查出精神分裂症患者,並預測患者未來的抗精神病藥物治療效果。另外,最近在形勢緊急的新冠疫情中,國內多家研究機構分別使用了多種深度網絡對數據進行分析,不僅能夠對肺部病灶進行快速分割,還可基於CT影像對新冠患者進行快速診斷。澳門科技大學醫學院聯合清華大學、中山大學等團隊合作研發了「面向新冠肺炎的全診療流程的智慧篩查、診斷與預測系統」,可以根據胸部的CT影像,對大量疑似病例進行快速篩查、輔助診斷和住院臨床分級預警,實現對COVID-19病人的全生命周期管理。這些成果進一步驗證了智能醫學影像計算在計算機輔助診斷中的應用潛力。
人類社會生活和網際網路上存在大量的文字和文檔圖像(把文字和文檔通過掃描或拍照變成圖像)。把圖像中的文字檢測識別出來,轉化為電子文本,是計算機文字處理和語言理解的需要。這個過程稱為文檔圖像識別,簡稱文檔識別或文字識別,或稱為光學字符識別(OCR)。廣義的文字識別是指從文檔圖像中定位並識別出其中的多種文字內容(文本、符號、公式、表格等);狹義的文字識別指單個文字(在版面簡單的文檔中容易分割出來)的識別。複雜版面和複雜背景文檔圖像中的圖文分割和文本定位也有大量的技術問題,將另外介紹。這裡主要介紹單個文字和文本行(或稱字符串)識別的進展。
文字識別作為模式識別領域的一個研究方向,是在電子計算機出現之後,在20世紀50年代以後發展起來的。早期文字識別的對象主要是印刷體數字和英文字母,方法以統計模式識別和特徵匹配為主。後來開始手寫數字、字母和印刷體漢字、手寫體漢字識別的研究,研究中形狀歸一化、特徵提取、分類器等技術受到高度重視。80-90年代也提出了一些結構分析方法,並且字符切分、字符串識別和版面分析受到重視。21世紀以來,文檔分析和識別的各個方面技術繼續發展,性能持續提高;尤其是近年來,網際網路大數據、GPU並行計算支撐深度學習(深度神經網絡)快速發展,文檔分析和識別中基於深度學習的方法帶來性能快速提升,全面超越傳統方法,甚至在手寫字符識別等方面的精度超過人類水平。
單字識別作為一個分類問題,其方法大致可分為三類:統計方法、結構方法、深度學習方法。統計方法中,對文字圖像歸一化、特徵提取、分類三個主要環節都提出了很多有效的方法。歸一化是將字符圖像變換到標準大小並校正字符形狀。形狀校正對手寫字符尤其重要,典型方法有非線性歸一化、偽二維歸一化(Pseudo-two-dimensional normalization)方法等。特徵提取方法最有代表性的是局部方向(包括筆劃輪廓方向、骨架方向、梯度方向)直方圖特徵,最早在20世紀70年代末提出,80年代在學術界發表。分類器分類設計方面,除了通用的統計分類器、最近鄰原型分類器(學習矢量量化)、多層神經網絡、支撐向量機等之外,文字識別領域提出了一些專門針對大類別集分類的改進型分類器,如修正二次判別函數(MQDF)、樹分類器等。結構方法中,對字符圖像骨架化(又稱細化)、筆劃提取、筆劃匹配(主要基於圖匹配思想)、部首分割和匹配等方面提出了很多方法,但是至今為止,結構匹配的識別精度還不高,且模型學習困難。以全連接多層感知器(MLP)、卷積神經網絡(CNN)等為代表的神經網絡模型在90年代起已經開始在文字識別領域得到成功應用,特別是在2013年以後,深度神經網絡(主要是深度卷積神經網絡CNN)逐漸佔據主導地位,通過大數據訓練對特徵提取和分類器聯合學習明顯提高了識別精度,目前性能已全面超越傳統方法。對於過去認為很難的大類別集(常用字5000類以上)手寫漢字識別問題,正確率已可達到97%以上。目前,在訓練數據充足的情況下,單字識別問題基本上已得到了很好解決,不再是一個重要的學術問題。
文本行識別比單字識別更有實用價值。由於字符形狀、大小、位置、間隔不規則,字符在識別之前難以準確切分,因此字符切分和識別必須同時進行,這也就是文本行識別的過程。上世紀80年代,對日文手寫字符串識別、英文詞識別、手寫數字識別等問題提出了基於過切分和候選切分-識別網格的方法。這種方法至今在中文手寫文本行識別中仍具有優勢,結合深度學習分類器(主要是CNN),可以得到優異的識別性能。上世紀90年代,基於隱馬爾科夫模型(HMM)的方法在英文手寫詞識別中開始流行。這種方法的好處是可以在詞標註(無需給出每個字的位置)的樣本集上進行弱監督學習。後來(2006年之後),基於長短時記憶(LSTM)遞歸神經網絡 (RNN)和連結時序分類(CTC)解碼的RNN+CTC模型在英文和阿拉伯文手寫識別中性能超越HMM,逐漸成為手寫詞識別和文本行識別的主導方法。此外,受到機器翻譯及自然語言處理領域中提出的注意力(Attention)序列解碼機制的啟發,注意力模型也被廣泛應用到文本行識別領域之中。近年來,結合CNN(用於圖像特徵學習)的RNN+CTC模型及RNN+Attention模型用於場景文本識別和手寫文本識別都取得了領先的性能。基於滑動窗CNN分類的方法(包括CNN+CTC、CNN+Attention)在多語言(包括中文)文本行識別中都比較有效。
文字識別方法研究是模式識別領域的重要部分,一些成果啟發了模式分類和計算機視覺等方向的研究,比如文字識別領域在20世紀80年代提出的梯度方向直方圖特徵在2000年以後被廣泛用於計算機視覺領域,改名叫HOG。文字識別技術已在很多社會和商業領域取得成功應用。傳統應用場景包括印刷文檔數位化、古籍(歷史文檔)數位化、郵政分揀、票據識別、車牌識別、卡證識別、聯機手寫文字識別(主要是單字識別)等。過去脫機手寫字符識別的成功應用不多,近年來,手寫文本識別技術開始進入實用。各種票據的識別開始推廣,除了掃描圖像,拍照文檔(包括票據、卡證等)越來越多。手寫作業及試卷手寫文字識別、法律文檔和檔案識別開始推廣。相關方法的研究還在繼續,以不斷提高應用系統的性能。研究方向主要包括:小樣本學習、輸出置信度和可解釋性、多語言文本識別、交互式文本識別。
文檔圖像識別中,文檔圖像的處理和分割非常關鍵,因為文字和文本行被識別之前,先要在文檔中定位並被分割出來。對文檔圖像中的文本和圖形(插圖、表格、公式、籤名、印章等)區域進行分割並分析不同區域之間的關係,是版面分析的主要任務。幾何版面分析是對圖文區域進行定位和分割;邏輯版面分析則還要標出不同區域之間的邏輯或語義關係(如閱讀順序)。版面分析的技術挑戰主要來自三個方面:低質圖像、複雜版面、複雜背景。上世紀80年代以來,對文檔圖像預處理、版面分割、複雜背景圖像文本檢測方面提出了很多有效的方法,取得了巨大進展,從而推動了文字和文檔識別技術的成功應用。
圖像預處理方面的技術包括二值化(文本與背景分離)、圖像增強、旋轉校正、畸變校正等。早期提出的Otsu二值化方法至今仍被廣泛使用。對於噪聲圖像的二值化,提出了很多從簡單到複雜的方法,如局部二值化及系列擴展,用馬爾科夫隨機場、條件隨機場、深度神經網絡(如全卷積網絡)直接對象素進行分類,等等。為了校正旋轉的文檔圖像,對旋轉方向估計提出了投影分析、Hough變換、紋理分析等方法。手持相機拍照文檔圖像的畸變、光照不均等問題比較突出,對這些畸變和光照的校正提出了一系列基於幾何分析(如三維幾何)和圖像變換矯正方法。
版面分析方法可分為三類:自上而下、自下而上和混合方法。自上而下的方法把圖像從大到小進行劃分,直到每個區域對應某一類對象(如文本、圖形)。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法從圖像基本單元(像素、連通成分)從小到大聚合為文本行和區域,對圖像旋轉、變形、不規則區域等具有更強的適應能力。比如手寫文檔中,手寫文本行有傾斜、彎曲,行之間挨得近,用投影法就很難分開,需用自下而上的聚類方法進行分割。經典的自下而上方法如Smearing、DocStrum(文檔譜)、Voronoi圖、紋理分析、聚類方法等。用條件隨機場對連通成分進行分類,可以分割複雜版面的文檔,除了圖文區域分割,還可區分印刷和手寫文字。對於比較複雜的圖像,比如複雜背景或噪聲嚴重幹擾的圖像,很難用傳統二值化去掉背景,近年來提出了基於圖模型(例如條件隨機場、圖卷積)進行版面分析及理解、基於全卷積神經網絡通過像素分類來區分背景和前景、分割文本、圖形等區域的新方法。混合方法結合自下而上和自上而下的方法,如在自下而上聚合過程中引入先驗知識和規則、對聚合結果進行後處理等。可以看出,最近提出的圖模型和全卷積神經網絡方法具有很強的從數據學習的能力,因而適應不同風格的文檔產生更好的分割性能。
場景文本檢測可以看成一個特殊的版面分析問題,由於其技術挑戰性和巨大的應用需求,最近10年成為研究熱點,取得了很大進展。相關方法也可分為自下而上和自上而下、以及自上而下和自下而上相結合的方法。自下而上的方法基於文字或連通成分檢測,然後聚合成文本行,典型的如SegLink。自上而下的方法用類似物體檢測(Object Detection)直接回歸文本行位置,給出文本行的邊界框,典型方法如EAST等。但針對任意方向文本行和長寬比,需要設計特殊的模型和學習方法,如直接回歸方法。最近對形狀彎曲的所謂任意形狀文本檢測吸引了很多研究,典型的方法如TextSnake、自適應區域表示等。在場景文本檢測基礎上,文本行(或詞)識別方法與普通印刷或手寫文本行識別類似。也有些方法(如CRNN+CTC)是首先在場景文本識別中提出來的。端到端的場景文本檢測與識別是目前的研究熱點之一。
文檔版面分析技術的發展推動了文檔識別技術的成功應用。隨著數位相機和智慧型手機的普及,拍照文檔越來越多,文檔類型、圖像質量多樣化,對版面分析技術的要求越來越高。近年來,各類拍照文檔(書籍、檔案、文書、票據、卡片、證件、場景文本)的自動處理和識別逐漸開始實用,這得益於版面分析技術和文本識別技術的巨大進步。但是,任意複雜結構、低質圖像文檔的版面分割與理解及內容識別仍是有待解決的問題。
隨著網絡通信、數字電子設備、計算機技術的快速進步,信息社會已進入多媒體大數據時代。由於多媒體數據的固有屬性是異構及多模態性,因此使用傳統方法處理這些複雜數據是不可行的。多媒體數據分析旨在解決多媒體數據的操縱、管理、挖掘、理解的問題,同時以高效的方式對不同模態的異構數據進行智能感知,從而服務於實際應用。目前,多媒體數據的主要存在形式之一是社會多媒體。作為新一代信息資源,社會多媒體數據除傳統的文字信息外,還包含了具有表現力強、蘊含信息量大、形象生動等特點的圖像、音頻和視頻等媒體。這些不同的媒體數據在形式上多源異構,語義上相互關聯。
多媒體數據分析技術主要包括多模態表示學習,模態間映射、對齊、融合和協同學習等。其中,多模態表示學習的主要目標是將多模態數據所蘊含的語義信息數值化為實值向量。其主要研究進展包括多模態哈希編碼、多模態字典學習、多模態稀疏表達、基於深度學習的視覺-語義嵌入及大規模多模態數據表示學習等。模態間映射主要研究如何將某一特定模態數據中的信息映射至另一模態。其主要進展包括基於注意力機制和上下文關係建模的圖像與視頻標註方法。Liu等人提出了VisualBERT,其藉助自注意力機制把一段輸入文本中的元素和一張相關的輸入圖像中的區域映射到語義空間內並隱式地關聯起來。對齊主要研究如何識別不同模態間部件、元素的對應關係。主要進展是使用嵌入子空間的特徵方法以增強模態內數據的相關性和語義相關數據的關聯。融合主要研究如何整合不同模態間模型與特徵。主要進展是基於條件隨機場、主題模型、多視角學習和弱監督方式的融合方法。協同學習主要研究如何將富集的模態上學習的知識遷移到信息匱乏的模態,使各個模態的學習互相輔助。主要進展是跨模態知識遷移網絡方法。Huang等人提出了一種跨模態知識遷移網絡,將跨模態數據轉換為共同表示用於檢索,其中模態共享遷移子網絡利用源域和目標域的模式作為橋梁,將知識同時遷移到兩種模態。社會多媒體計算作為多媒體數據分析的主要應用點之一,其通常以用戶為中心進行建模。主要研究進展包括基於排序的多關聯因子分析模型、基於關聯隱SVM模型的用戶屬性的協同推斷、多模態的主題敏感的影響分析方法、基於協同過濾的內容推薦算法等。Chen等人提出了注意力機制協同過濾內容推薦算法,通過設計元件級的注意力模塊來從多媒體實例中提取富信息的元件,設計物品級的注意力模塊來為不同的物品進行偏好打分,從而顯著提升了當前最先進的協同過濾推薦算法。
多媒體數據分析是一個充滿活力的多學科交叉領域,具有廣泛的影響。多媒體數據分析是實現跨媒體智能的重要手段,進而可以高效應對現實世界中對象複雜性、數據規模化、應用需求多樣化等挑戰。多媒體數據分析的應用包含有多媒體數據的聚類、索引和內容摘要等方向。例如,多媒體數據的內容摘要不同於傳統的在單模態上的內容摘要方法,需要融合豐富的多媒體數據。此外,多模態無監督深度表徵學習也是最近的研究熱點,其訓練不依賴任何標籤,通過對多模態數據內在特徵的挖掘,找到其間的關係從而學習到高效的特徵表示。目前在一些任務上多模態無監督深度表徵學習已經接近了有監督訓練的性能。在社會多媒體計算方面,社會多媒體內容理解可以通過對多媒體數據進行語義分析和關聯建模以實現對社會事件的分析、檢測、關聯、預測及決策。其主要應用領域包括內容監測、態勢分析、智能醫療、智慧城市等。
所謂「模態」,英文是modality,每一種信息的來源或者形式,都可以稱為一種模態。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等。多模態信息之間具有互補和增強作用,這與大腦通過多種來源的信息感知外在事物是一致的,不同感官會被無意識地自動結合在一起對信息進行處理,任何感官信息的缺乏或不準確,都將導致大腦對外界信息的理解產生偏差。情感是人類智能的重要組成部分,情感計算的目的是通過賦予計算機識別、理解、表達和適應人的情感的能力來建立和諧人機環境,並使計算機具有更高的、全面的智能。多模態情感計算是指融合多種模態信息包括但不限於音頻、視頻、文本和生理信號等模態進行情感識別、解釋、處理和模擬,促進和諧的人機互動。
有關情感計算的論述可以追述到二十世紀末的James Russell。1970年,人工智慧創始人之一,計算機圖靈獎獲得者,美國麻省理工學院的Minsky教授在《腦智社會》專著中就情感的重要性專門指出「問題不在於智能機器能否有情感,而在於沒有情感的機器能否實現智能」。1997年,MIT的Rosalind Picard在她的專著中首次提出「情感計算」的概念。之後,情感計算引入機器學習方法進行分析,將情感分類分為不同的情感類別進行識別,並且從不同的情感維度(愉悅度和激活度)上表示情感的正負向性和情感程度來量化情感,從而將情感分析建模為一個模式識別問題。因此,不同的機器學習方法都被應用到了情感計算中,如傳統的支持向量機、隨機森林、隱馬爾科夫模型以及基於事件評價的情感模型等等。近來,隨著深度學習的廣泛應用,深度神經網絡也被成功地應用到了情感計算中。由於情感的時序特性,遞歸神經網絡能夠取得相較於其他網絡更好的效果。
人類具備多種情感表達方式,並且不同表現方式在表達情感信息時存在一定的互補作用。因此,相比於單模態情感識別,多模態情感識別更加完整,更加符合人類自然的行為表達方式。多模態情感分析的難點在於如何有效融合多模態信息,利用模態間的互補性,提升情感分析的能力。1997 年,Duc 等人最先提出「多模態」(Multi-modal)的概念。Pradeep 總結了多模態情感融合的三種基本模式,包括特徵層融合、決策層融合和模型層融合。特徵層融合在前期融合不同模態的特徵,簡單有效但忽略了不同模態特徵之間的差異性,同時該融合策略很難表示不同模態之間的時間同步性,並且融合後特徵維度太大,容易造成信息冗餘甚至引發「維數災難」;決策層融合在後期綜合不同模態的預測,考慮到了不同模態特徵的差異性,但決策層融合沒有考慮到情感特徵之間的聯繫,不能充分利用不同模態特徵所蘊含的類別信息,忽略了不同模態信息的本質相關性;模型層融合依據於不同模型的內在結構進行建模,並且利用深度學習方法獲得了更好的效果,是目前研究的熱點。模型層融合的另一種思路是多模態特徵學習,利用深度學習網絡提取不同模態信息中的情感共性部分而去除幹擾部分,學習各個模態(如音頻、視頻和文本)之間的交互信息,得到魯棒的多模態情感特徵表徵。這方面的研究是多模態情感分析的熱點,吸引了許多研究。如Zadeh 提出Tensor融合,將不同模態編碼到高層表徵然後兩兩模態之間內積拼接得到最終的多模態表徵。
基於多模態融合的情感計算受到學術界和工業界的廣泛關注。1998年,美國伊利諾伊大學和日本 ART 研究院的研究工作者 Chen,Huang和Miyasato等人共同提出了基於表情和語音的雙模態情感識別框架。2006年,雪梨科技大學的研究工作者Gunes和Piccard等人建立了基於表情和姿態的情感資料庫,並在該資料庫上進行融合表情和姿態的情感識別實驗。2010年,東南大學的研究工作者Huang和Jin等人考慮到腦電信號可以充分反映人的生理和心理變化,提出了採用特徵融合和決策融合算法實現語音信號和腦電信號的多模態情感識別。2015年,注意力機制首次被引入到多模態情感識別領域,該機制能夠考慮到不同模態對於情感計算的差異貢獻性,並且學習在不同時刻動態地改變各個模態的權重。
多模態情感計算能夠極大地增加情感分析的準確性,強化人機互動的自然度、類人度以及溫度。針對多模態情感計算的研究,能夠同時促進模態信息融合、以認知科學為基礎的視聽覺計算等相關領域的研究。同時,多模態情感計算在智能客服、疲勞監測、智能教育、智能醫療等領域有著廣泛地應用。例如,利用多模態情感計算技術,能夠判斷人的情感變化和心理壓力的變化,來偵測人們的一些行為或會話過程中,可能出現的一些心理和精神的異常點,為醫生做診斷提供輔助。
以圖像為代表的視覺大數據作為客觀信息記錄的重要載體,在日常生活中被廣泛應用,然而隨著圖像視頻編輯技術、特別是深度生成對抗和偽造技術等的快速發展,圖像視頻極易成為被惡意篡改偽造的對象,在網際網路和智慧型手機上廣泛且快速傳播,對網絡安全和媒體公信力造成巨大威脅。在眼見不為實的背景下,視覺取證技術應運而生,其目的是有效鑑別圖像視頻數據的真實性、追溯可疑圖像視頻來源。不同於主動式的圖像水印、數字籤名技術,圖像視頻取證技術採用被動方式,僅從數據本身抽取可用線索,最終辨別圖像視頻的真實性。
雖然圖像篡改偽造問題早在19世紀照相機發明不久之後就已出現,作為一個科學問題被廣泛研究的圖像視頻取證起源於2000年,是一個相對較新的研究領域。早期的圖像取證方法受自然圖像統計模型的啟發,關注篡改圖像或計算機合成圖像不同於真實圖像的統計特徵。由於假圖像與真圖像在視覺上很難區分,研究者多從高頻噪聲層面設計手工特徵,如噪聲的高階矩特徵、小波域特徵、馬爾科夫轉移矩陣特徵、鄰域像素共生矩陣特徵等。該研究思路下取證問題與圖像隱寫分析問題非常相似,這些手工特徵的設計很多借鑑自發展較為成熟的圖像隱寫分析領域。隨著研究深入,用於圖像視頻取證的特徵維度越來越高,同時分類器也經由了簡單線性分類器發展到核分類器、集成分類器再到近年來流行的深度學習網絡。
與基於統計模型的取證研究同時發展的另一種取證方法是多線索取證。此類方法通過發掘各成像環節中成像模型與成像規律被篡改行為破壞的線索來揭示篡改。各種類型的多線索取證方法共同構成有效的取證工具集,主要包括相機模式噪聲取證、Color Filter Array (彩色過濾器陣列,簡稱CFA)插值算法取證、JPEG壓縮規律取證、場景光照一致性取證、場景幾何約束取證、、圖像操作取證等。各類方法的設計從特定成像環節的數學模型出發,旨在通過建模來還原篡改行為對正常模型的破壞痕跡。此外,基於計算機視覺中的成熟技術,有研究者提出對篡改圖像中複製粘貼同源區域進行配準定位;以及基於檢索與匹配技術從海量圖像中重建篡改圖像來源和篡改過程的取證溯源技術。
深度學習技術的發展,特別是深度偽造技術的出現,對視覺取證領域也帶來了深遠的影響。不同於一般計算機視覺任務,圖像取證深度模型一般在圖像噪聲域設計,目的是增強包含篡改痕跡的高頻微小信號。近兩年不斷有新的深度模型被提出,研究者在模型的層數、架構、損失設計、圖像濾波層以及各種訓練技巧上進行了大量嘗試。最新的深度取證模型在標準資料庫上已經能夠超越傳統統計模型的預測性能,然而此類取證方法仍然面臨實際場景中圖像壓縮、圖像質量造成的不利影響以及深度取證方法本身可解釋性弱的問題。
圖像取證研究在內容安全方面有著巨大應用需求,對於網際網路虛假媒體檢測、司法鑑定、保險反欺詐等都有實際應用場景。「華南虎」、「廣場鴿」、「AI換臉」等事件中,圖像取證技術都發揮了重要作用。微軟公司與取證研究專家合作開發的敏感圖像內容指紋比對技術已大規模應用於各大圖像分享平臺。隨著智能偽造技術的快速發展,其危害日益嚴重,取證技術勢必在內容安全應用中發揮越來越大的作用。