41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用...

2020-12-04 智東西

出品 | 智東西公開課講師 | 郭南 中科睿芯的應用創新研發總監

導讀:

中科睿芯的應用創新研發總監郭南去年8月曾在智東西公開課進行了計算機視覺應用合輯第一講的直播講解,主題為《高通量計算在大規模視頻處理中的應用》。

在本次講解中,郭南老師首先從高通量計算的特點入手,之後分析了大規模視頻處理面臨的挑戰及市場需求,最後從樣例匹配、場景檢測、目標識別、內容鑑偽四個方面深入講解大規模視頻處理的應用。

本文為此次課程主講環節的圖文整理:

正文:

大家好,我是中科睿芯AI應用開發負責人郭南,很榮幸能在智東西平臺和大家一起分享今天的課題。今天分享的主題為《高通量計算在大規模視頻處理中的應用》,主要分為以下3個部分:

1、高通量計算應用開發特點2、大規模視頻處理面臨的挑戰及市場需求3、大規模視頻處理在網絡內容安全和安防中的應用

高通量計算應用開發特點

據統計,我們每天創造約2.3萬億的數據,而當前的網絡流量中有70%以上都是視頻。這些視頻規模龐大,有24小時不斷更新的監控視頻,還有移動智能終端的拍攝和分享數據,比如傳統的媒體和自媒體抖音等。這些視頻不僅規模龐大,還具有高並發大容量的顯著特性,高並發意味著單位時間內產生的任務數量大,無論對國家公共安全還是日益增長的網際網路經濟,對這些具有高並發性的海量視頻數據進行分析和處理,為視頻內容監管和應用服務提供關鍵技術支持,已成為一個亟待解決的問題,我們需要從並行計算硬體支撐和圖像視頻計算模型優化兩個方向來解決這類問題。

硬體方面就需要高通量計算機。從上世紀40年代,人類第一臺計算機誕生開始,信息基礎設施經歷了70多年的發展,萬物互聯所產生的巨大數據流量,要求大型數據中心能夠在提供一級以上並發請求訪問能力的同時,還可以有效的保障質量,這對計算機系統提出了巨大的挑戰,僅靠計算設備的堆積將無法完全解決上述問題,因為計算設備的堆積會產生大量的電力或者功率方面的消耗,而高通量計算機適應是適應新興應用負載特徵,在強時間約束下能夠全局可控處理高吞吐量請求的一種高性能計算機,其設計目標也相應的從追求傳統單個任務的「快」,轉變為追求單位時間內處理任務數量的「多」。傳統的高性能計算的特點是計算密集型,追求的目標是高速度,主要用於科學計算。而高通量計算的特點是請求密集型,追求的目標是高通量,即單位時間內算的多,適用於網際網路新興應用負載特徵,關注高並發環境下的系統吞吐能力。在強時間約束下處理高吞吐量請求,所謂系統的吞吐量指的是計算機系統單位時間內可處理的服務請求數,它的計算特點是需要挖掘算法本身的可並行性,計算任務是基於一系列學習子任務的一個較大任務,這些子任務之間使用相同的數據或者關聯數據,如果能充分利用子任務間的相關性和數據的相關性,就能提高計算的並行度和計算效率。另外一個特點就是多任務多特徵學習,在多個特徵表示上構建圖像分析模型,或者在單個特徵上進行模型學習,最後融合多個特徵統計模型的判別結果。

隨著移動網際網路技術和智能終端的普及,海量的諮詢娛樂、音視頻內容分布在傳統網際網路和移動網際網路上,使得視頻內容服務成為網際網路主要服務之一。面向視頻信息處理的應用越來越多,包括視頻轉碼服務、視頻會議、視頻版權鑑定、內容檢索服務、場景識別服務等。其中有一些違規內容,如色情暴力、政治有害也充斥其間,有必要採取對應的監管策略和手段,進行網絡視頻內容安全檢測與促進網絡的安全。

大規模視頻處理面臨的挑戰及市場需求

伴隨著巨大的市場需求,視頻處理面臨著一系列挑戰,比如說數據處理量大,訓練數據獲取困難,我們將詳細介紹這些挑戰的具體表現形式,對應的市場需求以及相應的解決方法。

上圖是網絡視頻處理的整個流程。首先對網絡流量進行粗拼裝,提取音視頻數據,經過音視頻編解碼、內容分析處理,返回結果,解碼和視頻分析的計算量都很大,需要進行相應的硬體加速。其中解碼對應的有解碼卡之類的專用硬體加速單元,一般的顯卡上即NVIDIA的GPU上面也會有這個單元,內容分析從AI加速卡算法優化軟硬體同時加速,分析的內容可以歸類為壓力匹配、目標識別、場景檢測和偽造識別。

上圖是對上面視頻處理過程的一個細化過程,包括拓撲連結邏輯,數據處理邏輯和軟硬體層方面。拓撲連結邏輯方面,包括分光器,前後端捕包機,後端伺服器等一些設備,中間是並發數據的處理邏輯,體現了數據量的處理量比較大。最下面的軟硬體部分展示了視頻處理中常用的伺服器和處理平臺。比如TensorFlow,還有數據大數據處理平臺,FPGA等。

對應上述流程音視頻是解碼設計方面主要包括4個模塊,繪畫管理模塊進行繪畫的上下文管理,解復用模塊的調度,解復用模塊是從視頻容器中提取碼流的信息,解碼模塊,就是實現解碼的整個過程,IO模塊來實現音視頻解碼模塊與外部的數據交互,來實現內存的緩存管理。

要實現對大規模網絡視頻的解碼工作,還需要考慮以下方面:

首先是有模塊之間的調度,以提高系統的運行效率,還需要統一的內存管理,避免內存頻繁的拷貝,需要優化現成的調度和同步,減少線程休眠和Cache失效引起的性能損耗。針對不同的視頻格式需要進行解復用優化,提取解碼所需要的關鍵信息,以減少內存的佔用量。

解碼技術的難點一是需要建立非常強的容錯機制,在視頻流數據缺失的情況下可以保證穩定性,防止死鎖與崩潰。針對不同的格式特點進行優化解碼,在視頻傳輸有錯的情況下,解碼出儘量多的數據量。難點二是需要維護大量並發路數,以保持滿負載,並且控制內存用量。網絡實時流媒體數據的重要特點有統一,時間流媒體傳輸的數據量大,同一路流媒體在用戶觀看過程中持續活躍,數據間歇性傳輸等。我們的解決方法是可配置的cavhe系統、節目超時淘汰算法、針對常用格式的內存優化等。

解碼還需要支持網絡中多種多樣的封裝格式和編碼格式。睿芯也有自己的專用的音視頻解碼卡,在解碼能力、功耗、性價比方面有很大的優勢,在國家一些部門以及企業也具有了批量的應用,能夠支持網絡中所有常見的編碼格式。

剛才我們提到的是解碼方面的內容,視頻應用分析方面也是計算量消耗比較大的一個方面。在網絡內容安全以及安防方面,視頻分析的市場需求可以概括為以下4個方面:

第一是內容審查,實時檢測和分析網絡流中傳輸的音視頻數據內容,對涉暴、涉恐等有害內容進行實時審查,來保證網絡中傳輸內容的健康、安全性。第二個是目標識別,目標識別主要是實現對網絡視頻流中臺標、人臉、車輛、敏感設施以及音頻中的多語種敏感語音進行檢測識別。第三是樣例匹配,是通過實時分析視頻數據進行管控。樣例匹配除了安全方面,還可以實現平時的視頻推薦的功能。第四是內容鑑偽的應用,主要是檢測偽造的圖像、音視頻,來防止敏感內容被濫用到非法渠道。

大規模視頻處理在網絡內容安全和安防中的應用

對應前面市場需求所提出的4個類別,樣例匹配、場景檢測、目標識別、內容鑑偽,將逐一介紹技術以及應用場景。

– 樣例匹配

樣例匹配面向圖片、視頻、音頻三個方向,通過實時分析網絡數據,對匹配的音視頻內容進行監管,我們自研的多媒體檢索系統也能夠實現百萬級別視頻的快速檢索,在一定程度上解決了特徵提取速度,數據內存耗費以及檢索效率等一系列問題。現在圖像、視頻、音頻它的準確率和召回率都已經能夠滿足實際應用當中的需求,並且能夠根據客戶的需求來做到秒級響應或者是毫秒級的響應。

視頻用例匹配具有廣泛的應用場景,它可以應用於版權保護的問題來阻止盜版視頻的傳播,還可以解決非法內容檢測問題,一些用戶和團體藉助網絡平臺惡意傳播非法視頻,以擾亂社會秩序,導致多類問題視頻在各個視頻網站、交友社區、聊天工具等平臺中不斷傳播危害社會,而依靠人力在網絡海量數據中找出這些視頻是不現實的。還有的應用是視頻監控處理的問題,一些用戶、商家希望知道某視頻片段在網絡流媒體中某個時間段內出現的次數。還有視頻推薦,個性化的推薦服務是各大平臺促進用戶體驗的重要手段。依據文本標籤匹配外聯合視覺內容進行視頻推送,可以達到更準確的推送效果。

前三個應用場景主要使用近重複檢索技術,而視頻推薦會使用到基於內容的檢索,對於樣例匹配設計的兩種具體技術即近重複視頻檢索和基於內容的檢索,近重複視頻是基於已有的原視頻,在海量數據中尋找與之相同或近似的視頻。

以上這些圖片就展示了我們經常能夠看到的一些近重複視頻片段,這些近似變換的方式有插入圖標,模擬錄像,尺度改變和畫中畫這些方式,一般來說插入圖標、字幕的複製變化比較容易檢測,而模擬錄像、畫中畫和後期加工等變換在視覺上變化相對較大,檢測比較困難。基於內容的視頻檢索則是主要查詢語義相似的視頻,語義相似的程度會與我們給他的訓練數據有關係。目前對於樣例匹配這兩種方式都使用基於深度學習的方法,兩者之間是沒有明確的技術界限。

樣例匹配的基本框架主要包括4個步驟,首先是特徵提取,建立索引,特徵匹配和時間對齊。圖像中虛線是表示離線的步驟,實現在線檢測步驟。對於資料庫視頻的建模是離線,對於查詢視頻需要進行在線檢測,無論對於視頻庫中的視頻還是查詢視頻,首先都需要進行特徵提取。視頻描述特徵,我們可以分為視頻幀級別的特徵和整體描述特徵,視頻有大量的圖片幀以及關於不同幀的時間和空間的概念。因此導致了視頻幀級別特徵數據量很大,視頻整體描述特徵提取也需要較大的計算量。

在傳統方法中,視頻幀特徵中有顏色直方圖,尺度不變特徵SIFT。為了提高匹配效率,採用視覺詞袋模型,把一個幀內的眾多局部描述字合成一個單一特徵來表徵視頻幀,具有較好的擴展性和準確率。視頻整體描述特徵則是關聯了中間的時域信息,在獲得特徵之後進行建立索引的操作。對於海量資料庫視頻的複製檢測問題,使用直接的特徵一一匹配方式十分耗時。為了達到更高效的檢索,建立索引是一種非常有必要的手段,索引結構不僅需要提高檢索速度,還應控制因建立索引而產生的量化誤差,對於查詢視頻進一步進行特徵匹配的操作。

上圖是我們對幾種特徵提取方法進行比較,在檢測方面取得了不錯效果的傳統特徵,有指紋特徵、SIFT、BOW特徵,還有現在的深度學習特徵。其中指紋特徵一般是指視頻幀的均勻感知哈希,這種特徵佔用內存少,提取速度快,方便使用哈希檢索,效率比較高,但是對各種變化的支持會比較弱一些。SIFT、BOW磁帶模型特徵它對旋轉變形等幹擾的魯棒性較好,但是計算較複雜,並且與深度學習特徵相比,沒有語義表達能力。使用深度特徵具有優良的泛化能力和魯棒性,特徵表達緊湊,語義表達能力強,缺點是深度學習模型的計算量相對較大,需要AI硬體加速,應該加速的硬體現在也很多,所以深度學習現在不是一個問題,計算量方面是大家共同關注的問題。

對於更高數量級的視頻檢索,比如說百萬級的千萬量級的,一般都需要使用哈希二進位特徵,便於在檢索的時候使用層次聚類樹等二進位檢索方式,以提供比較快的檢索速度,但是浮點特徵向二進位特徵進行轉換,會造成一定的信息損失,所以準確度會略有下降。

上圖是之前使用傳統方法進行視頻樣例匹配的一種方法的框架圖。這種方法當中針對傳統方法的一些特點,然後提取了提出了一些模塊來改善它的效果。比如提取顯著區域來提高人為添加字幕,加黑邊,這些視頻檢測的魯棒性,後面還有一個消除幀間信息冗餘來減少數據量,提高檢索效率。

再介紹一種我們自己開發的一種基於深度學習的視頻整體描述特徵:RLH。RLH特徵是從4個層次來提取特徵,因為它涉及到了ResNet、LSTM和Hash網絡,所以我們將它簡稱為RLH,首先是採用ResNet獲取視頻幀的空間特徵,ResNet在圖像分類任務中表現卓越,能夠獲取很魯棒的特徵,然後用LSTM進行時空特徵融合,保留視頻空間特徵的同時,進行降維處理,在對時空特徵進行大福降維處理,進行二次編碼,得到視頻的哈希碼。RLH網絡能夠對特徵進行大幅的降維同時保留視頻幀空間信息以及視頻幀中間時序信息,具有很好的視頻描述能力。

在訓練過程當中,首先對視頻以秒為單位,進行小片段分割,保留其幀間的時序信息,並且基於三元組的數據輸入方式,設計了對比損失函數,用迭代的方式對RLH網絡進行訓練,使網絡快速收斂。在組織訓練數據時,從點雲數據集中挖掘不相似點對,再現online和offline的挖掘方式,可以有效的進行哈希訓練。因此我們採用類似的方式,從視頻特徵中挖掘三元組來進行快速有效的訓練,我們經過實驗大量的實驗對比證明,相比於其他的特徵提取方法,我們提出的RLH特徵能夠有效的提高近重複視頻檢索的精度,並同時降低時間和空間複雜度。

對於角度問題,如果商品的特徵集中在頂部,可直接採用一個垂直向下的角度,而且這種角度,遮擋的可能基本消除。但在便利店的場景中,需要識別很多瓶子類的商品,它的特徵集中在側面,就須架起一定的角度。以我們的經驗,大概是用到70-80度的角度,既能夠看到側面,又不會增加太多的前後遮擋。

– 場景檢測

場景檢測我們一般分為公共安危害行為檢測和色情內容檢測。公共危害行為檢測網絡流傳輸的視頻數據是否包含公共危害行為內容。這種檢測廣泛應用於直播平臺或者是社交網絡平臺的實時內容審查,可以識別常見的暴力行為場景。色情內容檢測是檢測網絡流傳輸的視頻數據是否包含色情內容。對於場景檢測在視頻安全領域當中,我們應用的時候一般需要較快的響應時間,因為你要在用戶感知到它的危害性之前,將其進行一定的控制和管理,所以我們一般需要10毫秒以內的單幀響應時間,並且對整個視頻要在三秒或者是5~10秒這些時間內給出判斷,這樣才能控制不良視頻在網絡上的播放

公共危害行為,我們一般指的是暴恐、火災、搶劫、破壞公共財物等,這種檢測用於突發公共危害行為的報警和直播平臺社交網絡中的內容審查,場景檢測的技術實現方式包括兩類,一般包視頻幀、圖像分類和視頻分類相結合來應用。圖像分類是視頻深度學習能解決的最基本問題,視頻分類有處理的方式,需要處理時域之間的關聯,關聯有LSTM 3DCNN等解決方案。目前問題的關注點是數據源的獲取以及標註,這些數據比較難以獲得。

色情檢測的應用場景也會比較廣泛,網絡內容的監管,非法色情傳播源頭的監管,還有運用在校園裡面,保護青少年的成長。這一個問題的主要實現方式也是以圖像分類為主,視頻分類為輔,因為圖片分類已經是很準,準確度很高,而視頻分類存在一定誤檢的情況,但是圖片分類可能會漏掉一些場景,或者是對一些場景進行誤檢,需要視頻分類做一些輔助。

– 目標識別

(1)人臉識別

識別是計算機視覺應用的非常廣泛的應用,因為我們一般是分類識別檢索等一系列應用,識別目前準確度也比較高。人臉識別也是計算機視覺落地的熱點應用,尤其是近幾年對動態人臉識別的要求會更多一些。人臉識別主要關注的功能是檢測視頻流中的人臉,並與人臉資料庫進行匹配識別。瀏覽信息是重要的身份識別標誌,在網絡內容安全和公安機關各警種業務中都取得舉足輕重的作用。以前我們人臉信息可能用於閘機,現在攝像頭採集的數據會更廣泛一些。人臉識別的應用方面,在網絡內容安全方面,需要對關鍵人物進行視頻關鍵人物的視頻進行管控。對於公安這方面在刑事案件調查時,會由於大量的視頻錄像,造成時間和精力的浪費。同時在日常巡邏、戶籍調查、出入境管理等業務中,幹警都會通過辨識人臉來核實相關人員的身份,有了人臉識別之後,我們就可以加快整個過程,並且降低對人員和時間的消耗。

檢測到人臉之後,在進行人臉關鍵點的分析,人臉對齊的處理,然後採用人臉識別模型來提取人臉特徵,對提取出的人臉特徵與庫中的人臉進行檢索匹配,根據匹配結果進行相似性排序,然後再結合閾值來判定是否會同一個人。人臉檢測和識別都是基於深度學習的卷積網絡,是用大量數據訓練出的人臉特徵模型,並且準確率已經提升到了人類的水平。人臉識別作為一個應用廣泛的計算機視覺方面的應用。網絡中介紹人臉識別的資料也有很多,我們上面對基礎的人臉識別的流程做了簡單的介紹。下面我們說一下高並發條件下的處理,對應我們的高通量處理。

上圖是高並發人臉的檢測效果。我們這是做的一個展示demo,我現在是並發12路,12路其實是一個比較少的路數,我們在實際使用當中可能並發的路數會更多,並發意味著我們要不僅要實現實時的檢測,還要實現超實時的檢測,也就是說在實時的條件下,我們需要同時實時檢測30路、50路或者是更高的路數。

對於高並發的人臉識別,首先我們必須具備基本的人臉識別功能,準確率要高,準確度要高,能夠滿足用戶對準確性的要求。接下來要處理的難點是處理來源多樣的視頻源,來適應低質量的人臉圖片,通過融合多種規整技術改善圖像。因為人臉識別,我們現在對閘機的識別準確度還是相對來說比較高的,但是對於攝像頭識別就存在一定的問題。首先是各個攝像頭並不一定是統一規格的,並且攝像頭本身也具有一些參數調整,需要手動調整或者一些問題,那就會存在光照不統一,或者是清晰度不統一,然後還有一些聚焦的問題,對於高並發的識別,同時解決這些問題,就需要算法有一定的自己的選擇能力。

在處理這種不同質量的圖片,不同曝光的圖片以及不同清晰度這種圖片處理的方式,一種方式是我們改善算法進行一些預處理,另外還是要從因為對於深度學習,從數量數據方面入手,需要比較來源廣泛的訓練數據,必要時可能需要使用GNN、3D模型來製作各種應用場景下的人臉數據,比如說模糊的圖像,我們可能會通過GAN來生成,有些多個角度的會通藉助3D模型,然後或者是佩戴一些口罩或者是眼鏡之類的,都需要我們這些數據僅僅靠自己人工採集的數據可能是,當然這些是必要的,但是還不足夠使用,所以要製作的數據和人工打標註的數據同時使用。

(2)臺標識別

臺標識別是一種很傳統的應用,在90年代以來就一直在用臺標識別,這是一個看起來很簡單,但是要做的好是很難的一件事情。因為臺標它不同於自然結構,它有些結構可能變化多樣,有些可能比較複雜,有些可能是大家設計的logo會比較簡單,同時它的數據量可能會比較少,還有一些半透明的或者是旋轉的臺標,這樣都給臺標識別造成了很大的難度。但是臺標識別又是一個非常有用的應用,它可以運用在各種電視臺的監管,有對境外敏感電臺的監管,分級電視臺的監管,還有電視臺內容盜用監管等一系列內容安全方面的應用。

臺標識別的流程與整體檢測的流程都是類似的,它是提取視頻幀中的臺標區域,在使用特徵提取與分類算法,對提取出的臺標區域進行識別,判斷出屬於哪一類臺標。同樣的與高並發的人臉識別一樣,高並發的臺標識別也要處理更多的挑戰,在基本的臺標識別功能能夠實現的前提下,還要處理數據來源複雜的問題,以及數據管理的問題。

來源複雜與我們剛才提到的清晰度會有很大差別。尤其是網絡中傳輸的數據,它的碼流不同,就算解析度很高,它的清晰度可能很差,這是一種非常廣泛的現象。另外還有一些數據管理問題,因為並發多路對數據ID的控制以及內存的消耗、內存的控制,而且因為臺標存在動態臺標,還要從視頻的角度來判斷它屬於哪種臺標。另外因為臺標識別它一般是結合其他應用一起作為一種綜合的應用來實現的,並不是一個部門只是在做臺標識別,往往情況下我們可能將臺標識別和視頻檢索等一系列或者是其他物體的識別放在一起來應用,在這種條件下留給臺標識別的計算環境可能會更少,並且我們可能在單幀上面下的功夫就會少一些,來降低它的計算消耗。網絡視頻流中同一視頻數據到達接收端,從視頻的角度來處理臺標識別問題的時候,需要對每一路視頻管理來進行管理,結合幀間識別統計策略,準確的說出每路視頻的臺標檢測結果。

上圖是對檢臺標檢測的傳統算法和深度學習算法進行效果的對比。因為臺標檢測和今天檢測一樣,作為一個從90年代就開始,然後既有傳統算法長期的發展,以及深度學習算法長期發展的兩種應用。這裡介紹的是一種傳統的機器學習方法,使用HOG特徵和SVM分類算法。HOG特徵是具有一定魯棒性的邊緣特徵。SVM支持向量機在深度學習之前是機器學習算法當中,綜合性能會比較好的一種分類方式。我們這種方法是通過輪廓的快速定位,來從視頻級別來選擇臺標區域,並且使用滑塊與輪廓結合的便利的方式,來識別以準確檢測臺標這種方法的檢測速度和視頻偵監變化量相關,身份變化量較大,它的檢測速度會更快一些。我們這個方案對大部分視頻的測試效果都很好,已經獲得商業應用。

同時我們通過視頻數據統計來進行參數優化,避免了檢測對幀間變化的依賴。另外就是遷移學習來檢測臺標,因為臺標的數據不可能做到非常大,所以就需要使用到遷移學習方式,使用遷移方法來訓練分類器,來識別臺標,特別是一些較高難度的臺標,這個難度就是體現在視頻複雜多樣性,然後臺標的間斷性出現,還有臺標的動態臺標等,深度學習的識別的準確率會較高。它主要是在處理一些複雜的背景下面,具有非常強的魯棒性。同時我們使用千億模型在一定程度上降低了對數據量的要求,但是與傳統方法相比較,它對數據的消耗還是要多一些的。

在傳統方法和深度學習方法當中應該如何選擇呢?傳統方法它的數據量要求較低,深度學習方法的魯棒性更好。我們選擇的時候就要根據用戶能夠提供的數據量,數據量大的話可以選擇深度學習方法。是否可有可能做數據增強?如果數據本身就比較相似,做數據增強也沒有太大的意義,然後還有標誌的變換程度,變換程度,然後還有硬體的功率的要求,當然還有並發路數與其他程序軟體平臺的兼容性等。

下面介紹一個更通用的檢測,以敏感設施檢測為代表,敏感設施檢測就是檢測視頻流中設施與敏感設施庫進行匹配識別,應用場景有保護軍事設施影像資料,防止涉密、涉密設施的洩密及查詢宗教信仰設施等。同時這類方法也支持於飛機、軍艦以及其他一些通用的建築物的檢測。與前面人臉識別和臺標識別的區別在於一般提到敏感設施檢測,它的數據量就會更少一些,並且會更具有特色。比如飛機它可能更注重輪廓信息,而建築物可能有些時更關注它的紋理信息,這樣在深度學習訓練的時候就要有一定的特殊性。雖然是檢測問題,需要結合檢索和檢測多種方式來同時處理,因為數據是一個比較大的問題。解決方式有我們現在正在研究的一些 few-shot learning或者是online learning,也就是說在檢測過程當中同時進行在線的學習,來提高這類檢測的一些效果,這類檢測在應用過程當中是相比於人臉、車牌還有臺標,它的準確率都是相對來說比較低的,但是現在也有一定的優化方式能夠讓它達到市場上應用的水平,我們也有相關的優化方法。

前面我們對識別是講的比較細的,然後下面我們就是來解釋一下,就是識別這些遇到的問題,我們應該如何處理,就在於數據的問題,常見的目標識別、車牌摩託車各種車船的檢測,交通標誌的檢測、旗幟的檢測,廣泛使用的目標識別,有開源的數據集,比如說小汽車就有非常廣泛的數據集,更多的我們提到敏感物體檢測之類的檢測,它的數據是需要開發者自己標註數據的,而一般的目標檢測方法,需要人工標註,目標矩形,這一過程往往需要耗費大量的人力和時間成本,因為它比標圖片要難多了,你標每一張圖片,可能我們現在已經有一些標註工具,但它的速度還是相對較慢。

目前有一種技術是弱監督目標檢測,這種技術是在僅僅利用圖像分類標註的數據下,學習目標檢測模擬模型僅適用於圖像級別的標註,不利用任何關於位置的信息,這樣能夠大量的節約標註成本,在標註數據相對昂貴的場景下有著重要的應用價值,還包括一些醫學的應用場景,我們是用我們針對弱監督物體識別,然後設計了基於耦合的檢測框架。

現有的弱監督的目標檢測方法的主要問題是容易收斂到目標最具區分性的局部,也就是說它可能只能檢測到顯著性區域比較大的目標。我們通過將兩個以互補方式工作的弱監督檢測分支的定位信息進行耦合,來提高檢測性能,多個檢測器的信息進行耦合,就可以避免網絡收斂到局部最優,同時召回多個檢測目標。

網絡結構圖如上圖所示,其中CMIDN是我們提出的 cascade multiple instance detection network,就是說級聯度多實例檢測網絡,網絡結構當中的ODR指的是online detector refinement,就是指的是在線檢測優化,還有SGPR指的是segmentation guided proposal removal,分割引導的建議區域移除。

在這個框架中,我們提出了利用候選框移除的方法,來讓兩個弱監督檢測分支以互補的方式工作,引入弱監督分割信息,來提高候選框移除的魯棒性。同時我們還提出一種量化弱監督檢測器不穩定性的指標,並且利用這種不穩定性來提高弱監督檢測器的性能。我們的弱監督檢測方法是也發表在了計算機視覺頂會上面,然後同時這種檢測方式運用到我們的項目當中,降低了我們標註的工作量,然後也能讓我們的每一種識別的算法能夠儘快的應用,就是用戶提供少量數據的情況下,我們就可以儘快標註數據,然後儘快進行一個落地的應用。

下面說下網絡輿論上比較關注的偽造內容識別,其實偽造視頻一直都存在,比如說你找個演員扮演一下,然後就能造成一定的社會影響。在使用就是深度學習之前,偽造的視頻是比較假,然後高仿真的視頻偽造代價也比較大,人工智慧流行之後偽造視頻變得容易,比如Deep Fake和Face to Face是用於生成超逼真偽造視頻的兩種技術,這種技術可能普通學生就能夠實現。那麼對於深度學習生成的偽造視頻,人的肉眼也無法識別真偽的區別,偽造視頻被用到非法渠道裡面,就會對社會造成一定的危害。

對於人工智慧生成的偽造視頻,就用人工智慧來對抗人工智慧,來檢測偽造的視頻和圖像。我們這裡使用的是Xception model能夠自動檢測偽造的人臉和圖像識別,辨別敏感人群的視頻是否存在合成濫用到非法渠道。視頻是包括語音和圖片兩種,一般情況下我們在以前圖片和語音會單獨的處理,因為語音會產生更大的幹擾,來減少對圖片這方面的幹擾性。現在我們也進行多模態的研究,將圖片語音文字進行同時處理,然後這樣的精確度會比較高。當然它的計算消耗量計算量消耗也會比較大。

下面簡單說下音頻方面的一些傳統的處理方式。首先說下音頻方面,因為對應偽造視頻識別,它肯定裡面的音頻也是造假的,那麼偽裝語音就是通過某種技術手段生成和系統中已有的用戶聲音特點相似語音,從而欺騙過鑑別系統。偽裝語音的生成過程也有特點獲取和特點對應的一些相應的步驟。在右邊的框架當中也顯示了我們檢測偽造語音識別的一些步驟,因為生成的偽造語音,他其實如果是誤認為是由真人發出,就會認為合成語音是合法用戶的聲音,也會對系統的對整個安全性造成一定的危害。

目標識別也會包括語音檢測,有可能用戶傳來一段視頻,讓你同時檢測視頻當中的物體以及對一些語音當中的關鍵詞的檢測。語音的目標識別就是根據語義進行及時地告警和管理,應用場景主要是對音頻的一些輿情分析,或者是配合視頻剪視頻當中物體的目標檢測在一起進行應用。

上面是高通量音視頻一體機基礎架構示意圖,最上面是我們剛才介紹的4類應用場景和中間應用場景,剛才也主要是從4個類別來介紹,並且對識別做了詳細介紹,就是為了展開我們在深度學習或者是人工智慧在視頻處理方面遇到的一些問題,還有其他一些應用,中間使用的是編解碼加速平臺和是深度學習的加速平臺。硬體方面有使用到高通量伺服器和音視頻加速卡,AI加速卡,還有加解密加速卡。因為網絡數據是加密的,是加密信息,在應用當中還需要使用加解密方面的加速設備,來提高整個系統的處理速度。

上圖是高通量音視頻一體機的硬體形態,對應用的支持,數據處理量,還有功率消耗體積都可以定製,體積方面1U、2U都是有的。我們致力於提供能耗比、性價比和應用效果都最佳的解決方案,上面是我們設計的,可以看到我們的音視頻解碼加速,深度學習加速,還有加密數據處理加速這些硬體設備也在很多領域都進行了非常大批量的落地應用。

相關焦點

  • 快速「吞吐」大數據——前瞻計算機「高通量」時代
    25日至27日在浙江杭州舉辦的中國計算機大會上,專家們探討一種名為「高通量計算」的新生力量,描繪了未來計算世界的一幅新圖景。新技術:天生擅長「吞吐」大數據什麼是高通量計算?專家解釋,就是同等時間內處理更多數據。
  • 乾貨丨邊緣計算應用、現狀及挑戰
    隨著智能家居的普及,許多家庭在屋內安裝網絡攝像頭,直接將攝像頭收集的視頻數據上傳至雲計算中心會增加洩露用戶隱私數據的風險。(3)能耗較大。隨著在雲伺服器運行的用戶應用程式越來越多,未來大規模數據中心對能耗的需求將難以滿足。現有的關於雲計算中心的能耗研究主要集中在如何提高能耗使用效率方面。
  • 高通量媒體內容理解論壇抖音快手齊上陣,你 pick 誰 | CNCC 2018
    今天已是大會最後一日,上午精彩的主論壇結束之後,迎來了下午多場技術論壇。在「高通量媒體內容理解」論壇上,來自學界的兩位嘉賓——中國科學技術大學張勇東教授、北航計算機學院長江學者特聘教授李波,以及來自業界的兩位嘉賓——字節跳動人工智慧實驗室總監王長虎、快手多媒體內容理解部負責人李巖帶來了四場精彩的分享,內容涉及到一系列圖像、視頻理解相關技術及其應用,還有目前所面臨的一系列挑戰。
  • 周景文教授綜述:高通量篩選技術在工業生物技術的應用
    、納米技術和人工智慧快速發展的背景下,工業生物技術中的HTS當前所面臨的挑戰和潛在的改進措施。研究人員通常採用隨機或定向誘變的方法來提高細胞工廠中目標產物的積累。由於有益突變的概率可能非常低,開發在大型突變體庫中快速篩選目標微生物菌株的方法就變得尤為重要。常規的篩選效率由於通量低、檢測慢、勞動強度高,導致篩選成本昂貴、效率低下。針對上述問題,高通量篩選(HTS)結合了自動化和微定量實驗以及大規模數據分析等先進手段,已被廣泛用於工業生物技術的基礎和應用研究。
  • 三大巨頭高通量測序(NGS)的原理特點、技術應用和意義
    一,三大巨頭高通量測序儀原理特點目前高通量測序的主要平臺代表有羅氏公司(Roche)的454測序儀(Roch GS FLX sequencer),Illumina公司的Solexa基因組分析儀(Illumina Genome Analyzer)和ABI的SOLiD測序儀(ABI SOLiD sequencer
  • 資料| 1800頁33章數學方法精要筆記 —深入數學建模, 機器學習和...
    本書凝聚了作者多年數學建模和機器學習研究和實戰經驗。根據應用領域, 本書總結並深入講述傳統方法到前沿的深度學習和強化學習算法,幫助讀者迅速抓住重點,減少彎路。a. 本書的算法和定理證明中常常引用相關的其他章節,循序漸進,有助於讀者建立樹狀知識脈絡,一網打盡相關知識點。b. 本書例子詳實並多伴有示意圖,清晰易懂。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    因為,你只有真正了解數據是如何來的,才能更好地明白數據該如何處理和分析,以及如何才能有效地挖掘出它背後隱含的生物知識。6、單細胞測序在表觀遺傳學中的應用基因測序(視頻+課件)1、【從零學測序】癌症基因組重測序分析第一講 √2、【從零學測序】癌症基因組重測序分析第二講 √3、【從零學測序】癌症基因組重測序分析第三講 √4、【從零學測序】癌症基因組重測序分析第四講 √5、【從零學測序】癌症基因組重測序分析第五講 √
  • 高性能計算之源起——科學計算的應用現狀及發展思考
    中國網/中國發展門戶網訊 科學計算是指應用計算機處理科學研究和工程技術中所遇到的數學計算問題。在現代科學研究和工程技術中,常常遇到大量複雜數學計算。其複雜程度往往超越了人腦運算的能力,必須使用計算機進行求解。而計算科學的應用水平已成為衡量國家科技發展水平的重要標誌之一;其應用的深入程度則反映出對科學問題探索與理解的深度。
  • 京東高級算法工程師34頁PPT詳解基於分布式向量檢索系統Vearch的大...
    出品 | 智東西公開課講師 | 邸志惠 京東高級算法工程師導讀:6月10日,京東高級算法工程師邸志惠在智東西公開課進行了CV前沿講座第八講的直播講解,主題為《大規模圖像檢索系統的挑戰與實踐》。在本次講解中,邸志惠老師從大規模圖像檢索任務所面臨的挑戰入手,詳細解析了Vearch的原理,最後通過三個案例展示Vearch如何在實踐場景中助力深度學習應用落地。
  • 百度王海峰出席中國認知計算和混合智能學術大會 深度解析「多模態...
    除了基礎的由實體、屬性、關係構成的實體圖譜,百度還針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業圖譜等多種知識圖譜。視覺語義化可以讓機器從看清到看懂視頻,並提煉出結構化語義知識。王海峰通過體育比賽視頻的案例,展示了視覺語義化技術的價值。他介紹,2016年,百度AI實現了奧運會籃球比賽的自動解說,背後是自然語言處理和搜索技術。
  • 模板分享【41】清新文雅莫蘭迪畢業答辯PPT模板
    目錄第四節結束語此PPT共20頁,靜態,資源源於網絡,侵刪。下載方式:網盤獲取模板下載連結:連結:https://pan.baidu.com/s/1M5zj9wOprdxmG_450sBNbQ 提取碼:6981所有分享的模板都是 ppt
  • 44頁ppt,全面解析3D列印材料,需要的拿走
    下文中,我們會詳細介紹3D列印塑料材料的最新發展。福利:點擊填寫資料,即可免費獲取44頁的「3D列印材料」。 3D列印材料前沿資訊 到目前為止,3D列印材料中發展最為成熟的材料是塑料材料。
  • 基於邊緣計算的大規模傳感器高頻採集系統研究
    【摘要】基於邊緣計算研究傳感器高頻次採集數據的傳輸、存儲和處理技術架構,提出了傳感器高頻採集設備的軟硬體模塊組成,並形成通用數據分析處理軟體框架,以長時間綜合分析多個高頻採集設備的數據,為物聯網應用對大規模傳感器數據進行挖掘處理和分析判決提供基礎。
  • 合肥研究院固體所在高通量篩選二元硫族化合物熱電材料研究中取得...
    該工作基於熱電理論方法的發展,通過高通量計算手段篩選出了具有高效熱電性能的二元硫族材料。  尋找性能良好的新型熱電材料是促進熱電器件大規模商業應用的重要手段。在高通量研究材料的熱電性能中,需要高效計算材料的電學性質和聲學性質。但由於理論計算材料載流子弛豫時間和晶格熱導率的複雜與困難,先前的很多高通量研究工作均沒有充分考慮材料的電聲相互作用和非簡諧效應強度對其熱電性能的影響。
  • 面向E級計算的材料科學計算軟體系統與應用—新聞—科學網
    基於高性能計算的材料設計是加速功能材料研發的重要途徑,是世界強國持續投入大量人力和物力展開競爭的核心領域。近年來,國內外高性能計算機逐漸向百億億次(E級)計算水平邁進,有望實現人類未曾嘗試過的大尺度、長時間和高通量的材料計算與設計,為材料科學領域的發展帶來前所未有的機遇和挑戰。
  • 如何應對邊緣計算的四大挑戰
    ● 隨著處理和存儲置於傳統信息安全可見性和控制之外,邊緣計算帶來了需要深入解決的新的安全挑戰。● 邊緣計算在需要管理、集成和處理的分布式體系結構中創建了一個龐大的數據足跡。目前,許多POC部署只能在小範圍內工作,但在大規模遠程管理方面卻不太成功。為了應對挑戰,邊緣計算節點將根據不同的用例而有所不同。企業將需要遠程管理各種邊緣計算技術和拓撲,包括硬體、軟體平臺、軟體應用程式和數據(生產數據、配置數據、分析模型等)。這通常需要低接觸或無接觸。硬體需要易於部署和替換,軟體也需要易於部署和更新。
  • 工業生物技術中的高通量篩選技術
    隨著自動化設備和快速檢測方法的發展,各種高通量篩選(HTS)策略已經建立起來,以提高工業微生物的性能。本文討論了提高HTS效率的最重要因素,包括構建高多樣性的篩選庫和使用新的檢測方法來擴大搜索範圍和突出目標化合物。還總結了HTS在提高工業微生物性能方面的應用。結合合成生物學、納米技術和人工智慧的快速發展,討論了HTS在工業生物技術中的當前挑戰和潛在改進。
  • 高通量技術破解高空拋物追溯難:物品被拋出的瞬間發出警報
    本文轉自【中國科學報】;近日,孵化自中科院計算所的中科睿芯團隊基於高通量計算技術研發的「金瞳」高空安防系統,已協同深圳市南山區政府實現安裝、落地。該系統為追溯高空拋物方案源頭並進行實時預警提供了一套可行的方案。
  • 高通量篩選技術在工業生物技術中的應用
    為促進目標產物的高產量、高轉化率和高生產強度的相對平衡,一些針對微生物的隨機誘變技術(如近些年來新興的ARTP及重離子輻射)和合理的工程方法(如用於微生物的高通量培養、篩選及適應性進化的MMC系統)已逐步得到應用。另一方面,由於微生物有益突變的可能性非常低(<1/105),傳統篩選過程受到低通量和檢測方法落後等限制,導致篩選效率低,篩選成本高。