分享嘉賓:馬彬 博士 美團 技術專家
編輯整理:劉小輝
出品平臺:DataFunTalk、AI啟蒙者
導讀:在硬體、軟體技術發展的助推下,我們正進入一個視頻爆發的時代,無論從用戶還是內容維度,視頻數據都蘊含著非常大的信息量,在視頻數據的分析中AI算法大有可為,無論是視頻的創作、審核、編輯還是分發等環節都能看到AI技術的應用。在各種各樣業務場景的驅動下,美團開展了很多視頻分析相關的AI技術實踐。本次分享的題目是本地生活場景的短視頻分析,主要圍繞下面三點展開:
短視頻分析背景介紹短視頻分析技術在美團的技術實踐總結與展望01
短視頻分析背景介紹
1. 視頻行業發展趨勢
近年來,不管是從技術還是從日常生活,都能感受到我們正在進入到一個視頻爆發的年代,當然這背後的一些軟體和硬體的技術成為了這件事情的一個助推。從這些統計數據可以看到,無論是內容還是用戶維度,視頻數據都包含了非常大的信息量。在視頻數據的分析過程中,不管是視頻的創作、審核、編輯還是分發,AI算法都大有可為。這是視頻行業整體現狀的一個背景。
2. 美團AI ——"場景驅動技術"
美團的AI相關技術非常有特色,一個特點或者優勢是「場景驅動技術」。除了大家比較熟悉的外賣,美團在吃、住、行、購、玩以及生活事務等方面有各種各樣的業務應用場景,每個場景都會有一些特殊的視覺相關需求,在不同的場景下又會有不同特色數據內容的沉澱,這些場景和數據特點驅動著我們去做一些底層AI技術相關的沉澱,同時AI技術在打好一些基礎之後,又會反過來賦能業務場景的一些應用。計算機視覺技術顯然是AI平臺層一個不可或缺的部分,這也是今天我們將展開去呈現的一部分。
在美團的業務場景下,為什麼要對視頻數據進行利用和分析?以常見的用戶點評為例,傳統的文本加圖像在呈現信息的時候會有一些不足,相比之下,如果以視頻點評的形式去呈現一個非常有創意的內容,不僅對商家來說是一個比較好的信息的宣傳,對於用戶來說,也是一個更加生動的信息獲取的維度。在這種情況下,相信大家可以感受到美團在短視頻上其實是大有可為的。
按照視頻行業的大致劃分,美團的視頻絕大多數屬於本地生活場景的碎片消費,這其實也是符合大家的認知的。美團的業務場景非常多,不管是在B端還是C端,豐富的供給源和展位都有非常多短視頻內容的呈現。在這樣的背景下,可以看到美團不僅有豐富的應用場景,同時又有豐富的視頻內容和展位。對應到線上的這些應用,往下技術層要做的事情也就逐漸浮出水面,它是一個從視頻內容的素材供給到內容分發以及創意展示全鏈條的一個AI賦能的情況,同時也可以看到在每一個內容流轉的環節都有很多計算機視覺技術可以去發揮作用。
02
短視頻分析技術在美團的技術實踐
1. 視頻多標籤分類
背景:
對於原始視頻數據,僅僅利用元數據、文本或者用戶點擊行為開展業務應用,由於缺乏對視頻內容的把控,存在很多局限性。視頻打標通過對視覺內容進行一些理解能夠更好服務於內容運營、用戶畫像、搜索、推薦、廣告等業務應用,這其中的一些場景要求必須對內容有一些顯式標籤的把控。比如在內容運營的場景下,有時需要進行數據資產的盤點,希望知道美食的視頻有多少,酒店住宿的視頻有多少,然後對於缺失的部分有針對性進行補充運營,這種情況下對視頻內容的理解如果只是依靠嵌入特徵的隱式表徵是不太能滿足業務上的定製化需求的。在這樣的大背景下,我們需要對視頻內容進行一個標籤化的理解,即對視頻進行多標籤分類。
挑戰:
視頻多標籤分類有什麼難點呢?在美團的場景下,數據非常豐富多樣,如何有效構建模型以及我們的標籤體系成為分類模型啟動階段需要克服的第一個困難。其次,初始模型構建之後,前期要對標籤保證一個準確率,但是標籤覆蓋率可能會有一定問題,很多業務數據是打不上標籤的,如何進行標籤體系的擴展是第二步。最後,因為內容的更新和迭代是一個持續的過程,所以技術打標的能力也是需要有一套能夠增量學習的機制,從而進行高效的樣本迭代,這是第三個非常關鍵問題。下面分別就這三步介紹我們在這方面的一些技術實踐。
初始模型構建:
為了快速在業務場景下構建初始的打標能力,最直接的想法就是通過外源數據,利用一些公開的數據集進行知識和標籤的遷移。公開數據集中Google的YouTube-8M數據集與多標籤分類這個場景最為契合,這個數據集具有非常豐富的實體、場景、動作等各類標籤,而且相對通用,具有一定的遷移性,可以應用到我們的業務場景中。模型結構是相對容易處理的一件事情,往年的競賽中有很多可供參考的模型結構,比如常用的Aggregation、Sequential相關模型。其中,前者逐幀提取特徵,然後利用Pooling形成整個視頻的表徵,後者通過RNN序列建模進行視頻特徵的抽取。此外,假設提供原始視頻的情況下,還有3D Conv、Two-stream這樣兩類主流的視頻分類模型,這些基本涵蓋了視頻分類中主流的一些方法。結合我們的業務場景,由於我們的視頻大多是分鐘級或者幾十秒甚至十幾秒的小視頻,時序的長時上下文重要性不那麼強。同時我們的業務場景以實體和場景標籤為主,運動特徵雖然能夠提供增量信息,但在前期從零到一構建標籤模型的階段並不是剛需。結合這兩點,我們選擇了第一類Aggregation模型。
由於YouTube-8M數據集的內容和本地生活場景還是有比較大的差別,數據內容和標籤的差異是接下來我們要處理的一個更為困難和實際的問題,這也是當前任何一套數據驅動的Deep learning model需要克服的問題。在Facebook以及Google的一些工作的啟發下,我們提出了一套半監督的、知識遷移的學習範式,首先利用公開數據集訓練的Teacher Model在業務場景下的無標註數據上進行打標,在這個過程中利用置信度卡控、相似性距離度量或者Label Propagation這類半監督學習常用的方法進行一些偽標籤的清洗,從而獲得業務場景下的一些標註數據,然後利用這些標註數據進行Student model的微調。這個過程可以進行若干輪的迭代,Student model學習到一些信息之後,可以又變成Teacher model進行下一輪的迭代。通過這樣一番初始模型的構建,我們在業務場景的數據下,看到一個明顯的效果提升,不同的品類下的一些視頻標籤的準確率有了非常大的提升。
標籤體系擴展:
第二步緊接著面臨的問題是初始的標籤體系難以保證對業務場景內容有一個很好的覆蓋,這裡我們從橫向擴展與縱向細化兩方面進行了標籤體系的擴展。
① 橫向擴展
我們儘量在少標註的情況下通過兩方面的優化完成這件事。一方面對於這類打不上標籤的視頻,通過中間層的feature embedding進行視覺特徵的聚類,然後人工對聚類的結果進行抽象分析,選擇比較契合業務場景的標籤對一個或者一批視頻進行打標,快速進行橫向標籤的擴展。另一方面主動擴充內容理解的維度,在利用通用多標籤分類數據集遷移知識的同時,從場景分類、人臉檢測、人體分析等相關數據集去遷移知識。
② 縱向細化
標籤力度過粗是公開數據集標籤體系存在的另一個問題,為此我們結合業務場景下圖像理解積累的一些美食的場景分類以及菜品的細粒度識別相關的能力和模型,對視頻打標的結果進行了縱向的優化和擴展,完成一些細粒度標籤的菜品標註,從而為業務上的應用提供了非常好的幫助。
數據高效持續迭代:
第三步面臨的問題是如何實現數據高效持續的迭代,因為考慮到標籤體系的擴展過程以及樣本隨時間的遷移,要求我們有一個持續學習的過程。圖中藍色部分基本代表了模型的冷啟動與標籤維度擴展,更重要的是要有一套從線上回流的機制,對應紅色部分。一方面在沒有業務場景標籤交互的情況下,通過主動學習的方式查詢一些最值得人工標註的樣本,例如基於置信度或者多模型投票都可以很有效的找出模型理解不到位的線上真實樣本,然後通過人工標註的方式擴充樣本。另一方面業務場景中有很多弱監督的數據,利用這部分數據能夠很好的幫助我們持續去迭代模型的性能。
2. 視頻智能封面
背景:
在信息流場景下,最先呈現給用戶的信息通常都是需要經過精挑細選的。比如按搜出圖場景下,呈現給用戶的內容與用戶查詢的相關性需要非常強的個性化,而在頭圖優選或者推薦這些個性化要求相對弱的場景,即使不太知道用戶明確的意圖是什麼,我們也應該選擇相對質量較好的圖來進行一個呈現。這是以往信息流場景下圖像相關的應用,視頻智能封面的邏輯與這個其實是非常類似的,因為封面對於視頻來說就像是相冊的頭圖一樣。在前置的展位上,我們不能把整個視頻全部播放出去,需要選擇最精彩或者與用戶意圖最相關的一段作為封面進行呈現,這對於給用戶提供比較好的信息服務是非常重要的。
算法整體流程:
對於一個輸入視頻,首先需要進行一些候選片段的抽取,然後比較關鍵的一個過程是對這些片段進行篩選和排序,排序的質量直接決定了最終優選封面的好壞。在用戶沒有特別明確的意圖或者偏好的場景下,我們可以從質量或者其他角度推薦最為穩妥的一套通用智能封面,而在搜索或者其他用戶意圖比較明確的場景,我們需要根據語義進行個性化的理解,然後推薦出語義相關的智能封面。下面分別介紹通用智能封面和語義智能封面相關算法流程。
通用智能封面:
通用智能封面最核心的部分是視頻片段的重要性度量,我們需要從視頻的重要性波形圖中抽出重要性最高的片段往前排作為封面。現有的方法主要分為兩類,第一類是端到端模型,利用強監督學習、弱監督學習或者強化學習的方式進行建模,比如利用強監督學習直接去回歸人工標註的顯著性分數或者精彩度評分值。另一類在冷啟動階段更好處理,可解釋性也更強,做法是利用重要性度量進行維度的拆分,人工去定義封面的通用質量評價標準,比如畫面清晰度、鏡頭晃動、信息量等維度,然後每一個維度通過底層特徵或者傳統的圖像質量評價(IQA)方法計算評分,最終通過策略或者模型進行各維度評價結果的聚合。如果在業務場景中能夠獲取到相關監督信號,第一類方法是非常好並且值得嘗試的。在前期能力積累中以及考慮模型的可解釋性,我們主要採用第二類方法,在迭代一段時間之後,隨著樣本的積累可以相應轉化到第一類方法。
語義智能封面:
語義智能封面是與用戶意圖強相關的,不僅需要篩選出一些精彩片段,同時還需要對片段內容的語義有一定的把控,其中關鍵的技術難點就是如何獲取視頻片段的標籤。最常規的做法是通過圖像分類檢測或者視頻片段的監督學習進行分類打標,這種做法不過多展開介紹,重點介紹下面這種有業務場景特色的處理方式,即基於弱監督學習的視頻片段語義標籤挖掘。
在美團的場景下,我們可以看到用戶在拍攝一段點評視頻的同時,還會配有相應的一段描述文字,這個時候兩個模態之間是有很多相關性或者說共識存在的,而且視覺維度一個視頻片段和整段視頻的關係與文本維度一個詞與整段文本之間的關係是有可類比性的。在這種情況下,我們分別對視覺模態和文本模態進行一些處理,然後將兩方面相關的理解結果進行標籤合併、交叉校驗等數據清洗操作,進而挖掘出一大批「片段-標籤」對。
業務應用:
在實際生產環境中,我們通過這樣的方式從用戶評論的內容中挖掘出的標籤與視頻片段的相關性是非常高的,挖掘出的標籤可以直接用到相關的線上應用,比如最典型的用戶搜索場景下,搜尋引擎能夠根據用戶的查詢內容推出語義相關的封面呈現給用戶,通過這種方式視頻封面與用戶搜索內容的相關性有了比較明顯的提升。
3. 視頻生成
背景:
視頻生產在整個產品的鏈條中扮演的主要是擴充供給的作用,比如支撐商家相冊內容的豐富。
視頻生成技術:
在美團的場景下,視頻生產技術的一個分層抽象會經歷一個從下到上的處理流程,每一塊都會有一些相應的技術點。對於素材篩選,因為輸入的素材豐富多樣,涉及圖像、視頻、音頻、文本,所以每一塊都需要進行一些針對性的技術的處理,然後再向上通過合成渲染、統一的風格化處理,最後輸出內容到業務上進行分發和應用。下面主要以圖像素材的篩選以及處理為例,展示兩個業務場景下真實的技術應用實例。
應用場景:
① 餐飲場景
在餐飲場景下,我們需要為商家生成一些宣傳的小視頻或者動圖,這對於商家或者運營側來說是一個端到端的黑盒,只要輸入商家的店鋪ID就能自動化生成最終的一個呈現結果。這裡我們技術上圖像會進行很多素材的AI理解和處理:首先基於識別質量卡控、內容去重對商家的相冊進行一個整體的結構化以及質量的排序;然後通過理解內容找出來一些需要的圖像並基於圖像美學質量評價進行素材的精排;最後進行智能裁切、局部優選、動效渲染來整合素材生成最終的展示視頻。在這個自動化的處理流程中,AI技術扮演了重要的角色,比如在素材理解上對菜品的識別和理解能力是比較核心也是很有美團特色的,同時還有素材的智能裁切,這其實都依賴於我們在信息流場景下一些長期的實踐積累。
② 酒店場景
相比於餐飲場景,酒店場景多了一些酒店住宿行業的特色,業務上對於信息內容的呈現有類似於行業腳本這種比較好的呈現順序,同時這個場景下對於視頻和音頻相關的配合也有比較高的要求,AI會增量做一些音頻節拍的檢測輔助人工進行一個卡點,最終呈現出一個觀感和體驗更加好的相冊速覽的效果,用戶也能很方便地獲取各個維度的信息。
03
總結與展望
隨著AI技術的發展以及5G等通訊行業技術的提升,視頻在人們本地生活場景下將會扮演愈發重要的角色,視頻分析技術將在本地場景中發揮更大價值。通過無監督、自監督以及多模態相關的內容理解技術,挖掘利用業務場景下海量數據中的有效信息將是比較重要的一個技術發展方向。
今天的分享就到這裡,謝謝大家。