美團本地生活場景的短視頻分析

2020-12-04 datafuntalk

分享嘉賓:馬彬 博士 美團 技術專家

編輯整理:劉小輝

出品平臺:DataFunTalk、AI啟蒙者

導讀:在硬體、軟體技術發展的助推下,我們正進入一個視頻爆發的時代,無論從用戶還是內容維度,視頻數據都蘊含著非常大的信息量,在視頻數據的分析中AI算法大有可為,無論是視頻的創作、審核、編輯還是分發等環節都能看到AI技術的應用。在各種各樣業務場景的驅動下,美團開展了很多視頻分析相關的AI技術實踐。本次分享的題目是本地生活場景的短視頻分析,主要圍繞下面三點展開:

短視頻分析背景介紹短視頻分析技術在美團的技術實踐總結與展望01

短視頻分析背景介紹

1. 視頻行業發展趨勢

近年來,不管是從技術還是從日常生活,都能感受到我們正在進入到一個視頻爆發的年代,當然這背後的一些軟體和硬體的技術成為了這件事情的一個助推。從這些統計數據可以看到,無論是內容還是用戶維度,視頻數據都包含了非常大的信息量。在視頻數據的分析過程中,不管是視頻的創作、審核、編輯還是分發,AI算法都大有可為。這是視頻行業整體現狀的一個背景。

2. 美團AI ——"場景驅動技術"

美團的AI相關技術非常有特色,一個特點或者優勢是「場景驅動技術」。除了大家比較熟悉的外賣,美團在吃、住、行、購、玩以及生活事務等方面有各種各樣的業務應用場景,每個場景都會有一些特殊的視覺相關需求,在不同的場景下又會有不同特色數據內容的沉澱,這些場景和數據特點驅動著我們去做一些底層AI技術相關的沉澱,同時AI技術在打好一些基礎之後,又會反過來賦能業務場景的一些應用。計算機視覺技術顯然是AI平臺層一個不可或缺的部分,這也是今天我們將展開去呈現的一部分。

在美團的業務場景下,為什麼要對視頻數據進行利用和分析?以常見的用戶點評為例,傳統的文本加圖像在呈現信息的時候會有一些不足,相比之下,如果以視頻點評的形式去呈現一個非常有創意的內容,不僅對商家來說是一個比較好的信息的宣傳,對於用戶來說,也是一個更加生動的信息獲取的維度。在這種情況下,相信大家可以感受到美團在短視頻上其實是大有可為的。

按照視頻行業的大致劃分,美團的視頻絕大多數屬於本地生活場景的碎片消費,這其實也是符合大家的認知的。美團的業務場景非常多,不管是在B端還是C端,豐富的供給源和展位都有非常多短視頻內容的呈現。在這樣的背景下,可以看到美團不僅有豐富的應用場景,同時又有豐富的視頻內容和展位。對應到線上的這些應用,往下技術層要做的事情也就逐漸浮出水面,它是一個從視頻內容的素材供給到內容分發以及創意展示全鏈條的一個AI賦能的情況,同時也可以看到在每一個內容流轉的環節都有很多計算機視覺技術可以去發揮作用。

02

短視頻分析技術在美團的技術實踐

1. 視頻多標籤分類

背景:

對於原始視頻數據,僅僅利用元數據、文本或者用戶點擊行為開展業務應用,由於缺乏對視頻內容的把控,存在很多局限性。視頻打標通過對視覺內容進行一些理解能夠更好服務於內容運營、用戶畫像、搜索、推薦、廣告等業務應用,這其中的一些場景要求必須對內容有一些顯式標籤的把控。比如在內容運營的場景下,有時需要進行數據資產的盤點,希望知道美食的視頻有多少,酒店住宿的視頻有多少,然後對於缺失的部分有針對性進行補充運營,這種情況下對視頻內容的理解如果只是依靠嵌入特徵的隱式表徵是不太能滿足業務上的定製化需求的。在這樣的大背景下,我們需要對視頻內容進行一個標籤化的理解,即對視頻進行多標籤分類。

挑戰:

視頻多標籤分類有什麼難點呢?在美團的場景下,數據非常豐富多樣,如何有效構建模型以及我們的標籤體系成為分類模型啟動階段需要克服的第一個困難。其次,初始模型構建之後,前期要對標籤保證一個準確率,但是標籤覆蓋率可能會有一定問題,很多業務數據是打不上標籤的,如何進行標籤體系的擴展是第二步。最後,因為內容的更新和迭代是一個持續的過程,所以技術打標的能力也是需要有一套能夠增量學習的機制,從而進行高效的樣本迭代,這是第三個非常關鍵問題。下面分別就這三步介紹我們在這方面的一些技術實踐。

初始模型構建:

為了快速在業務場景下構建初始的打標能力,最直接的想法就是通過外源數據,利用一些公開的數據集進行知識和標籤的遷移。公開數據集中Google的YouTube-8M數據集與多標籤分類這個場景最為契合,這個數據集具有非常豐富的實體、場景、動作等各類標籤,而且相對通用,具有一定的遷移性,可以應用到我們的業務場景中。模型結構是相對容易處理的一件事情,往年的競賽中有很多可供參考的模型結構,比如常用的Aggregation、Sequential相關模型。其中,前者逐幀提取特徵,然後利用Pooling形成整個視頻的表徵,後者通過RNN序列建模進行視頻特徵的抽取。此外,假設提供原始視頻的情況下,還有3D Conv、Two-stream這樣兩類主流的視頻分類模型,這些基本涵蓋了視頻分類中主流的一些方法。結合我們的業務場景,由於我們的視頻大多是分鐘級或者幾十秒甚至十幾秒的小視頻,時序的長時上下文重要性不那麼強。同時我們的業務場景以實體和場景標籤為主,運動特徵雖然能夠提供增量信息,但在前期從零到一構建標籤模型的階段並不是剛需。結合這兩點,我們選擇了第一類Aggregation模型。

由於YouTube-8M數據集的內容和本地生活場景還是有比較大的差別,數據內容和標籤的差異是接下來我們要處理的一個更為困難和實際的問題,這也是當前任何一套數據驅動的Deep learning model需要克服的問題。在Facebook以及Google的一些工作的啟發下,我們提出了一套半監督的、知識遷移的學習範式,首先利用公開數據集訓練的Teacher Model在業務場景下的無標註數據上進行打標,在這個過程中利用置信度卡控、相似性距離度量或者Label Propagation這類半監督學習常用的方法進行一些偽標籤的清洗,從而獲得業務場景下的一些標註數據,然後利用這些標註數據進行Student model的微調。這個過程可以進行若干輪的迭代,Student model學習到一些信息之後,可以又變成Teacher model進行下一輪的迭代。通過這樣一番初始模型的構建,我們在業務場景的數據下,看到一個明顯的效果提升,不同的品類下的一些視頻標籤的準確率有了非常大的提升。

標籤體系擴展:

第二步緊接著面臨的問題是初始的標籤體系難以保證對業務場景內容有一個很好的覆蓋,這裡我們從橫向擴展與縱向細化兩方面進行了標籤體系的擴展。

① 橫向擴展

我們儘量在少標註的情況下通過兩方面的優化完成這件事。一方面對於這類打不上標籤的視頻,通過中間層的feature embedding進行視覺特徵的聚類,然後人工對聚類的結果進行抽象分析,選擇比較契合業務場景的標籤對一個或者一批視頻進行打標,快速進行橫向標籤的擴展。另一方面主動擴充內容理解的維度,在利用通用多標籤分類數據集遷移知識的同時,從場景分類、人臉檢測、人體分析等相關數據集去遷移知識。

② 縱向細化

標籤力度過粗是公開數據集標籤體系存在的另一個問題,為此我們結合業務場景下圖像理解積累的一些美食的場景分類以及菜品的細粒度識別相關的能力和模型,對視頻打標的結果進行了縱向的優化和擴展,完成一些細粒度標籤的菜品標註,從而為業務上的應用提供了非常好的幫助。

數據高效持續迭代:

第三步面臨的問題是如何實現數據高效持續的迭代,因為考慮到標籤體系的擴展過程以及樣本隨時間的遷移,要求我們有一個持續學習的過程。圖中藍色部分基本代表了模型的冷啟動與標籤維度擴展,更重要的是要有一套從線上回流的機制,對應紅色部分。一方面在沒有業務場景標籤交互的情況下,通過主動學習的方式查詢一些最值得人工標註的樣本,例如基於置信度或者多模型投票都可以很有效的找出模型理解不到位的線上真實樣本,然後通過人工標註的方式擴充樣本。另一方面業務場景中有很多弱監督的數據,利用這部分數據能夠很好的幫助我們持續去迭代模型的性能。

2. 視頻智能封面

背景:

在信息流場景下,最先呈現給用戶的信息通常都是需要經過精挑細選的。比如按搜出圖場景下,呈現給用戶的內容與用戶查詢的相關性需要非常強的個性化,而在頭圖優選或者推薦這些個性化要求相對弱的場景,即使不太知道用戶明確的意圖是什麼,我們也應該選擇相對質量較好的圖來進行一個呈現。這是以往信息流場景下圖像相關的應用,視頻智能封面的邏輯與這個其實是非常類似的,因為封面對於視頻來說就像是相冊的頭圖一樣。在前置的展位上,我們不能把整個視頻全部播放出去,需要選擇最精彩或者與用戶意圖最相關的一段作為封面進行呈現,這對於給用戶提供比較好的信息服務是非常重要的。

算法整體流程:

對於一個輸入視頻,首先需要進行一些候選片段的抽取,然後比較關鍵的一個過程是對這些片段進行篩選和排序,排序的質量直接決定了最終優選封面的好壞。在用戶沒有特別明確的意圖或者偏好的場景下,我們可以從質量或者其他角度推薦最為穩妥的一套通用智能封面,而在搜索或者其他用戶意圖比較明確的場景,我們需要根據語義進行個性化的理解,然後推薦出語義相關的智能封面。下面分別介紹通用智能封面和語義智能封面相關算法流程。

通用智能封面:

通用智能封面最核心的部分是視頻片段的重要性度量,我們需要從視頻的重要性波形圖中抽出重要性最高的片段往前排作為封面。現有的方法主要分為兩類,第一類是端到端模型,利用強監督學習、弱監督學習或者強化學習的方式進行建模,比如利用強監督學習直接去回歸人工標註的顯著性分數或者精彩度評分值。另一類在冷啟動階段更好處理,可解釋性也更強,做法是利用重要性度量進行維度的拆分,人工去定義封面的通用質量評價標準,比如畫面清晰度、鏡頭晃動、信息量等維度,然後每一個維度通過底層特徵或者傳統的圖像質量評價(IQA)方法計算評分,最終通過策略或者模型進行各維度評價結果的聚合。如果在業務場景中能夠獲取到相關監督信號,第一類方法是非常好並且值得嘗試的。在前期能力積累中以及考慮模型的可解釋性,我們主要採用第二類方法,在迭代一段時間之後,隨著樣本的積累可以相應轉化到第一類方法。

語義智能封面:

語義智能封面是與用戶意圖強相關的,不僅需要篩選出一些精彩片段,同時還需要對片段內容的語義有一定的把控,其中關鍵的技術難點就是如何獲取視頻片段的標籤。最常規的做法是通過圖像分類檢測或者視頻片段的監督學習進行分類打標,這種做法不過多展開介紹,重點介紹下面這種有業務場景特色的處理方式,即基於弱監督學習的視頻片段語義標籤挖掘。

在美團的場景下,我們可以看到用戶在拍攝一段點評視頻的同時,還會配有相應的一段描述文字,這個時候兩個模態之間是有很多相關性或者說共識存在的,而且視覺維度一個視頻片段和整段視頻的關係與文本維度一個詞與整段文本之間的關係是有可類比性的。在這種情況下,我們分別對視覺模態和文本模態進行一些處理,然後將兩方面相關的理解結果進行標籤合併、交叉校驗等數據清洗操作,進而挖掘出一大批「片段-標籤」對。

業務應用:

在實際生產環境中,我們通過這樣的方式從用戶評論的內容中挖掘出的標籤與視頻片段的相關性是非常高的,挖掘出的標籤可以直接用到相關的線上應用,比如最典型的用戶搜索場景下,搜尋引擎能夠根據用戶的查詢內容推出語義相關的封面呈現給用戶,通過這種方式視頻封面與用戶搜索內容的相關性有了比較明顯的提升。

3. 視頻生成

背景:

視頻生產在整個產品的鏈條中扮演的主要是擴充供給的作用,比如支撐商家相冊內容的豐富。

視頻生成技術:

在美團的場景下,視頻生產技術的一個分層抽象會經歷一個從下到上的處理流程,每一塊都會有一些相應的技術點。對於素材篩選,因為輸入的素材豐富多樣,涉及圖像、視頻、音頻、文本,所以每一塊都需要進行一些針對性的技術的處理,然後再向上通過合成渲染、統一的風格化處理,最後輸出內容到業務上進行分發和應用。下面主要以圖像素材的篩選以及處理為例,展示兩個業務場景下真實的技術應用實例。

應用場景:

① 餐飲場景

在餐飲場景下,我們需要為商家生成一些宣傳的小視頻或者動圖,這對於商家或者運營側來說是一個端到端的黑盒,只要輸入商家的店鋪ID就能自動化生成最終的一個呈現結果。這裡我們技術上圖像會進行很多素材的AI理解和處理:首先基於識別質量卡控、內容去重對商家的相冊進行一個整體的結構化以及質量的排序;然後通過理解內容找出來一些需要的圖像並基於圖像美學質量評價進行素材的精排;最後進行智能裁切、局部優選、動效渲染來整合素材生成最終的展示視頻。在這個自動化的處理流程中,AI技術扮演了重要的角色,比如在素材理解上對菜品的識別和理解能力是比較核心也是很有美團特色的,同時還有素材的智能裁切,這其實都依賴於我們在信息流場景下一些長期的實踐積累。

② 酒店場景

相比於餐飲場景,酒店場景多了一些酒店住宿行業的特色,業務上對於信息內容的呈現有類似於行業腳本這種比較好的呈現順序,同時這個場景下對於視頻和音頻相關的配合也有比較高的要求,AI會增量做一些音頻節拍的檢測輔助人工進行一個卡點,最終呈現出一個觀感和體驗更加好的相冊速覽的效果,用戶也能很方便地獲取各個維度的信息。

03

總結與展望

隨著AI技術的發展以及5G等通訊行業技術的提升,視頻在人們本地生活場景下將會扮演愈發重要的角色,視頻分析技術將在本地場景中發揮更大價值。通過無監督、自監督以及多模態相關的內容理解技術,挖掘利用業務場景下海量數據中的有效信息將是比較重要的一個技術發展方向。

今天的分享就到這裡,謝謝大家。

相關焦點

  • 從「美團圈圈」橫空出世,看本地生活社交電商新格局
    編輯導讀:近日,美團推出「美團圈圈」,主打本地團購特惠秒殺服務,通過社交電商渠道為用戶提供美團吃喝玩樂優質高折扣產品。西安站已上線產品並進入正式運營階段,取得了不錯的成績。本文作者將對此進行分析,希望對你有幫助。
  • 從「美團團節社」橫空出世,看本地生活社交電商新格局
    這意味著美團將戰火燒至本地生活社交電商領域,又一巨頭加入本地生活社交電商大戰。「美團團節社」是美團推出的新項目,定位為「特惠版美團」。而美團的焦慮主要來自三個方面。2018年本地生活市場線上規模達到15,620.7億元,而2019年僅上半年,交易規模就達到了9159.8億元。目前看似是美團一家獨大,但阿里"餓了麼+口碑」生態的阿里本地生活正加速以數位化為核心布局本地生活領域。
  • 本地生活:上遊巨震,美團阿里還有漫長對峙
    但2020年1月下旬以來,美團股價一度下跌近14%,遠超其他幾家巨頭公司的跌幅,反應了疫情之下,資本市場對本地生活服務遭受負面影響的預期。本地生活公司都是平臺生意,供給方尤其是佔比最大的餐飲行業受挫會直接殃及它們。不過根據SARS時期的經驗,疫情過後,餐飲業的反彈也最快,能夠保住現金流的餐飲品牌會活下來,新的供給也會重新出現。
  • 牽手同程藝龍搶食本地生活市場 快手還需更多「老鐵」
    作為本地生活市場的後來者,快手想在該領域分一杯羹,還面臨著相當多的難題。 依託「短視頻+直播」模式 今年8月,快手低調上線本地生活的二級入口。
  • 抖音「偷襲」美團,張一鳴與王興扳手腕
    據《晚點 LatePost》報導,元旦後,字節跳動將調一萬名員工,加入新成立的「本地直營業務中心」,以抖音本地流量為入口,拓展餐飲、旅遊等本地生活服務。 字節跳動已布局資訊、短視頻、教育、辦公等多領域,這次大規模殺入本地生活市場,戰略落地重心選擇了抖音。
  • 字節跳動布局本地生活;京喜快遞開啟加盟;海底撈悄悄漲價;
    字節跳動加速商業化 布局本地生活《晚點 LatePost》獲悉,字節跳動商業化部成立了專門拓展本地生活業務的 「本地直營業務中心」。在原 SMB(中小客戶)業務線撤銷後 ,約一萬名員工將在明年 1 月調整至該中心,圍繞生活服務、文化旅遊和餐飲等行業進行客戶挖掘。據了解,字節跳動的本地生活業務將以抖音為主要平臺展開。
  • 抖音短視頻電腦版如何上傳本地視頻發布?
    18183首頁 抖音短視頻電腦版如何上傳本地視頻發布? 抖音短視頻電腦版如何上傳本地視頻發布?
  • 美團與餓了麼的混戰
    10月29日消息,Trustdata發布《中國移動網際網路行業發展分析報告》,報告顯示,2020年1-9月,中國5G手機銷量累計突破1億臺;社交、電商及短視頻領域用戶規模排名移動網際網路Top3,短視頻超越綜合視頻且差距逐漸拉大;9月生鮮電商MAU達2492萬;美團及餓了麼用戶規模差值放大至1260.7萬。
  • 從出行到酒店,切入本地生活才是哈囉的野心!
    今年7月,哈羅單車與高德地圖達成合作,具體包括在高德地圖開設騎行服務入口;基於海量用戶理解,共同開發一站式服務內容;以及基於高德位置服務解決方案,雙方一道探索多種場景的融合應用。通過該合作,哈囉也有望為自己搭建起一個出行+導航的閉環。
  • 減傭和返傭,一字之差暴露阿里本地生活的邊界難破
    文 | 陸水月戰火從未平息,阿里和美團在生活服務領域再度開槓。毫無疑問,佣金自然是首要的攻擊點。3月16日,在「2020年商家大會」上,阿里本地生活又扔出重磅炸彈。阿里本地生活服務公司總裁王景峰在會上透露,阿里本地生活將繼續為全行業提供佣金減免,其佣金將整體低於其他平臺3-5%。
  • 短視頻競品分析報告:抖音 vs 快手
    導語:這幾年隨著4G和5G基礎設施的不斷完善,短視頻行業也持續火爆。目前短視頻行業的主要用戶&時長已被抖音和快手兩大平臺佔據,平臺也在不斷深入探索更多的業務場景和商業變現模式,如直播帶貨、電商、在線教育等。
  • 美團到店餐飲及本地生活服務商戶免傭政策擴至全國 雲南本土商戶...
    當前,新冠肺炎疫情影響仍在持續,為幫助更多商戶抗擊疫情、共渡難關,美團近日宣布,在此前的「七項商戶幫扶措施」基礎上,針對到店餐飲商戶及本地生活服務商戶佣金減免措施由武漢地區升級到全國範圍,並進一步升級了商戶幫扶措施。
  • 抖音產品分析報告:如何成為短視頻領域的翹楚
    9月20日上線,是一個幫助用戶表達自我,專注於年輕人的記錄美好生活的音樂短視頻平臺。用戶-場景-需求表四、競品分析縱觀整個短視頻行業,目前抖音和快手佔據了半壁江山,自2013年7月,「GIF快手」從工具轉型為短視頻社區,打開短視頻平臺的新格局。
  • 數字人民幣走進生活:滴滴、美團、B站應用場景落地
    央行數字貨幣牽手滴滴、美團、B站央行數字貨幣研究所與滴滴達成戰略合作,探索數字貨幣在智慧出行領域的場景的創新和應用!實際上,除了滴滴之外,央行數字貨幣還與多家網際網路企業一起建立應用場景探索:據財新消息,7月8日,滴滴、美團點評以及嗶哩嗶哩(B 站)等多家均已參與數字貨幣項目的銀行展開合作。其中美團點評或將嘗試拓展美團單車等使用場景,而 B 站與參與銀行的合作已進入技術開發階段。另外,字節跳動等公司也在與銀行討論合作的可能性。
  • 京東推出「梨渦」,入局校園本地生活服務
    代表著「梨渦」將繼承「梨喔喔」的社交功能,在配備如本地優惠購物、學生賺佣金等一系列新功能,加速京東在校園本地生活的部署。                                  梨渦APP界面共包括「你我」、「閒時」、「成長」「本地」以及「我的」五個板塊。        用戶登錄梨渦後,首頁「你我」功能區中的「推薦」導航欄會動態推送文字、圖片、音視頻等多媒體形式的內容,並且封面頁附有地理位置等相關信息,界面視覺上有些類似小紅書。用戶可以對自己感興趣或者喜歡的動態進行點讚或評論,或者自主發布動態內容。
  • 極光:Q3短視頻穩固佔據用戶手機注意力頭把交椅
    、網絡即生活的新青年;應用大數據分析和AI技術,通過創新機制, Soul構建了沒有固化身份和人設的無壓力社交場景,並打造基於興趣和生活分享的海量UGC內容生態,讓三觀、興趣、性格匹配的人群在平等善意的氛圍社交。
  • 短視頻運營(上篇)短視頻,從寫好劇本開始
    短視頻行業概述 短視頻如今正處於風口浪尖上,用戶數據增長堪稱神速,其中一大原因就是,短視頻連接了多元化的場景。比如,短視頻帶火的網紅旅遊,網紅城市,網紅小店等等。
  • 東小店南少:美團團節社是什麼?美團團節社怎麼加入?美團團節社怎麼...
    2020雙十一電商大戰正酣,這邊貓狗加上拼多多三國殺好不熱鬧,那邊美團也不甘寂寞,悄悄地推出了一個叫「美團團節社」的項目,23小時註冊人數已突破50萬。說實話在群裡聽到這個美團團節社的時候,完全沒有什麼概念,之前很多人也問過南少哪裡能領美團外賣紅包優惠券什麼的,那麼現在就有答案了。一、美團團節社是什麼?
  • 產品分析 | 西瓜視頻,「最懂你」的短視頻平臺
    1.2 體驗信息體驗機型:IPHONE 6s系統版本:IOS 13.3.1APP版本號:4.3.4體驗時間:2019年1月-2020年3月(筆者自2018年來有使用西瓜視頻的習慣)1.3 分析目的分析西瓜視頻的產品戰略、產品功能和產品表現等特性;分析短視頻市場的競爭態勢和發展方向
  • 你看不懂的美團版圖,是帝國的拼圖遊戲
    ……那麼美團的落地的行動方案是什麼呢?我們從商業的角度來分析美團的主邏輯,毫無疑問,美團所處的市場是一個雙邊市場。市場的一邊是用戶,市場的另外一邊是商家。美團作為平臺方,連接著「用戶端」和「商家端」。在沒有美團之前,用戶和商家是有著天然的連接的。