美團本地生活場景的短視頻分析

2020-12-03 datafuntalk

分享嘉賓:馬彬 博士 美團 技術專家

編輯整理:劉小輝

出品平臺:DataFunTalk、AI啟蒙者

導讀:在硬體、軟體技術發展的助推下,我們正進入一個視頻爆發的時代,無論從用戶還是內容維度,視頻數據都蘊含著非常大的信息量,在視頻數據的分析中AI算法大有可為,無論是視頻的創作、審核、編輯還是分發等環節都能看到AI技術的應用。在各種各樣業務場景的驅動下,美團開展了很多視頻分析相關的AI技術實踐。本次分享的題目是本地生活場景的短視頻分析,主要圍繞下面三點展開:

短視頻分析背景介紹短視頻分析技術在美團的技術實踐總結與展望01

短視頻分析背景介紹

1. 視頻行業發展趨勢

近年來,不管是從技術還是從日常生活,都能感受到我們正在進入到一個視頻爆發的年代,當然這背後的一些軟體和硬體的技術成為了這件事情的一個助推。從這些統計數據可以看到,無論是內容還是用戶維度,視頻數據都包含了非常大的信息量。在視頻數據的分析過程中,不管是視頻的創作、審核、編輯還是分發,AI算法都大有可為。這是視頻行業整體現狀的一個背景。

2. 美團AI ——"場景驅動技術"

美團的AI相關技術非常有特色,一個特點或者優勢是「場景驅動技術」。除了大家比較熟悉的外賣,美團在吃、住、行、購、玩以及生活事務等方面有各種各樣的業務應用場景,每個場景都會有一些特殊的視覺相關需求,在不同的場景下又會有不同特色數據內容的沉澱,這些場景和數據特點驅動著我們去做一些底層AI技術相關的沉澱,同時AI技術在打好一些基礎之後,又會反過來賦能業務場景的一些應用。計算機視覺技術顯然是AI平臺層一個不可或缺的部分,這也是今天我們將展開去呈現的一部分。

在美團的業務場景下,為什麼要對視頻數據進行利用和分析?以常見的用戶點評為例,傳統的文本加圖像在呈現信息的時候會有一些不足,相比之下,如果以視頻點評的形式去呈現一個非常有創意的內容,不僅對商家來說是一個比較好的信息的宣傳,對於用戶來說,也是一個更加生動的信息獲取的維度。在這種情況下,相信大家可以感受到美團在短視頻上其實是大有可為的。

按照視頻行業的大致劃分,美團的視頻絕大多數屬於本地生活場景的碎片消費,這其實也是符合大家的認知的。美團的業務場景非常多,不管是在B端還是C端,豐富的供給源和展位都有非常多短視頻內容的呈現。在這樣的背景下,可以看到美團不僅有豐富的應用場景,同時又有豐富的視頻內容和展位。對應到線上的這些應用,往下技術層要做的事情也就逐漸浮出水面,它是一個從視頻內容的素材供給到內容分發以及創意展示全鏈條的一個AI賦能的情況,同時也可以看到在每一個內容流轉的環節都有很多計算機視覺技術可以去發揮作用。

02

短視頻分析技術在美團的技術實踐

1. 視頻多標籤分類

背景:

對於原始視頻數據,僅僅利用元數據、文本或者用戶點擊行為開展業務應用,由於缺乏對視頻內容的把控,存在很多局限性。視頻打標通過對視覺內容進行一些理解能夠更好服務於內容運營、用戶畫像、搜索、推薦、廣告等業務應用,這其中的一些場景要求必須對內容有一些顯式標籤的把控。比如在內容運營的場景下,有時需要進行數據資產的盤點,希望知道美食的視頻有多少,酒店住宿的視頻有多少,然後對於缺失的部分有針對性進行補充運營,這種情況下對視頻內容的理解如果只是依靠嵌入特徵的隱式表徵是不太能滿足業務上的定製化需求的。在這樣的大背景下,我們需要對視頻內容進行一個標籤化的理解,即對視頻進行多標籤分類。

挑戰:

視頻多標籤分類有什麼難點呢?在美團的場景下,數據非常豐富多樣,如何有效構建模型以及我們的標籤體系成為分類模型啟動階段需要克服的第一個困難。其次,初始模型構建之後,前期要對標籤保證一個準確率,但是標籤覆蓋率可能會有一定問題,很多業務數據是打不上標籤的,如何進行標籤體系的擴展是第二步。最後,因為內容的更新和迭代是一個持續的過程,所以技術打標的能力也是需要有一套能夠增量學習的機制,從而進行高效的樣本迭代,這是第三個非常關鍵問題。下面分別就這三步介紹我們在這方面的一些技術實踐。

初始模型構建:

為了快速在業務場景下構建初始的打標能力,最直接的想法就是通過外源數據,利用一些公開的數據集進行知識和標籤的遷移。公開數據集中Google的YouTube-8M數據集與多標籤分類這個場景最為契合,這個數據集具有非常豐富的實體、場景、動作等各類標籤,而且相對通用,具有一定的遷移性,可以應用到我們的業務場景中。模型結構是相對容易處理的一件事情,往年的競賽中有很多可供參考的模型結構,比如常用的Aggregation、Sequential相關模型。其中,前者逐幀提取特徵,然後利用Pooling形成整個視頻的表徵,後者通過RNN序列建模進行視頻特徵的抽取。此外,假設提供原始視頻的情況下,還有3D Conv、Two-stream這樣兩類主流的視頻分類模型,這些基本涵蓋了視頻分類中主流的一些方法。結合我們的業務場景,由於我們的視頻大多是分鐘級或者幾十秒甚至十幾秒的小視頻,時序的長時上下文重要性不那麼強。同時我們的業務場景以實體和場景標籤為主,運動特徵雖然能夠提供增量信息,但在前期從零到一構建標籤模型的階段並不是剛需。結合這兩點,我們選擇了第一類Aggregation模型。

由於YouTube-8M數據集的內容和本地生活場景還是有比較大的差別,數據內容和標籤的差異是接下來我們要處理的一個更為困難和實際的問題,這也是當前任何一套數據驅動的Deep learning model需要克服的問題。在Facebook以及Google的一些工作的啟發下,我們提出了一套半監督的、知識遷移的學習範式,首先利用公開數據集訓練的Teacher Model在業務場景下的無標註數據上進行打標,在這個過程中利用置信度卡控、相似性距離度量或者Label Propagation這類半監督學習常用的方法進行一些偽標籤的清洗,從而獲得業務場景下的一些標註數據,然後利用這些標註數據進行Student model的微調。這個過程可以進行若干輪的迭代,Student model學習到一些信息之後,可以又變成Teacher model進行下一輪的迭代。通過這樣一番初始模型的構建,我們在業務場景的數據下,看到一個明顯的效果提升,不同的品類下的一些視頻標籤的準確率有了非常大的提升。

標籤體系擴展:

第二步緊接著面臨的問題是初始的標籤體系難以保證對業務場景內容有一個很好的覆蓋,這裡我們從橫向擴展與縱向細化兩方面進行了標籤體系的擴展。

① 橫向擴展

我們儘量在少標註的情況下通過兩方面的優化完成這件事。一方面對於這類打不上標籤的視頻,通過中間層的feature embedding進行視覺特徵的聚類,然後人工對聚類的結果進行抽象分析,選擇比較契合業務場景的標籤對一個或者一批視頻進行打標,快速進行橫向標籤的擴展。另一方面主動擴充內容理解的維度,在利用通用多標籤分類數據集遷移知識的同時,從場景分類、人臉檢測、人體分析等相關數據集去遷移知識。

② 縱向細化

標籤力度過粗是公開數據集標籤體系存在的另一個問題,為此我們結合業務場景下圖像理解積累的一些美食的場景分類以及菜品的細粒度識別相關的能力和模型,對視頻打標的結果進行了縱向的優化和擴展,完成一些細粒度標籤的菜品標註,從而為業務上的應用提供了非常好的幫助。

數據高效持續迭代:

第三步面臨的問題是如何實現數據高效持續的迭代,因為考慮到標籤體系的擴展過程以及樣本隨時間的遷移,要求我們有一個持續學習的過程。圖中藍色部分基本代表了模型的冷啟動與標籤維度擴展,更重要的是要有一套從線上回流的機制,對應紅色部分。一方面在沒有業務場景標籤交互的情況下,通過主動學習的方式查詢一些最值得人工標註的樣本,例如基於置信度或者多模型投票都可以很有效的找出模型理解不到位的線上真實樣本,然後通過人工標註的方式擴充樣本。另一方面業務場景中有很多弱監督的數據,利用這部分數據能夠很好的幫助我們持續去迭代模型的性能。

2. 視頻智能封面

背景:

在信息流場景下,最先呈現給用戶的信息通常都是需要經過精挑細選的。比如按搜出圖場景下,呈現給用戶的內容與用戶查詢的相關性需要非常強的個性化,而在頭圖優選或者推薦這些個性化要求相對弱的場景,即使不太知道用戶明確的意圖是什麼,我們也應該選擇相對質量較好的圖來進行一個呈現。這是以往信息流場景下圖像相關的應用,視頻智能封面的邏輯與這個其實是非常類似的,因為封面對於視頻來說就像是相冊的頭圖一樣。在前置的展位上,我們不能把整個視頻全部播放出去,需要選擇最精彩或者與用戶意圖最相關的一段作為封面進行呈現,這對於給用戶提供比較好的信息服務是非常重要的。

算法整體流程:

對於一個輸入視頻,首先需要進行一些候選片段的抽取,然後比較關鍵的一個過程是對這些片段進行篩選和排序,排序的質量直接決定了最終優選封面的好壞。在用戶沒有特別明確的意圖或者偏好的場景下,我們可以從質量或者其他角度推薦最為穩妥的一套通用智能封面,而在搜索或者其他用戶意圖比較明確的場景,我們需要根據語義進行個性化的理解,然後推薦出語義相關的智能封面。下面分別介紹通用智能封面和語義智能封面相關算法流程。

通用智能封面:

通用智能封面最核心的部分是視頻片段的重要性度量,我們需要從視頻的重要性波形圖中抽出重要性最高的片段往前排作為封面。現有的方法主要分為兩類,第一類是端到端模型,利用強監督學習、弱監督學習或者強化學習的方式進行建模,比如利用強監督學習直接去回歸人工標註的顯著性分數或者精彩度評分值。另一類在冷啟動階段更好處理,可解釋性也更強,做法是利用重要性度量進行維度的拆分,人工去定義封面的通用質量評價標準,比如畫面清晰度、鏡頭晃動、信息量等維度,然後每一個維度通過底層特徵或者傳統的圖像質量評價(IQA)方法計算評分,最終通過策略或者模型進行各維度評價結果的聚合。如果在業務場景中能夠獲取到相關監督信號,第一類方法是非常好並且值得嘗試的。在前期能力積累中以及考慮模型的可解釋性,我們主要採用第二類方法,在迭代一段時間之後,隨著樣本的積累可以相應轉化到第一類方法。

語義智能封面:

語義智能封面是與用戶意圖強相關的,不僅需要篩選出一些精彩片段,同時還需要對片段內容的語義有一定的把控,其中關鍵的技術難點就是如何獲取視頻片段的標籤。最常規的做法是通過圖像分類檢測或者視頻片段的監督學習進行分類打標,這種做法不過多展開介紹,重點介紹下面這種有業務場景特色的處理方式,即基於弱監督學習的視頻片段語義標籤挖掘。

在美團的場景下,我們可以看到用戶在拍攝一段點評視頻的同時,還會配有相應的一段描述文字,這個時候兩個模態之間是有很多相關性或者說共識存在的,而且視覺維度一個視頻片段和整段視頻的關係與文本維度一個詞與整段文本之間的關係是有可類比性的。在這種情況下,我們分別對視覺模態和文本模態進行一些處理,然後將兩方面相關的理解結果進行標籤合併、交叉校驗等數據清洗操作,進而挖掘出一大批「片段-標籤」對。

業務應用:

在實際生產環境中,我們通過這樣的方式從用戶評論的內容中挖掘出的標籤與視頻片段的相關性是非常高的,挖掘出的標籤可以直接用到相關的線上應用,比如最典型的用戶搜索場景下,搜尋引擎能夠根據用戶的查詢內容推出語義相關的封面呈現給用戶,通過這種方式視頻封面與用戶搜索內容的相關性有了比較明顯的提升。

3. 視頻生成

背景:

視頻生產在整個產品的鏈條中扮演的主要是擴充供給的作用,比如支撐商家相冊內容的豐富。

視頻生成技術:

在美團的場景下,視頻生產技術的一個分層抽象會經歷一個從下到上的處理流程,每一塊都會有一些相應的技術點。對於素材篩選,因為輸入的素材豐富多樣,涉及圖像、視頻、音頻、文本,所以每一塊都需要進行一些針對性的技術的處理,然後再向上通過合成渲染、統一的風格化處理,最後輸出內容到業務上進行分發和應用。下面主要以圖像素材的篩選以及處理為例,展示兩個業務場景下真實的技術應用實例。

應用場景:

① 餐飲場景

在餐飲場景下,我們需要為商家生成一些宣傳的小視頻或者動圖,這對於商家或者運營側來說是一個端到端的黑盒,只要輸入商家的店鋪ID就能自動化生成最終的一個呈現結果。這裡我們技術上圖像會進行很多素材的AI理解和處理:首先基於識別質量卡控、內容去重對商家的相冊進行一個整體的結構化以及質量的排序;然後通過理解內容找出來一些需要的圖像並基於圖像美學質量評價進行素材的精排;最後進行智能裁切、局部優選、動效渲染來整合素材生成最終的展示視頻。在這個自動化的處理流程中,AI技術扮演了重要的角色,比如在素材理解上對菜品的識別和理解能力是比較核心也是很有美團特色的,同時還有素材的智能裁切,這其實都依賴於我們在信息流場景下一些長期的實踐積累。

② 酒店場景

相比於餐飲場景,酒店場景多了一些酒店住宿行業的特色,業務上對於信息內容的呈現有類似於行業腳本這種比較好的呈現順序,同時這個場景下對於視頻和音頻相關的配合也有比較高的要求,AI會增量做一些音頻節拍的檢測輔助人工進行一個卡點,最終呈現出一個觀感和體驗更加好的相冊速覽的效果,用戶也能很方便地獲取各個維度的信息。

03

總結與展望

隨著AI技術的發展以及5G等通訊行業技術的提升,視頻在人們本地生活場景下將會扮演愈發重要的角色,視頻分析技術將在本地場景中發揮更大價值。通過無監督、自監督以及多模態相關的內容理解技術,挖掘利用業務場景下海量數據中的有效信息將是比較重要的一個技術發展方向。

今天的分享就到這裡,謝謝大家。

相關焦點

  • 支付寶美團本地生活戰事未了
    因而,「飯小圈」及一系列的新動作,可能是美團在社交化方面探索的新信號。而回歸社交之於網際網路的原始價值,隱約可看到美團支付寶本地生活服務戰場「小男孩」原子彈的輪廓。 美團雖市值與現金儲備都不如阿里,但其連結可在微信中暢通無阻。在本地生活社交這個領域,如果美團能拿出一款不錯的社交產品,可能將會是一個獨家競爭優勢。 一方面,從團節社到拼好飯,美團實際上已經積累了一些的社交化的本地生活運營經驗。另一方面,大眾點評中,用戶點評本身其實就是一種互動,而C端與C端的評論互動本質上是一種輕社交。
  • 寫了10篇短視頻產品分析後,我似乎知道怎麼做一款短視頻產品了……
    相信有的朋友已經知道是哪個產品了,沒錯就是快手,這似乎是筆者下載的第一款短視頻產品,也勾起了筆者對短視頻產品的興趣。而後筆者一直留意各種主流的、非主流的短視頻產品,半年內體驗過幾十款短視頻產品,寫下10篇短視頻產品分析/體驗文,現在筆者就聊聊自己對短視頻產品一番研究後,到底怎麼做一款短視頻產品的想法,各位看官,請上座。
  • 美團外賣產品分析報告|美團外賣,送啥都快
    而美團外賣作為其中的翹楚,喊出的口號是「美團外賣,送啥都快」,你可以在上面解決吃飯、買菜、買藥等一系列生活所需。本文將對美團外賣進行深入的分析,希望對你有幫助。 2.2 餓了麼 2008年創立的本地生活平臺,主營在線外賣、新零售、即時配送和餐飲供應鏈等業務。 2011年 獲得來自金沙江創投的數百萬美元A輪投資,此後備受資本市場的青睞,於2013年分部完成B輪和C輪融資。
  • 答案或許是短視頻電商
    陸玖財經的答案很奇葩,也許會是短視頻。戰略高地拼多多要砸5億入局社區團購;大連即將進入買菜不要錢時代;盒馬正在醞釀在北京、上海做社區團購;王興在內部會議上表示,美團優選這次必須贏下來;滴滴程維這次做橙心優選,也是下了決心要拿下,這場戰役不能輸。
  • 美團外賣快餐業務分析
    文章對美團外賣的快餐業務進行了系統的分析,希望通過此文能夠加深你對外賣行業的認識,了解美團外賣行業、及外賣需求、產品設計、運營策略。二、產品設計因為餐飲外賣佔70%以上,所以以下主要分析餐飲外賣業務;1. 通過用戶生活場景找到用戶需求找了一些生活的場景,在進三餐的時候裡面有很多的衝突。
  • 抖音產品分析報告:如何成為短視頻領域的翹楚
    二、產品市場分析本節主要分析了整個網際網路市場表現,分析了視頻與短視頻行業的相關數據表現,為後續的分析提供依據。用戶-場景-需求表四、競品分析縱觀整個短視頻行業,目前抖音和快手佔據了半壁江山,自2013年7月,「GIF快手」從工具轉型為短視頻社區,打開短視頻平臺的新格局。
  • 社區團購產品競品分析:美團優選、橙心優選、多多買菜、興盛優選
    隨著美團、滴滴等大廠的進入,社區團購市場的競爭變得白熱化了起來。本文作者就對目前市場上的四種社區團購產品進行了分析,看看誰更勝一籌吧。1.3.2 重獲新機但在疫情期間,社區團購意外成為居民生活的重要支撐,GMV和滲透率突飛猛進,分別從供給端和需求端分析原因:供給端:疫情期間交通運輸受阻,農貿市場關閉,倒逼農戶與經銷商接觸生鮮電商平臺。
  • 競品分析:三足鼎立下的短視頻行業分析
    本文以目前短視頻行業領先的快手、秒拍、美拍為例進行競品分析,通過對幾款產品全方位的分析,推斷短視頻行業的前景及未來的一個走勢。表現層分析8. 總結一、行業分析1.1國內現狀如果說2016年是直播APP的風口,那麼2017年則可以稱得上是短視頻的風口。雖然短視頻行業已不是什麼新鮮事,早前優酷,土豆等都早有布局,但直到今年才真正火起來,不知不覺短視頻用戶已經達到了1.31億之巨。
  • 極光2019 Q3報告:短視頻時長佔比大幅增長,社交、新聞時長被搶奪
    極光觀點:  1. 2019年三季度,短視頻用戶使用時長佔比大幅增長:暑期來臨,網民的app使用時長向短視頻、手機遊戲、在線閱讀等休閒娛樂相關行業轉移,即時通訊、綜合新聞的時長被擠佔  2.移動用戶搶奪白熱化:支付結算、短視頻和手機銀行行業同比規模增量居前三,綜合商城行業在原有的巨大用戶規模上仍有近億人的增長
  • 飛輪轉動之後:「吃住行遊購娛一體化」能否成為美團新動能?
    同時,還可以藉助網友UGC的力量,為消費者推薦「必吃榜」餐廳、「必住榜」酒店、「必玩榜」景區、「必逛榜」購物中心等,佔據消費者們的本地生活、異地旅遊的消費心智。下一步,如何將這些需求融合化,美團也開始了新的探索。比如,在第二季度財報中,美團提及,高端酒店的業績貢獻增長不少。其中,美團於2019年4月推出的面向高端酒店的「住+X」營銷新模式「長青計劃」,就是融合發展的先行先試。
  • 中小商家進擊本地生活市場
    12月12日,阿里本地生活服務旗下的口碑和餓了麼集體啟動新一輪促銷。此次雙12從12月1日上線,直到11日都在預熱中,而最大的優惠在12日才生效。口碑和餓了麼披露數據顯示,當日0點到12點,全國消費者用口碑APP點單和購買吃喝玩樂套餐的筆數超過800萬筆,較雙11增長近2成;同期餓了麼訂單數也增長近12%。從地域上看,上海、北京和廣州成為線下吃喝玩樂消費最為火爆的城市。
  • 產品分析 | 西瓜視頻,「最懂你」的短視頻平臺
    1.2 體驗信息體驗機型:IPHONE 6s系統版本:IOS 13.3.1APP版本號:4.3.4體驗時間:2019年1月-2020年3月(筆者自2018年來有使用西瓜視頻的習慣)1.3 分析目的分析西瓜視頻的產品戰略、產品功能和產品表現等特性;分析短視頻市場的競爭態勢和發展方向
  • 經過5個月的體驗,我寫下這篇抖音短視頻的產品分析
    產品簡介抖音上線於2016年9月26日,是一款專注於新生代的音樂創意短視頻App,視頻時常限制在5-15s。3. 產品定位按照視頻長度分類:朋友圈的小視頻是10秒,快手短視頻上傳是12秒,這類短視頻以UGC為主,加入了更多可供模仿舞蹈、音樂以及多場景切換鏡頭的創意視頻調動用戶參與。多為記錄生活的有趣事物。
  • 短視頻平臺發展優勢,短視頻系統開發需要考慮的細節問題
    隨著直播的發展進入行業的成熟期,很多產業不能及時地參與進來,此時更多商家便會尋找新的投資方向,因此短視頻APP的誕生,豐富了直播內容,增強了平臺的趣味性,加強了與用戶之間的互動性,從而帶動了短視頻的發展。
  • 王興談美團優選:將更開放助推上下遊本地商家發展
    36氪獲悉,在財報發布後的電話會議上,美團CEO王興談及外界較為關注的美團優選,稱目前的重點仍然是優化經營和建設核心能力,將把優選打造成一個更加開放的業務,與更多行業上下遊的本地商家共同發展。王興在此次電話會上也再次強調,在線食雜零售是一個更大的概念,並不只有一種業務模式,也相信這塊市場有足夠的空間能夠容納更多玩家。
  • 美團圈圈是什麼?
    關注微信公眾號:團圈圈商服 「美團圈圈「主打本地團購特惠秒殺服務在商家端,美團將應用全網大數據和專業銷售服務團隊,為用戶篩選熱門優質好店,提供更優惠的價格,為商戶提供高性價比的獲客和推廣的解決方案。用優質的服務和內容,連結商家和消費者,創新本地生活產業鏈。 美團圈圈試運行將滿一周,這短短時間裡大家對我們的支持、信任和友好建 議,讓我們備受鼓舞,深感責任重大。我們將持續改進,為用戶提供更多更好更省的本地生活團購服務。
  • 美團離開點評後,你還「美團」嗎?
    美團收購大眾點評的時機非常巧妙。正是團購業務用戶數量達到頂峰的時候,外賣行業的競爭已經過半,百度、餓了麼和美團的情況還不明朗。大眾點評對美團的第一個意義在於,它為美團本土生活服務打開了流程入口,引入了更多優質的商業資源。大眾點評的核心價值是C端用戶真實的評論數據。
  • 美團簡史-虎嗅網
    期間,阿里也曾主動提出將美團業務嫁接在淘寶上的想法,畢竟淘寶擁有流量巨大,但被王興拒絕。為了做到盈利,王慧文定下的目標是毛利率8%,月銷售額達到6億,當時美團的毛利率已經超過6%。銷售方面,轉向「狂拜訪、狂上單」,增加有效供給,做本地生活服務的電商。
  • 行業調研:中國TOP10網際網路公司業務布局分析
    ;本地生活業務被美團壓制,比如外賣市場份額不足美團的二分之一。3)騰訊的問題業務是比較突出的,由於字節跳動的崛起,騰訊的短視頻、資訊等內容業務承壓由於短視頻行業的上升趨勢,騰訊的微視等短視頻產品發展速度較快,但是市場份額極低。3.
  • 餓了麼、美團月活話題背後:近場經濟在博弈
    隨後有人不斷渲染逍遙子內部如何重視本地生活與同城零售。搞得好像只是此刻才重視。早在2015年12月投資餓了麼前,口碑已成立,立意打造移動生態並向線下開放,引入系統商、服務商為線下商家提供數位化服務。它本也有涉足基礎設施用心。當美團與點評整合後,競爭格局中,餓了麼確實成為阿里優選夥伴,能創造更快時間窗口。