數據已經成為了媒體機構骨血一般的存在,包容了一切能夠相聯、互動的新技術,開始進入智能化階段。聚焦於傳媒產業,這種影響尤顯深刻——這是一個以「看見」、「聽見」的體驗為起點的產業,是一個以人類信息交流與溝通為起點的產業,恰好契合我們對於人工智慧「能聽懂」、「能看懂」、「能行動」乃至「能思考」的期待。
因此,數據智能化是傳媒產業大數據技術十年發展的新階段與新方向,是媒體大數據的原力覺醒。
本文是關於YouTube通過數據智能提升「理解」能力的案例剖析。總共包括三個部分:
1.數據智能支持用戶及內容理解能力升級
2.基於理解能力升級的平臺服務優化
3.理解用戶及內容還需要解決的問題
作為視頻內容平臺,YouTube基於海量內容和用戶數據,一直致力於解決一個核心問題:用戶喜歡什麼樣的內容?2006年被谷歌收購之後,YouTube逐漸對接谷歌大數據,對該問題的理解更為深入。尤其在谷歌AI戰略支持下,YouTube的數據體系融入AI基因,從機器學習階段向深度學習階段邁進。
數據智能提升了YouTube對用戶以及內容的理解能力,並持續支持YouTube平臺服務優化。谷歌母公司Alphabet財報顯示,YouTube2019年全年營收為151.49億美元,佔谷歌業務總收入的13.4%,已經成為谷歌重要的收入來源。
那麼, YouTube在數據智能的支持下「理解」能力得到了怎樣的升級?又是如何賦能業務運作的呢?
01
數據智能支持用戶
及內容理解能力升級
在谷歌大數據和AI體系的雙重支持下,YouTube對用戶及內容的理解能力得到了大幅度的提升。
YouTube的數據賦能邏輯
1.機器理解+用戶參與精準描繪用戶畫像
2012年,YouTube與谷歌搜索實現了數據對接,並在隨後被納入谷歌帳號體系,成為谷歌大數據體系的關鍵組成部分。憑藉這一步,YouTube對用戶的理解能力與谷歌實現了一致性。具體來說,YouTube對用戶畫像的描繪主要分為兩個方式:
一是常規意義上運用機器學習技術對用戶數據進行分析處理,自動形成用戶畫像。
從源頭來看,YouTube基於谷歌的強帳號體系,通過cookie、像素代碼、伺服器日誌等常規意義上的數據採集技術對用戶數據進行採集(非帳號體系下通過唯一標識符採集設備應用數據但無法聚焦至個人),主要分為個人數據、設備數據、活動數據以及位置數據四個維度。
數據上傳至谷歌伺服器並通過後臺機器學習技術進行分析處理,刻畫用戶畫像。該用戶畫像包括基礎信息、興趣愛好、行為習慣等在內超過60個標籤,每個標籤都詳細標註了形成原因,實現了對用戶的基本洞察。
二是開放一定的權限給用戶進行自身標籤與畫像的修改。
由於機器的認知缺陷以及用戶行為偏好的不穩定性,通過機器學習技術自動描繪的用戶畫像在某些情況下可能失去精準性。為此,在谷歌政策支持下,YouTube將用戶畫像構建及修改的部分權限給予了用戶,將機器理解與用戶人為修正相結合。
一來,用戶可以通過修改數據影響機器學習技術對用戶畫像的刻畫,包括數據採集前對個人數據、設備數據、位置數據等進行修改,以及數據採集後對活動數據(歷史行為數據)等進行修改。
二來,用戶可以依據個人意願直接修改機器學習技術所自動形成的用戶畫像標籤。谷歌在刻畫用戶畫像時不僅每個標籤都標註了形成原因,還增添了「停用」或「啟動」功能,較好地尊重了用戶自身的意願。由此,通過機器學習技術對數據的自動化處理以及用戶對數據或用戶畫像標籤的人為幹預,YouTube能夠更加準確地理解用戶。
02
文本分析+視頻理解
深入理解內容
除了對用戶的理解,YouTube顯然還需要對平臺上海量的內容進行解讀。與其它視頻平臺類似,YouTube可以通過機器學習技術對視頻基本數據進行理解,主要包括視頻內容數據以及視頻表現數據兩種類型。
其中,視頻內容數據主要包括了創作者上傳視頻時所提供給的視頻標題、類型、說明等基本信息,以及經過人工審核或機器學習技術給視頻自動標註的類型標籤;視頻表現數據主要包括視頻觀看量、評論量、轉發量等數據。
通過機器學習對這兩類數據的分析和理解,YouTube可以回答兩個問題:視頻的內容是什麼?視頻的播放表現怎麼樣?相對來說,回答第二個問題是更加容易的。
隨著谷歌AI戰略的持續推進,YouTube成為谷歌AI部門DeepMind以及Google AI(原Google Research)進行AI研發訓練的視頻數據源,也成為了谷歌和YouTube回答第一個問題的重要基礎。
谷歌AI研究人員基於YouTube視頻內容建立了多個數據集,支持了YouTube從文本數據分析向視頻畫面以及音頻理解升級。筆者根據相關公開資料統計發現,谷歌以YouTube的視頻數據為基礎建立了大概6個數據集(部分數據集下有子數據集),分別實現了對視頻中的場景、物體、人的行為動向、景深、聲音的識別(詳細見表格)。
谷歌AI團隊利用YouTube視頻數據生成數據集以訓練AI進行視頻理解
主要包括:識別視頻所屬垂直場景類別的YouTube 8M及其子數據集YouTube 8M segments、識別視頻中包含的物體類型的YouTube-Bouding Boxes、識別視頻中人類行為傾向的Kinetics以及AVA Action Datasets(AVA數據集的子數據集,後與Kinetics交叉形成新數據集AVA Kinetic)、識別視頻景深程度的木頭人視頻數據集、以及識別語音類型及行為聲音的AudioSet及AVA Spoken Activity Datasets(AVA數據集的子數據集)。
在這些數據集的支持下,谷歌AI的視頻理解能力得到大幅度提升,也給了YouTube更強的視頻內容理解力,賦能其整體運營。
03
基於理解能力升級
的平臺服務優化
YouTube在谷歌大數據體系及AI技術支持下,用戶理解及內容理解能力不斷增強。在此基礎上,YouTube實現了對自身平臺服務的優化,主要可以分為三個方面。
1.人工配合AI平臺內容審核機制加強
早期,人工審核一直是YouTube進行內容審核的核心方式。
2016年以前,YouTube主要依靠「超級標記者」項目鼓勵用戶舉報不當內容,工作人員再依規定對被舉報內容進行審核、移除等處理。2016年,YouTube部署了內容審核系統,該系統可以初步篩選出歪曲視頻內容、含有不當語言等違規問題的視頻標題、視頻縮略圖,進而減少人工審核的工作量。
但是,由於YouTube視頻數據海量,這種機器輔助的效果仍然有限。這個問題在2017年時達到頂峰——YouTube陷入了恐怖主義、極端主義的「視頻質量危機」,並引發了谷歌陷入「廣告危機」。顯然,增強機器的視頻內容理解力,可以在很大程度上解決這個問題。
所以,當AI可以準確回答「視頻的內容是什麼」之後,YouTube進入了內容審核的2.0階段,形成了「人工審核+AI審核」的雙重機制。
目前,YouTube AI審核能力的提升有賴於兩個方面:一是人工數據訓練,人工審核小組對超過100萬條視頻進行審核標註並提供給機器進行學習應用;二是導入AVA數據集,通過對數據集中57萬組視頻片段、21萬個動作標籤進行分析處理,訓練識別能力。監督式學習與無監督式學習雙劍合璧,提升AI的視頻內容理解力。
2019年,YouTube又上線了名為「垃圾視頻分類器」的審核系統,該系統可以實現在無人協助下分析大量視頻片段,解讀令人不適的視頻剪輯,然後從網站主頁以及應用主頁上屏蔽這些內容。
根據YouTube官方數據顯示,2019年第一季度,YouTube約有830萬個視頻被刪除,其中76%是人工智慧自動識別和標記的。這些被刪除的視頻中,有70%以上從未被用戶觀看過。另外,2020年疫情蔓延的情況下,YouTube更是宣布加大對AI審核機制的依賴程度,以減輕人工壓力。可見,AI審核機制已經在YouTube平臺運營中發揮關鍵作用。
2.內容推薦與創作服務用戶使用體驗提升
理解用戶和內容成為了YouTube實現智能推薦、提升用戶體驗與用戶粘度的重要基礎。首先, YouTube將用戶分為了「觀眾」及「創作者」,其理解與服務也有相應的區別。
針對觀眾型用戶,個性化推薦成為YouTube的重要發力方向。
實際上,YouTube一直以其強大的內容推薦系統所著名,該系統所解決的核心問題有兩個:一是相似視頻關聯問題;二是視頻推薦排序問題。其中必然涉及到的是對用戶行為數據以及視頻內容數據的解讀分析。
YouTube推薦系統演變過程(摘取部分關鍵信息)
隨著2015年內容推薦系統對接Google Brain,推薦能力融入深度學習技術,促進了YouTube推薦算法的升級。YouTube 的推薦系統算法由兩個神經網絡組成:候選集生成(candidate generation)和排序過濾(ranking)。利用內容過濾和協同過濾,YouTube解決了從百萬級別的視頻庫中初步篩選百級別的數據。
之後,再使用設計好的目標函數為每個視頻進行打分,視頻按得分的多少依次按照優先級呈現給用戶。在 YouTube 推薦系統中,在推薦視頻的優先級排序考量上對於「視頻觀看時間」的因素看重遠大於「視頻點擊率」。同時,隨著谷歌將部分數據權限歸還給用戶,觀眾可以修改後台歷史數據,影響推薦系統對歷史行為數據的分析,進而影響推薦內容的精準性。
對用戶數據及內容數據處理能力的升級,使得YouTube有了更強大、精準的個性化推薦服務。
針對創作者型用戶,YouTube則著力提供更有效的數據工具產品。
——內容創作工具
例如,YouTube在海量圖像數據標註基礎上訓練視頻分割技術,為創作者推出了自動更換背景的視頻拍攝應用。
——內容表現分析工具
得益於YouTube對用戶行為表現及內容表現的追蹤及數據採集,整合了YouTube Data、YouTube Analystics以及YouTube Reporting三大模塊的YouTube Studio在2017年上線,提供給創作者頻道內容表現及流量收入可視化分析服務。
——內容版權保護工具
YouTube在以熱圖對比為核心內容數據處理技術的Content ID版權保護系統基礎上又推出了Copyright Match Tool以及內容驗證程序(CVP),該兩項服務可以在用戶操作基礎上自動匹配標題、說明等視頻數據,識別創作侵權。
3.廣告精準定位及數據開放賦能合作者
值得一提的是,YouTube還基於數據理解能力不斷賦能合作者。
首先,作為最為重要的合作方之一,廣告主是YouTube數據賦能的核心對象。
YouTube廣告投放運作流程簡圖
谷歌在2017年打通廣告數據之後一直致力於推動旗下廣告產品的程序化,也使得YouTube廣告資源全面對接至Google Ads平臺。因此,廣告主可以通過Google Ads平臺自動進行YouTube廣告投放。
在這個過程中,YouTube用戶數據與內容數據匯聚至谷歌伺服器,並在機器學習技術對數據處理分析之後對YouTube用戶及內容做了基本分類,以支持廣告主進行精準定位。
——用戶精準定位方面
YouTube主要以人口屬性定位、興趣定位、生活事件定位(比如想要「搬家」的用戶群體)以及潛在目標群體等對用戶進行大致分類,以便廣告主進行篩選。另外,廣告主還可以根據前序營銷活動的實際效果決定是否對同一批用戶進行新的營銷投放。
如果廣告主認可這批營銷受眾,那麼YouTube還可以利用look alike等技術幫助廣告主拓展相似目標用戶群體,生成更多的用戶列表。同時,為了進一步保證定位精準,YouTube也支持廣告主上傳用戶群體信息並自定義用戶群體,協助Google Ads進行用戶群體圈定。
——內容精準定位方面
YouTube在YouTube頻道、YouTube視頻以及YouTube頻道組三種內容類型中,向廣告主提供內容主題以及內容關鍵詞兩種定位選擇。其中內容主題主要是指視頻內容所屬垂直行業類型,內容關鍵詞則是與廣告主產品和服務相關的關鍵詞與YouTube內容的匹配。基於此,廣告主可以將廣告內容投放至與之相匹配的YouTube視頻內容上,實現精準的內容定位。
除了優化廣告主服務外,YouTube也在谷歌數據開放戰略的推動下建設了YouTube Data API 以及YouTube Analytics and Reporting API等為開發者提供數據開放服務,賦能開發者推進數據研究或AI訓練等方面的進度。
04
理解用戶及內容
還需要解決一些問題
由此可見,YouTube基於對用戶和內容理解的升級,賦能自身的業務與服務。但是在這個過程中,YouTube也陷入了一些問題的「泥沼」,主要是數據隱私安全以及AI審核弊端問題。
1.理解用戶VS保護隱私數據安全
海外對數據安全問題尤為重視,而掌握海量數據的谷歌經常為此登上輿論的「風口浪尖」。
2019年,谷歌就因數據隱私問題被法國處以5000萬歐元罰款,成為2018年歐盟《通用數據保護條例》生效後開出的首個罰單。而作為谷歌旗下產品的YouTube也難逃被「質疑」的命運。調整與改變勢在必行。
首先谷歌內部對用戶數據處理措施逐漸趨於嚴格。
上文也談到,谷歌給用戶開放了部分數據修改權限,但是實際上,用戶刪除數據後谷歌會將部分有價值的數據進行階段性或永久性保存。為了維護這部分數據的隱私安全,谷歌通過一些技術手段進行數據脫敏。例如,數據泛化技術,即將某些可以與特定人關聯起來的數據元素移除或使用常見值取而代之;或者向數據中添加噪音,影響對用戶隱私行為的判斷等。
其次,由於谷歌部分數據會交予人工進行審核,為了防止內部員工對用戶敏感數據過多接觸,谷歌開始降低人工審核數據權限。
2019年,谷歌降低了人工審核的音頻數據審核權限,內部員工所接觸到的語音記錄均是與用戶帳戶無關的數據資料。並且,谷歌對外承諾將「極大地減少被存儲的音頻數據量」。由此,谷歌對用戶敏感數據的管理愈加嚴格,而作為谷歌旗下產品的YouTube,將同樣受到相關內部規定的制約。
最後,為保護數據安全,谷歌開始對外限制第三方數據採集權限,YouTube也對此推出了相關舉措,將用戶數據管理權限集中在自己手中。
2017年,谷歌推出Ads Data Hub以支持不使用像素的跨系統廣告系列衡量後,谷歌對第三方數據採集權限開始進行限制。例如,2017年1月,YouTube宣布會限制像素追蹤和cookies採集;2018年YouTube停止支持第三方廣告投放,切斷了第三方的數據訪問權限。
目前,YouTube與Nielsen、ComScore、DoubleVerify等第三方的數據合作均已向Ads Data Hub遷移。預計2020年遷移完成後,YouTube將不再支持第三方進行數據採集。
由此可見,無論是內部數據管理趨緊還是削弱外部數據權限,谷歌對用戶數據隱私安全是十分重視的,尤其是谷歌限制第三方數據權限,直接增強了谷歌的數據管理權限,對維護用戶數據隱私安全更為有利。
2.增強人工審核機制以解決AI審核弊端
如前文所述,谷歌在AI研發方面投入頗多,並基於YouTube數據建立了多個數據集以支持視頻理解能力的升級,協助增強AI審核機制。
但是AI審核也給YouTube帶來了兩個新的問題:一是內容推薦系統下用戶看到的內容是否合適?二是程序化廣告投放下廣告主的廣告是否出現在合適的視頻內容位置?也就是說,內容理解的準確性仍然是困擾YouTube的問題之一。
例如,2018年,由於AI對兒童觀看內容審核精準性不足,導致YouTube 「艾爾莎門」(兒童色情)事件爆發;2019年,YouTube平臺自動刪除了大量格鬥機器人比賽視頻,原因是算法檢測到該內容對動物施以折磨或強迫動物對抗等……AI審核機製成為YouTube被頻繁質疑的核心問題點。
為了解決這一系列問題,YouTube一方面持續提升AI內容識別的準確性,另一方面則宣布增強人工審核團隊進行彌補。2018年,YouTube CEO Susan Wojcicki承諾會僱傭至少一萬名人工審核員,以補足算法的局限。2019年YouTube宣布平臺中的兒童內容審核將全面交予人工進行處理。
在這個過程中,谷歌對旗下人工審核團隊的內容審核要求進一步提高,強化了對視頻標題和內容的評估、分類的精細化程度。
通過部署人工視頻標註系統和評級系統,谷歌對視頻內容規劃了多個分類標籤,每個分類標籤下又有多個子標籤。比如,「暴力」分類下包含「恐怖主義」、「戰爭和衝突」、「死亡和悲劇」以及「其他」等分類。嚴格的人工視頻標註體系也在一定程度上彌補了AI審核機制的缺陷。或許隨著谷歌AI對內容數據處理能力的升級,YouTube在AI審核機制方面將有更進一步的升級。
結語
在谷歌大數據與人工智慧的支撐之下,YouTube不斷提升對用戶及內容的深層理解,以優化自身的運營能力。雖然效果與問題同在,但也我們也有理由相信,隨著谷歌數據戰略的調整以及AI技術能力的升級,這些問題終有解決的那一天。
END