推薦引擎解密:「算透」用戶,抖音為什麼讓人沉迷?

2020-12-21 TechWeb

 

誰不愛看可愛的小狗與頑皮的小貓?特別是在全球受新冠疫情影響而進行全面隔離的當下,我們更需要歡樂的視頻來調劑自己的心情。

但這並不足以解釋抖音為什麼能獲得如此之多的青睞。在不到兩年時間裡,它從一個只有少數粉絲的「對口型」應用,發展成今年月均近8億活躍用戶的「病毒式」應用。甚至,帶有「新冠病毒」標籤的抖音視頻在應用中被播放了足足530億次。

▲ 抖音成為2020年1月美國下載數量最高的應用

▲ 抖音全球下載量

抖音最顯著的特色,在於各類洗腦歌曲加上有趣的啞劇式短視頻。

用戶每天平均在這款應用上耗費52分鐘,相比之下,Snapchat、Instagram以及Facebook的日均使用時長分別為26分鐘、29分鐘與37分鐘。

▲ Oberlo統計的使用時長報告

此外,這款只支持60秒短視頻的應用中還充斥著模因、喜劇、舞蹈及無數才華橫溢的用戶。憑藉著業內最強大的推薦引擎之一,我們無需搜索或擁有明確的訴求,就能很快找到符合自己口味的內容。點擊一下,引擎會幫你生成個性化建議。

這種無窮無盡的快速刺激帶來了輕鬆快樂的使用感受,最終讓用戶沉迷其中、無法自拔。有人將抖音稱為浪費時間的終極殺手,並表示「在抖音上感覺過了5分鐘,實際上已經過了1個小時。」

而在今天的文章中,我們將探討抖音如何使用機器學習技術通過交互機制分析用戶的興趣與偏好,並據此為用戶展示不同的個性化推薦內容。

對於數據科學社區來說,推薦引擎早已不是什麼新鮮事物。但由於一直缺少圖像識別或者語言生成等抓人眼球的最新「特效」,不少人傾向於將其劃入傳統AI系統一類。

儘管如此,推薦引擎仍是一類重要AI系統,而且幾乎遍布各類在線服務與平臺。從YouTube視頻推薦、到亞馬遜發布的廣告郵件、再到Kindle書城中的熱點圖書,一切都是推薦引擎的功勞。

根據Gomez-Uribe與Netflix公司街道口負責人Neil Hunt發表的研究論文,個性化與推薦的綜合作用每年可為Netflix節約超過10億美元。此外,有80%的訂閱者會從引擎提供的推薦列表中選擇視頻。

那麼,抖音的獨門絕技是什麼?

[ 如果您對推薦引擎的基本概念已經非常熟悉,可以直接閱讀下一章節 ]

目前網絡上關於推薦引擎的說明文章及在線課程所在多有,因此這裡只給大家提供兩條相關學習資源連結:

從零開始構建推薦引擎的綜合指南[注1](閱讀時長大約需要35分鐘,重現其中的Python代碼約需要40到60分鐘)

來自吳恩達的推薦引擎指南[注2](視頻時長約1個小時)

除了這些必要基礎之外,工業級推薦引擎還需要強大的後端與架構設計以實現全面集成。下面來看相關示例:

▲ 推薦引擎(由Catherine Wang創建,版權所有)

實時系統應具備堅實的數據基礎(用於收集與存儲),支持頂端多個抽象層(算法層、服務層與應用層),藉此解決不同的業務問題。

如果你點開了舞蹈視頻,那麼系統會初步將你的偏好定製為娛樂類,而後持續跟蹤你的行為以進一步分析,最終為你提供高度貼合喜好的精確推薦。

下面說說高級工作流。

▲ 三大核心組件(由Catherine Wang創建,版權所有)

在抖音的原型體系中,包含三大核心組件:1)標記內容;2)創建用戶資料與用戶場景;3)訓練並提供推薦算法。

下面,我們將具體對這三大組件做出說明。

2.1 數據與特徵

首先是數據。如果用更正式的語言描述推薦模型,那它實際上是一項負責將用戶滿意度與「用戶生成內容」匹配起來的函數。要實現這個目標,我們需要從三個維度輸入數據。

內容數據——抖音是一個包含大量用戶生成內容的平臺。每種類型的內容都有其特徵,而系統需要能夠識別並區分各類內容以實現可靠的推薦效果。

用戶數據——其中包括興趣標籤、職業、年齡、性別、人口統計信息等等,也包含基於ML的客戶集群內潛在特徵。

場景數據——這部分數據用於跟蹤用戶在不同場景下的個人偏好變化。例如,用戶在工作、旅行或者通勤時,分別更喜歡看到哪些類型的視頻。

在收集到相關數據之後,系統就會導出四種類型的關鍵工程特徵,並將其輸入至推薦引擎當中。

關聯特徵:表示內容屬性與用戶標籤之間的關聯,包括關鍵字匹配、分類標籤、源匹配、主題標籤以及用戶與內容間矢量距離等潛在特徵。

用戶場景特徵:根據場景數據進行工程處理,包括地理位置、當前時間與事件標籤等等。

趨勢特徵:基於用戶交互並表現為全局趨勢、熱門話題、熱門關鍵字、趨勢主題等等。

協同特徵:基於協同過濾技術,負責在狹窄推薦(偏見)與協同推薦(概括)之間尋求平衡。更準確地說,其不信會考慮單一用戶的歷史記錄,同時還會分析相似用戶組之間的協同行為(點擊、贊、關鍵字、主題等)。而推薦引擎模型,將通過學習上述特徵以預測特定內容在特定場景中是否適合特定用戶。

2.2 隱性目標

在推薦模型當中,點擊率、觀看時長、贊、評論與轉發等都屬於明確可量化的目標。我們可以使用模型或算法對這些指標進行擬合,而後做出結論性的預測。

但除此之外,還存在其他一些無法通過這些可量化指標進行評估的隱性目標。

例如,為了維護健康的社區與生態系統,抖音一直努力控制與暴力、詐騙、色情及謠言相關的內容,希望保證平臺上發布的內容更加貼近事實。
為此,自然需要在可量化模型目標之外定義新的邊界控制框架(內容審核系統)。

2.3 算法

推薦目標可以指定為經典的機器學習問題,而後通過協同過濾模型、邏輯回歸模型、分解機、GBD以及深度學習等多種算法對問題求解。

▲ 協同過濾示意圖

工業級的推薦系統往往需要靈活且可擴展的機器學習平臺以構建實驗管道,藉此快速訓練各類模型,而後將不同模型疊加起來進行實時服務。(例如將強化學習、DNN、SVM以及CNN結合使用)

除了主推薦算法之外,抖音還需要訓練內容分類算法與用戶偏好算法。下面來看在實現內容分析方面,抖音建立起的多層級分類架構。

▲ 多層級分類樹(由Catherine Wang創建,版權所有)

我們從主root起步,一層層下探。首先是主類別與子類別。與獨立的分類器相比,這種多層級分類機制能夠更好地解決數據偏斜的問題。

2.4 訓練機制

抖音使用實時在線訓練協議,因此能夠以較少的計算資源需求提供更快的反饋速度。這兩點對於流媒體與信息流產品無疑非常重要。

訓練系統會即時捕捉用戶的行為與動作,並將其反饋給模型以在下一次響應中有所體現。(例如,當您點擊新的視頻時,饋送內容會根據您的最新操作而快速更改)

據個人推測,抖音很可能是使用Storm Cluster處理實時樣本數據,包括點擊、展示、收藏、贊、評論與共享等。

他們還構建起模型參數與特徵伺服器(分別存儲特徵與模型),藉此進一步提升系統性能。其中特徵存儲可保存並交付數千萬項原始特徵與工程矢量,而模型存儲則負責模型與經調優參數的維護與交付。

▲ 在線訓練機制(簡化版)(由Catherine Wang創建,版權所有)

下面我們對訓練流程做出總結:1)在線伺服器捕捉實時數據,並將其存儲在Kafka當中;2)Storm Cluster使用Kafka數據並生成特徵;3)特徵存儲負責收集新特徵與推薦標籤,並據此構建起新的訓練集;4)在線訓練管道重新訓練模型參數,並將參數保存在模型存儲中;5)更新客戶端推薦列表,捕捉新的反饋(用戶操作)並再次循環。

抖音一直未向公眾或技術界公開其核心算法。但通過該公司發布的零散信息,以及極客社區通過逆向工程發現的蛛絲馬跡,我們初步得出以下結論。(免責聲明——以下內容皆為作者個人的解釋與推斷,可能與抖音的實際情況有所出入)

▲ 推薦工作流(由Catherine Wang創建,版權所有)

步驟0:用戶生成內容雙審核系統 (UGC)

在抖音,每天有數百萬用戶上傳自己製作的內容。惡意內容很可能從單一機器審核系統中發現漏洞並成功漏網,而過於龐大的上傳量也讓手動審核變得不切實際。為此,雙審核成為抖音公司的主要視頻內容篩選算法。

機器審核:總體來看,雙審核模型(基於計算機視覺)可以識別用戶上傳內容中的視頻圖像與關鍵字。它主要提供兩大核心功能:1)檢查剪輯內容中是否存在違規並檢查文本信息。如果懷疑存在問題,內容將被攔截並標記為黃色或紅色,以供人工審核員進行覆核。2)提取視頻中的圖片與關鍵幀,抖音的雙審核算法隨後將這些內容與龐大的歸檔內容庫進行匹配。這些副本將被渲染為低精度版本,藉此降低流量佔用並減輕推薦引擎的處理負擔。

手動審核:主要關注三個問題:視頻標題、封面縮略圖與視頻關鍵幀。對於被雙審核模型標記為可疑的內容,技術人員將進一步做出手動檢查。如果確定違規,則刪除該視頻並凍結上傳帳戶。

步驟1:冷啟動

抖音推薦機制的核心在於信息流漏鬥。在內容通過雙審核過濾之後,將被放入冷啟動流量池內。例如,當用戶的新視頻成功通過審核流程,抖音會為其分配200到300個活躍用戶的初始流量,保證你的內容初步獲得向用戶展示的機會。

在這種機制下,新創作者可以與意見領袖們(可能已經擁有成千上萬關注者)站上相同的起點,完全依靠作品質量展開正面競爭。

步驟2:基於指標的權重機制

通過初始流量池,我們的視頻已經獲得了幾千次瀏覽,而這些數據將被進一步收集與分析。分析中考量的指標主要包括贊、觀看、完整觀看、評論、關注、轉發與分享等數據。

接下來,推薦引擎會根據這些初始指標與帳戶得分(無論您是否身為高水平創作者)對內容進行權重評分。

根據評分結果,前10%的視頻將獲得額外10000到100000次推薦展示的機會。

步驟3:用戶偏好放大器

來自步驟2內流量池階段的反饋將接受進一步分析,幫助系統判斷是否使用用戶偏好放大器。在這一步中,高質量的內容將被投放至特定的用戶組(例如體育迷、時尚愛好者)中並得到進一步加強與放大。

這類似於「猜你喜歡什麼」的概念。推薦引擎將建立用戶個人偏好庫,以便在內容與用戶組之間找到最佳匹配。

步驟4:精品趨勢池

只有低於1%的內容最終能夠進入趨勢池。趨勢池中的內容將獲得遠超其他視頻的曝光量,包括以無差別方式推薦給所有用戶。

其他步驟:延遲曝光

部分抖音用戶可能會注意到,自己的內容在發布數周之後,才突然獲得了巨大的關注與點擊——在此之前,觀看量與轉發量都一樣比較平均。這是怎麼回事?

這主要有兩個原因:

首先,抖音使用一種暱稱為「掘墓人」的算法,可以回溯舊有內容並挖掘出高質量的曝光對象。如果您的內容被這種算法選中,則表明您的帳戶中擁有足夠的垂直視頻以獲得清晰的定位標籤。換言之,建立明確的標籤能夠幫助您的內容得到「掘墓人」算法的青睞。

第二是「時尚效應」。換句話說,如果您的某條內容獲得了數百萬次觀看,那麼觀看者會主動前往您的主頁,查看您之前發布過的其他內容。這是個主動探索並發現寶藏的過程,也在一定程度上增加了用戶的成就感。

局限性:流量峰值

如果某段內容通過信息流漏洞(雙審核、權重迭代與放大),那麼創建者的帳戶將獲得大量展示機會、用戶交互與關注群體。

但根據研究,這種高曝光時間窗口極窄。通常,該窗口只會持續一周左右;在此之後,內容與帳戶將快速「涼涼」,連隨後發布的內容也無法得到人們的關注。

為什麼會這樣?

這主要是因為抖音希望儘量為內容製作者們提供更公平的發布環境,消除算法中的意外偏見。通過這種設計,推薦引擎不會偏向於特定類型的內容,這將保證各類新內容都有平等的機會成為新的爆款。

【注】:

1.https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/

2.https://www.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj

【參考資料】:
1.https://www.businessofapps.com/data/tik-tok-statistics/
2.https://mediakix.com/blog/top-tik-tok-statistics-demographics/
3.https://en.wikipedia.org/wiki/TikTok
4.http://shop.oreilly.com/product/9780596529321.do
5.https://sensortower.com/
6.https://www.nytimes.com/2020/06/03/technology/tiktok-is-the-future.html

 

相關焦點

  • 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧
    18183首頁 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧 來源:www.18183.com
  • 醫學解密:粉紅色的乳頭為什麼會變黑?
    人體敏感部位的顏色會給人帶來視覺刺激,而有的人覺得敏感部位顏色過深,是性行為太多的緣故,比如說粉紅色的乳頭變成深色。
  • 你沉迷在抖音美顏的時候,抖音緊緊盯著你的錢包
    12月29日,抖音遊戲主播呂德華與某女主播連線時,後者褪去美顏效果的面部形象直接呈現在手機屏幕上。美顏軟體有幾秒鐘的時間並未識別到女主播面部。12月30日,此事經由四千萬粉絲的四川觀察轉發報導,引起一眾抖音用戶的熱烈討論,31日10時,點讚數到達29萬。
  • 美妝行業的抖音營銷推廣新標杆,巨量引擎2020美妝好物節圓滿落幕
    堪稱美妝行業的抖音營銷推廣新標杆,匯聚全網最紅明星大咖和美妝好物的巨量引擎2020美妝好物節日前圓滿落幕了!在流量紅利日益稀薄的移動網際網路下半場,憑藉一周的活動便能實現刷屏級效果,同時兼顧用戶口碑和商業轉化,巨量引擎2020美妝好物節究竟是如何做到的?
  • 孩子沉迷抖音,家長不但不制止,還表示:經常一起拍
    原來孩子自從刷了抖音,就經常熬夜到很晚,第二天起來難免無精打採的。薛女士這才知道,自己或許做了一件錯誤的事情。於是就抖音的普及群體這方面,引起了社會的廣泛爭議,有的人覺得孩子刷抖音很正常,但有的人對此持反對態度,說辭也是各執一端。A.支持孩子刷抖音。
  • 馮侖現身抖音「未來定義者」,直播解密萬通「反省文化」
    馮侖現身抖音「未來定義者」,直播解密萬通「反省文化」 2020年06月12日 14:35作者:黃頁編輯:黃頁 據悉,抖音「未來定義者」知識直播,還將邀請包括知名作家Jared Diamond,國際知名畫家劉墉,第74屆科幻雨果獎得主郝景芳,知名文化學者、收藏家馬未都等,通過抖音帶來眾多的知識分享盛宴。讓用戶在抖音學有所得。
  • 抖音上教人回復的app叫什麼 抖音回復女生的軟體推薦
    抖音上教人回復的app叫什麼?很多小夥伴還不知道,小編告訴你們,這個app叫做撩吧!撩吧app是一款有情調有品位的實用聊天撩妹交友軟體,下面就給大家帶來這款抖音回復女生的軟體推薦,希望能對大家在撩妹過程中有所幫助。
  • 頭條、抖音後,誰是字節跳動的新引擎?
    作為字節跳動流量和營收支柱,頭條和抖音已經或即將碰到天花板。字節跳動瘋狂布局遊戲、在線教育、電商三大賽道,這裡能長出新增長引擎嗎? 2個多月前,知名出版人路金波在今日頭條上寫了一段話,其中引用了作家林語堂在文章中寫過的一句感慨:「為什麼我們這個行星是個很好的行星」。
  • 毒雞湯、假科普致人沉迷這屆老年人被抖音的「反智」視頻害苦了!
    繼未成年人之後,昔日「不觸網」的「銀髮一族」也開始紛紛沉迷於抖音短視頻無法自拔,甚至被毒雞湯、謠言和網絡騙局荼毒。近日,人民日報旗下平臺「俠客島」發布文章《【島妹說】沉迷短視頻的爸媽們》,即曝光了抖音「反智」視頻坑害我國中老年人的一系列真相。
  • 在抖音直播看什麼?《抖音直播數據圖譜》首次大解密
    近日,抖音聯合巨量引擎首次發布 《2020抖音直播數據圖譜》(以下簡稱圖譜),通過數據圖解形式詳細展示了抖音平臺上的直播百態,為大眾打開抖音4億DAU的另一扇窗口,看見美好真實世界。圖譜全面展示了包括主播側和觀眾側如何在抖音直播中解鎖衣、食、住、行、穿等等生活新方式,讓我們通過直播看到了用戶美好生活百態;同時,圖譜也展示了各行業各通過抖音直播所收穫無限可能,共同打造多元化直播內容生態。
  • 抖音日活躍用戶破6億,如何通過抖音號月入10萬
    近日,北京字節跳動CEO張楠公布了抖音最新的數據:截至2020年8月,包含抖音火山版在內,抖音的日活躍用戶已經超過了6億。據悉,在過去一年,有超過2200萬人在抖音創收417億元。張楠表示,未來一年,抖音希望把這個數字翻一番,讓創作者們的收入達到800億。抖音日活躍用戶超過6億,這意味著什麼?這意味著每天有一半的中國網民都在使用抖音。
  • 抖音巨量引擎投廣告有用嗎 抖音投信息流廣告有什麼優勢
    抖音巨量引擎投廣告有用嗎,放後,還需要對後臺進行實時的監控,進行數據優化。想要達到廣告推廣的最好效果,並不是選擇好推廣平臺和方式就可以一勞永逸的,一起來看看抖音投信息流廣告有什麼優勢 抖音巨量引擎投廣告有用嗎
  • 玩抖音卻刷出前女友?抖音、微信讀書被判侵害用戶信息
    在凌某某訴抖音案中,原告凌某某在手機通訊錄除本人外沒有其他聯繫人的情況下,使用該手機號碼註冊登錄抖音App後,被推薦大量「可能認識的人」,其中包括多年未聯繫的同學、朋友。凌某某認為抖音App非法獲取其個人信息及隱私構成侵權,將抖音App的運營者北京微播視界科技有限公司(以下簡稱微播視界公司)訴至北京網際網路法院。
  • 抖音極速代刷 為什麼我抖音播放量是0
    18183首頁 抖音極速代刷 為什麼我抖音播放量是0 抖音極速代刷 為什麼我抖音播放量是0 來源:www.18183
  • 抖音直播上熱門技巧 抖音直播怎麼上熱門推薦
    經常刷抖音直播的小夥伴一定也有和我一樣的問題,為什麼有的直播間明明播主的粉絲數很少,人氣卻很高?抖音直播上熱門技巧有哪些?抖音直播怎麼上熱門推薦?
  • 為什麼有些遊戲那麼讓人沉迷?
    為什麼有些遊戲那麼讓人沉迷呢?經過答案是「變強」。是玩家扮演的角色慢慢變強,逐漸成長,將一個個不完整的事物變為完整的過程,讓人沉迷。這樣斷言的原因,其實大家想一想讓自己沉迷過的遊戲是否有這一共性便能知曉。如果一時想不過來,那就請讓斷言者慢慢道來。
  • 用戶畫像實踐之神策標籤生產引擎架構
    用戶畫像是建立在數據基礎之上的用戶模型,是產品改進、精準營銷等業務場景中不可或缺的重要基礎。而構建用戶畫像的過程就是要給用戶打上各種維度的標籤,並基於標籤進行定性或定量分析。這其中,建設靈活、全面、高效的標籤體系是工作的重中之重。本文就從標籤體系建設的需求出發,闡述神策數據在設計標籤生產引擎過程中所做的思考和實踐。
  • 抖音、QQ音樂、網易雲音樂們,算法左右歌曲推薦,而不是用戶喜好?
    造成筱佳困擾的「抖音神曲」來自於抖音平臺所使用的信息流漏鬥算法。用戶上傳視頻並通過抖音平臺審核後,系統將為此視頻進行冷啟動,分配一個內含200-1000個在線用戶的初始流量池。平臺會根據這1000次曝光所產出的完播率、點讚、關注、評論、轉發、轉粉、遊覽深度等數據,結合使用者帳號的分值進行數據分析,決定是否給予加權。
  • 為什麼美國、日本、印度都「害怕」抖音?
    TikTok的推薦算法,確實在理論上有通過指向性給用戶「餵內容」來引導輿論的能力。但總伺服器在美國啊,所有的指令,所有的操作,都會在總伺服器裡留痕,一目了然清清楚楚,司法人員想調取證據簡直不要太簡單。而且TikTok所有的運營,均由美國人負責,再高明的軟體也是需要人來操作的,想要大規模的給用戶偷偷餵內容且瞞過負責每天操作和審核後臺數據的數千名美國員工,並在總伺服器中不留痕。那已經不是軟體了,是上帝。
  • 少婦千裡私會「抖音男網友」!抖音:我還能讓你遇見歷任前男友
    抖音總是能給人各種驚喜/驚嚇。這次,是婚後少婦寂寞玩起抖音,竟迷上了男網友,並買了火車票千裡追尋他而來。當然也有不少網友調侃稱,也許少婦繼續玩抖音還能刷到不少前男友,萬一舊情復燃……網友們的調侃可並非空穴來風,去年就有很多用戶瘋狂吐槽抖音給自己瞎推薦歷屆前任,以及前任的現任……關係錯綜複雜,氣氛尬到凝固。抖音這個現象級的火爆APP,也是短視頻領域的一霸,只是一直以來抖音對於個人隱私的過度窺探也一直被詬病。