推薦引擎解密:「算透」用戶,抖音為什麼讓人沉迷?

2020-12-24 TechWeb

 

誰不愛看可愛的小狗與頑皮的小貓?特別是在全球受新冠疫情影響而進行全面隔離的當下,我們更需要歡樂的視頻來調劑自己的心情。

但這並不足以解釋抖音為什麼能獲得如此之多的青睞。在不到兩年時間裡,它從一個只有少數粉絲的「對口型」應用,發展成今年月均近8億活躍用戶的「病毒式」應用。甚至,帶有「新冠病毒」標籤的抖音視頻在應用中被播放了足足530億次。

▲ 抖音成為2020年1月美國下載數量最高的應用

▲ 抖音全球下載量

抖音最顯著的特色,在於各類洗腦歌曲加上有趣的啞劇式短視頻。

用戶每天平均在這款應用上耗費52分鐘,相比之下,Snapchat、Instagram以及Facebook的日均使用時長分別為26分鐘、29分鐘與37分鐘。

▲ Oberlo統計的使用時長報告

此外,這款只支持60秒短視頻的應用中還充斥著模因、喜劇、舞蹈及無數才華橫溢的用戶。憑藉著業內最強大的推薦引擎之一,我們無需搜索或擁有明確的訴求,就能很快找到符合自己口味的內容。點擊一下,引擎會幫你生成個性化建議。

這種無窮無盡的快速刺激帶來了輕鬆快樂的使用感受,最終讓用戶沉迷其中、無法自拔。有人將抖音稱為浪費時間的終極殺手,並表示「在抖音上感覺過了5分鐘,實際上已經過了1個小時。」

而在今天的文章中,我們將探討抖音如何使用機器學習技術通過交互機制分析用戶的興趣與偏好,並據此為用戶展示不同的個性化推薦內容。

對於數據科學社區來說,推薦引擎早已不是什麼新鮮事物。但由於一直缺少圖像識別或者語言生成等抓人眼球的最新「特效」,不少人傾向於將其劃入傳統AI系統一類。

儘管如此,推薦引擎仍是一類重要AI系統,而且幾乎遍布各類在線服務與平臺。從YouTube視頻推薦、到亞馬遜發布的廣告郵件、再到Kindle書城中的熱點圖書,一切都是推薦引擎的功勞。

根據Gomez-Uribe與Netflix公司街道口負責人Neil Hunt發表的研究論文,個性化與推薦的綜合作用每年可為Netflix節約超過10億美元。此外,有80%的訂閱者會從引擎提供的推薦列表中選擇視頻。

那麼,抖音的獨門絕技是什麼?

[ 如果您對推薦引擎的基本概念已經非常熟悉,可以直接閱讀下一章節 ]

目前網絡上關於推薦引擎的說明文章及在線課程所在多有,因此這裡只給大家提供兩條相關學習資源連結:

從零開始構建推薦引擎的綜合指南[注1](閱讀時長大約需要35分鐘,重現其中的Python代碼約需要40到60分鐘)

來自吳恩達的推薦引擎指南[注2](視頻時長約1個小時)

除了這些必要基礎之外,工業級推薦引擎還需要強大的後端與架構設計以實現全面集成。下面來看相關示例:

▲ 推薦引擎(由Catherine Wang創建,版權所有)

實時系統應具備堅實的數據基礎(用於收集與存儲),支持頂端多個抽象層(算法層、服務層與應用層),藉此解決不同的業務問題。

如果你點開了舞蹈視頻,那麼系統會初步將你的偏好定製為娛樂類,而後持續跟蹤你的行為以進一步分析,最終為你提供高度貼合喜好的精確推薦。

下面說說高級工作流。

▲ 三大核心組件(由Catherine Wang創建,版權所有)

在抖音的原型體系中,包含三大核心組件:1)標記內容;2)創建用戶資料與用戶場景;3)訓練並提供推薦算法。

下面,我們將具體對這三大組件做出說明。

2.1 數據與特徵

首先是數據。如果用更正式的語言描述推薦模型,那它實際上是一項負責將用戶滿意度與「用戶生成內容」匹配起來的函數。要實現這個目標,我們需要從三個維度輸入數據。

內容數據——抖音是一個包含大量用戶生成內容的平臺。每種類型的內容都有其特徵,而系統需要能夠識別並區分各類內容以實現可靠的推薦效果。

用戶數據——其中包括興趣標籤、職業、年齡、性別、人口統計信息等等,也包含基於ML的客戶集群內潛在特徵。

場景數據——這部分數據用於跟蹤用戶在不同場景下的個人偏好變化。例如,用戶在工作、旅行或者通勤時,分別更喜歡看到哪些類型的視頻。

在收集到相關數據之後,系統就會導出四種類型的關鍵工程特徵,並將其輸入至推薦引擎當中。

關聯特徵:表示內容屬性與用戶標籤之間的關聯,包括關鍵字匹配、分類標籤、源匹配、主題標籤以及用戶與內容間矢量距離等潛在特徵。

用戶場景特徵:根據場景數據進行工程處理,包括地理位置、當前時間與事件標籤等等。

趨勢特徵:基於用戶交互並表現為全局趨勢、熱門話題、熱門關鍵字、趨勢主題等等。

協同特徵:基於協同過濾技術,負責在狹窄推薦(偏見)與協同推薦(概括)之間尋求平衡。更準確地說,其不信會考慮單一用戶的歷史記錄,同時還會分析相似用戶組之間的協同行為(點擊、贊、關鍵字、主題等)。而推薦引擎模型,將通過學習上述特徵以預測特定內容在特定場景中是否適合特定用戶。

2.2 隱性目標

在推薦模型當中,點擊率、觀看時長、贊、評論與轉發等都屬於明確可量化的目標。我們可以使用模型或算法對這些指標進行擬合,而後做出結論性的預測。

但除此之外,還存在其他一些無法通過這些可量化指標進行評估的隱性目標。

例如,為了維護健康的社區與生態系統,抖音一直努力控制與暴力、詐騙、色情及謠言相關的內容,希望保證平臺上發布的內容更加貼近事實。
為此,自然需要在可量化模型目標之外定義新的邊界控制框架(內容審核系統)。

2.3 算法

推薦目標可以指定為經典的機器學習問題,而後通過協同過濾模型、邏輯回歸模型、分解機、GBD以及深度學習等多種算法對問題求解。

▲ 協同過濾示意圖

工業級的推薦系統往往需要靈活且可擴展的機器學習平臺以構建實驗管道,藉此快速訓練各類模型,而後將不同模型疊加起來進行實時服務。(例如將強化學習、DNN、SVM以及CNN結合使用)

除了主推薦算法之外,抖音還需要訓練內容分類算法與用戶偏好算法。下面來看在實現內容分析方面,抖音建立起的多層級分類架構。

▲ 多層級分類樹(由Catherine Wang創建,版權所有)

我們從主root起步,一層層下探。首先是主類別與子類別。與獨立的分類器相比,這種多層級分類機制能夠更好地解決數據偏斜的問題。

2.4 訓練機制

抖音使用實時在線訓練協議,因此能夠以較少的計算資源需求提供更快的反饋速度。這兩點對於流媒體與信息流產品無疑非常重要。

訓練系統會即時捕捉用戶的行為與動作,並將其反饋給模型以在下一次響應中有所體現。(例如,當您點擊新的視頻時,饋送內容會根據您的最新操作而快速更改)

據個人推測,抖音很可能是使用Storm Cluster處理實時樣本數據,包括點擊、展示、收藏、贊、評論與共享等。

他們還構建起模型參數與特徵伺服器(分別存儲特徵與模型),藉此進一步提升系統性能。其中特徵存儲可保存並交付數千萬項原始特徵與工程矢量,而模型存儲則負責模型與經調優參數的維護與交付。

▲ 在線訓練機制(簡化版)(由Catherine Wang創建,版權所有)

下面我們對訓練流程做出總結:1)在線伺服器捕捉實時數據,並將其存儲在Kafka當中;2)Storm Cluster使用Kafka數據並生成特徵;3)特徵存儲負責收集新特徵與推薦標籤,並據此構建起新的訓練集;4)在線訓練管道重新訓練模型參數,並將參數保存在模型存儲中;5)更新客戶端推薦列表,捕捉新的反饋(用戶操作)並再次循環。

抖音一直未向公眾或技術界公開其核心算法。但通過該公司發布的零散信息,以及極客社區通過逆向工程發現的蛛絲馬跡,我們初步得出以下結論。(免責聲明——以下內容皆為作者個人的解釋與推斷,可能與抖音的實際情況有所出入)

▲ 推薦工作流(由Catherine Wang創建,版權所有)

步驟0:用戶生成內容雙審核系統 (UGC)

在抖音,每天有數百萬用戶上傳自己製作的內容。惡意內容很可能從單一機器審核系統中發現漏洞並成功漏網,而過於龐大的上傳量也讓手動審核變得不切實際。為此,雙審核成為抖音公司的主要視頻內容篩選算法。

機器審核:總體來看,雙審核模型(基於計算機視覺)可以識別用戶上傳內容中的視頻圖像與關鍵字。它主要提供兩大核心功能:1)檢查剪輯內容中是否存在違規並檢查文本信息。如果懷疑存在問題,內容將被攔截並標記為黃色或紅色,以供人工審核員進行覆核。2)提取視頻中的圖片與關鍵幀,抖音的雙審核算法隨後將這些內容與龐大的歸檔內容庫進行匹配。這些副本將被渲染為低精度版本,藉此降低流量佔用並減輕推薦引擎的處理負擔。

手動審核:主要關注三個問題:視頻標題、封面縮略圖與視頻關鍵幀。對於被雙審核模型標記為可疑的內容,技術人員將進一步做出手動檢查。如果確定違規,則刪除該視頻並凍結上傳帳戶。

步驟1:冷啟動

抖音推薦機制的核心在於信息流漏鬥。在內容通過雙審核過濾之後,將被放入冷啟動流量池內。例如,當用戶的新視頻成功通過審核流程,抖音會為其分配200到300個活躍用戶的初始流量,保證你的內容初步獲得向用戶展示的機會。

在這種機制下,新創作者可以與意見領袖們(可能已經擁有成千上萬關注者)站上相同的起點,完全依靠作品質量展開正面競爭。

步驟2:基於指標的權重機制

通過初始流量池,我們的視頻已經獲得了幾千次瀏覽,而這些數據將被進一步收集與分析。分析中考量的指標主要包括贊、觀看、完整觀看、評論、關注、轉發與分享等數據。

接下來,推薦引擎會根據這些初始指標與帳戶得分(無論您是否身為高水平創作者)對內容進行權重評分。

根據評分結果,前10%的視頻將獲得額外10000到100000次推薦展示的機會。

步驟3:用戶偏好放大器

來自步驟2內流量池階段的反饋將接受進一步分析,幫助系統判斷是否使用用戶偏好放大器。在這一步中,高質量的內容將被投放至特定的用戶組(例如體育迷、時尚愛好者)中並得到進一步加強與放大。

這類似於「猜你喜歡什麼」的概念。推薦引擎將建立用戶個人偏好庫,以便在內容與用戶組之間找到最佳匹配。

步驟4:精品趨勢池

只有低於1%的內容最終能夠進入趨勢池。趨勢池中的內容將獲得遠超其他視頻的曝光量,包括以無差別方式推薦給所有用戶。

其他步驟:延遲曝光

部分抖音用戶可能會注意到,自己的內容在發布數周之後,才突然獲得了巨大的關注與點擊——在此之前,觀看量與轉發量都一樣比較平均。這是怎麼回事?

這主要有兩個原因:

首先,抖音使用一種暱稱為「掘墓人」的算法,可以回溯舊有內容並挖掘出高質量的曝光對象。如果您的內容被這種算法選中,則表明您的帳戶中擁有足夠的垂直視頻以獲得清晰的定位標籤。換言之,建立明確的標籤能夠幫助您的內容得到「掘墓人」算法的青睞。

第二是「時尚效應」。換句話說,如果您的某條內容獲得了數百萬次觀看,那麼觀看者會主動前往您的主頁,查看您之前發布過的其他內容。這是個主動探索並發現寶藏的過程,也在一定程度上增加了用戶的成就感。

局限性:流量峰值

如果某段內容通過信息流漏洞(雙審核、權重迭代與放大),那麼創建者的帳戶將獲得大量展示機會、用戶交互與關注群體。

但根據研究,這種高曝光時間窗口極窄。通常,該窗口只會持續一周左右;在此之後,內容與帳戶將快速「涼涼」,連隨後發布的內容也無法得到人們的關注。

為什麼會這樣?

這主要是因為抖音希望儘量為內容製作者們提供更公平的發布環境,消除算法中的意外偏見。通過這種設計,推薦引擎不會偏向於特定類型的內容,這將保證各類新內容都有平等的機會成為新的爆款。

【注】:

1.https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/

2.https://www.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj

【參考資料】:
1.https://www.businessofapps.com/data/tik-tok-statistics/
2.https://mediakix.com/blog/top-tik-tok-statistics-demographics/
3.https://en.wikipedia.org/wiki/TikTok
4.http://shop.oreilly.com/product/9780596529321.do
5.https://sensortower.com/
6.https://www.nytimes.com/2020/06/03/technology/tiktok-is-the-future.html

 

相關焦點

  • 解密微信視頻號推薦機制(一)
    而視頻號是去中心化的一個產品,視頻號好像一個廣場,只要你的內容夠好,就能吸引更多的人來觀看你的內容。這個多怎麼定義呢?有可能是全國的11億微信用戶,所以視頻號的核心在於推薦機制。現在視頻號還在內測階段,就如同初期的抖音一樣處於紅利期。
  • 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧
    18183首頁 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧 抖音上熱門是什麼樣的 抖音上熱門秘籍技巧 來源:www.18183.com
  • 抖音回應女主播課堂擺拍:涉事用戶已被封禁
    今日,安徽金寨縣教育局回應,「女教師」實為抖音主播陳某某,10日中午擅自進入全軍鄉熊家河小學,中午休息時間要求學生配合拍抖音視頻,造成不良社會影響,將依法依規追責。隨後,抖音短視頻官微宣布:抖音一直反對並嚴厲打擊違反公序良俗的內容和帳戶,目前該涉事用戶已被封禁。我們歡迎廣大用戶和媒體監督平臺內容,共同打造風清氣正的網絡環境。經歷過野蠻生長的抖音,一直以來備受質疑。
  • 抖音推薦機制算法 抖音推薦機制是什麼樣
    首頁 > 問答 > 關鍵詞 > 抖音最新資訊 > 正文 抖音推薦機制算法 抖音推薦機制是什麼樣
  • 「不想App推薦前女友給我」!抖音、微信讀書被判侵害用戶信息!最新...
    在凌某某訴抖音案中,原告凌某某使用手機號碼註冊登錄抖音App後,他預先清空了手機通訊並不同意軟體讀取,但在「可能認識的人」一欄中,軟體依然向他推薦了多年未聯繫的老同學、朋友等。凌某某認為抖音App非法獲取其個人信息及隱私構成侵權。
  • 以前的你只是一個抖音用戶,看了這些你想不想當個「UP主」
    字節跳動人工智慧實驗室資深科學家文林福在此次盛典上首次公開揭秘抖音算法背後的黑科技,分析抖音如何利用人工智慧系統化地賦能短視頻內容,並展示抖音平臺的科技營銷布局。 為什麼車企青睞「抖音範」營銷?「抖音範」汽車營銷背後有著怎樣的邏輯?汽車行業如何與抖音共同構建商業新生態?2018抖音汽車行業年度盛典有太多你不容錯過的「知識點」。
  • 抖音、QQ音樂、網易雲音樂們,算法左右歌曲推薦,而不是用戶喜好?
    造成筱佳困擾的「抖音神曲」來自於抖音平臺所使用的信息流漏鬥算法。用戶上傳視頻並通過抖音平臺審核後,系統將為此視頻進行冷啟動,分配一個內含200-1000個在線用戶的初始流量池。平臺會根據這1000次曝光所產出的完播率、點讚、關注、評論、轉發、轉粉、遊覽深度等數據,結合使用者帳號的分值進行數據分析,決定是否給予加權。
  • 沉迷手機不是因為意志力差,而是因為被人精神控制了
    不是的,沉迷手機和意志力沒什麼太大關係。走進地鐵,你會發現幾乎所有人都在低頭看手機。在路邊等紅綠燈的30秒期間,大部分行人也都在低頭看手機。邊看手機邊過馬路的路人並不罕見。沉迷手機不是因為自身的意志力不夠堅強,而是因為人類早已陷入由算法精心編造的巨大的「智能陷阱」。你不是APP的用戶,而是被銷售的產品據網信數據觀統計,截至2019年12月末,我國國內市場上監測到的APP數量為367萬款。
  • 在抖音直播看什麼?《抖音直播數據圖譜》首次大解密
    近日,抖音聯合巨量引擎首次發布 《2020抖音直播數據圖譜》(以下簡稱圖譜),通過數據圖解形式詳細展示了抖音平臺上的直播百態,為大眾打開抖音4億DAU的另一扇窗口,看見美好真實世界。圖譜全面展示了包括主播側和觀眾側如何在抖音直播中解鎖衣、食、住、行、穿等等生活新方式,讓我們通過直播看到了用戶美好生活百態;同時,圖譜也展示了各行業各通過抖音直播所收穫無限可能,共同打造多元化直播內容生態。
  • 為什麼美國、日本、印度都「害怕」抖音?
    TikTok的推薦算法,確實在理論上有通過指向性給用戶「餵內容」來引導輿論的能力。但總伺服器在美國啊,所有的指令,所有的操作,都會在總伺服器裡留痕,一目了然清清楚楚,司法人員想調取證據簡直不要太簡單。而且TikTok所有的運營,均由美國人負責,再高明的軟體也是需要人來操作的,想要大規模的給用戶偷偷餵內容且瞞過負責每天操作和審核後臺數據的數千名美國員工,並在總伺服器中不留痕。那已經不是軟體了,是上帝。
  • 巨量引擎發布抖音廣告創意指數CEI,科學衡量廣告創意價值
    巨量引擎發布抖音廣告創意指數CEI,科學衡量廣告創意價值 在營銷行業,有一個話題一直被討論:創意能否用數據衡量?
  • 騰訊員工:智商低的才會沉迷抖音,刷半小時就無聊,網友共鳴強烈
    百分六十的人會說某音,而剩下的百分之四十是某手,這兩個APP絕對是佔據了短視頻的半壁江山,剩下的短視頻APP就太多了,但是其中有一個APP是不甘示弱,甚至想在短視頻的紅海中殺出一條血路,這就是企鵝家族產品中的某視了,這個產品其實很早就出來過但是不幸夭折,2018年騰訊加大扶持力度拉入明星跟知名KOL入駐,雖說有所改觀但是依舊不能與這兩大龍頭抗衡。
  • 升級電商營銷模式,巨量引擎助力企業破局式增長
    巨量引擎整合商家流量獲取、創意營銷、品牌曝光和用戶沉澱的需求,通過流量運營、內容運營、產品運營和用戶運營的解決方案,打造營銷全鏈路。   在流量運營過程中,通過「商域、私域和公域」三域流量協作,進行粉絲沉澱。
  • 《密逃2》變了味,解密推理變恐怖片,觀眾沉迷看嘉賓驚慌失措
    節目越來越追求觀眾所看到的觀感刺激,畢竟單純的解密很難讓觀眾代入到節目中,節目組將恐嚇明星的成分加重,無疑也是投了觀眾所好,這雖然有助於加大節目的熱度,但卻讓節目有些變味。不知何時,節目開始越來越喜歡用夜視拍攝的模式來觀察嘉賓,嘉賓的推理增加了越來越多挑戰膽小心理的過程,這種方式大大加深了觀眾自身的獵奇心理,很多人都是很喜歡看到明星失態的神情和表現,就像之前大家喜歡看馬戲團中的小丑一般。節目組正是抓住了觀眾內心的本能,嘉賓經過了幾期也明白了觀眾到底想看什麼,在節目中變得是遇事就躲,見人就喊,時不時就抱團閉眼。
  • 月入百萬的抖音遊戲打工人
    抖音等短視頻平臺興起後,遊戲愛好者有如當初美國西部的淘金人,短視頻平臺算法的分發機制和巨大的用戶池,讓遊戲圈不乏一夜成名的爆款傳說,如「呼叫網管」最早的7條內容就吸引了300多萬粉絲。這裡考驗的是短內容的製作能力,以及對用戶「爽點」的把握能力,而最為重要的,是把熱愛化作堅持。這也讓老白、「呼叫網管」這樣始終堅持做一件事,並努力做好一件事的年輕人,有了抓住新機遇的可能性。
  • 「抖音用戶Y」因何惹怒小鵬汽車?
    12月上旬,小鵬汽車發布聲明,稱近日發現抖音短視頻用戶(下稱「抖音用戶Y」)連續發布大量不實信息,並對小鵬汽車的經營情況進行毫無證據的揣測和造謠,嚴重損害了小鵬汽車的聲譽,造成了非常惡劣的輿論影響。對此,小鵬汽車將保留對相關責任人追究法律責任的權利。但小鵬汽車此番聲明並沒有讓「抖音用戶Y」停止發聲。
  • 擬推抖音單獨在港上市?字節跳動:在考慮部分業務上市計劃 抖音概念...
    「我們看好公司基於人工智慧推薦算法帶來的內容分發的創新,在這個基礎上,抖音以及今日頭條的增長迅猛,商業化尤其是廣告變現取得了非常好的成果。展望未來,字節跳動有望在新的業務領域繼續實現優勢地位,未來如果在港交所上市,估值有望突破萬億港元。」
  • 抖音直播間上熱門的三大因素 抖音直播怎麼讓更多人看到
    很多人在玩直播,展示自我的同時再賺點零花錢,那麼抖音直播怎麼讓更多人看到呢,這是很多有這方面需求的小夥伴們都關心的問題。今天就讓小編帶大家了解抖音直播間上熱門的三大因素吧。 很多人在玩直播,展示自我的同時再賺點零花錢,那麼抖音直播怎麼讓更多人看到呢,這是很多有這方面需求的小夥伴們都關心的問題。
  • 把抖音裝進冰箱需要幾步?
    終於能理解,為什麼投資人總會問,萬一BAT做了,你怎麼辦。以前真會認為問這種傻問題的投資人都有毛病。總覺得巨頭做死了很多產品應該有自知之明,巨頭未必能有你的認知深度,巨頭未必能做對。  騰訊的小視頻產品可能一下子沒有抖音快手增長那麼快,可架不住人家太懂社交啊。用戶早都被教育成對那個帶白色數字的,新信息提示紅點敏感。
  • 抖音哪個版本好用一點 抖音最好用版本推薦
    抖音哪個版本好用一點 抖音最好用版本推薦 來源:www.18183.com作者:ZD時間:2020-12-07 抖音哪個版本好用一點?