扒一扒頭條系的推薦系統 | 整理

2020-10-14 道哥叨科技

全文近5000字,閱讀時長需要多久我也不知道,有可能要反覆閱讀。


對推薦系統的誤解

有些人認為算法推薦讓用戶的興趣窄化,這是一個常見的誤解,包括我個人之前也是如此認為。這背後的邏輯是,算法推薦很懂你,根據你的興趣推薦,只推薦用戶感興趣的東西,這個用戶看的內容始終在一個有限的範圍內。長久以後,用幾年推薦系統,你的見識、知識、見解得不到提高。

然後事實是,這是一個短期利益和長期目標如何相互平衡的議題。聰明的企業都不希望自己的用戶興趣窄化,就像沒有一個零售賣場的經理希望顧客每一次來到商場都只關注同一類別的商品。商場經理都希望顧客關注儘可能多的產品品類,所以在建設推薦系統的時候也希望從長期來看用戶可以儘可能的拓展自己的興趣。


推薦系統所需要的特徵信息

推薦系統都需要依靠三個方面的特徵:內容特徵、用戶特徵、環境特徵,系統需要結合這三方面的信息做決策。

用戶特徵,是指用戶的標籤,包括用戶註冊時提交的基本信息,比如性別、年齡,還有用戶在平臺上的動作,比如用戶歷史點擊的作品列表、作品的關鍵詞分布、文章的作者分布等信息。

內容特徵,如果它是個商品,要有分類、標籤,包括歷史購買評論,這些都很重要。對於內容來講,就是它的文本、主題、關鍵詞等信息。

環境特徵,就是環境信息,對於用戶來講,他的興趣很多時候會變化,有的會周期性變化。比如一個資訊APP用戶,上班期間和上班路上、下班休息的時候,興趣是有變化的。

這些特徵信息推薦系統是要考慮到的。但是在不同領域、不同的推薦系統考慮的側重點有所區別。總體來講,所有的推薦系統都必須基於這三方面的信息來決策。


推薦系統的設計目標

長期目標:保持用戶的長期黏性。運營一個業務,希望用戶用了應用之後,能一直用下去,成為我們的忠實用戶。長期目標對於算法、模型來講是非常難學的。越是長期目標,機器學習難度越大。

中期目標:提升中期(周/月)的用戶黏性。這也很難,但是業內也有一些探索,比如強化學習的學習範式,而不用監督學習。但是也比較難,目前還不是特別成熟。

短期目標:保證用戶短時間內對內容的反饋。給用戶推了一個作品,用戶有沒有沒有播放、點讚、分享。這些短期目標模型是非常容易學習,容易建立起用戶行為。

推薦內容的多樣性越好,用戶的長期留存概率越大。


推薦系統的機制原理

給內容貼標籤,給人物貼標,按照標籤智能個性化推送。

內容標籤是層次型的,有多少大類,每個大類中有多少小類。例如第一分類是體育運動,第二分類是球類、田徑類、電子競技類,第三分類是足球、籃球、桌球等,最後可能細化到的顆粒是NBA、CBA,LOL、吃雞等。

平臺會根據用戶在使用App的習慣進行分析行為路徑,再進行貼標籤,再繼續優化標籤。這個採集的方法就是個人資料的填寫,關鍵詞搜索的記錄,瀏覽的比較多的類目視頻,點讚視頻數據,評論數據,通訊錄的圈子關係等。

以抖音的推薦系統為例,整個環節簡化拆解為幾個步驟:
流量分桶:先把你的作品檢測標籤,如果作品被機器貼上標籤那麼就會分桶到對應標籤的流量窪地。如果標籤模糊無法貼標籤,那麼就會零散推薦,無法進行精準推送。

  1. 首先對上傳的作品進行機器審核
  2. 為通過的視頻貼上標籤並申請流量推送
  3. 抖音會對實時在線用戶進行流量分桶,每桶按照總用戶量10%分配進行實驗推送
  4. 分配的視頻流量再進行分配實驗組,每個實驗組按照5%比例分配,並為用戶貼上相近標籤
  5. 把作品送量測試給首個實驗組用戶,根據用戶反饋(CPA)「轉、評、贊、完播率」 計算作品基數
  6. 達到通過推薦基數,繼續把作品推送下一個分配實驗組進行測試
  7. 通過首個實驗組的基數測試後,作品將進入人為審核是否繼續送量測試

用戶反饋數據包含哪些?

  • 完播率:不僅僅是視頻的播放完成率,還有用戶多次播放的數據,重複播放次數也會加入基數分值
  • 點讚率:用戶的點讚數量,和播放數的佔比,影響推薦,點讚是源自用戶對內容的認可,犒賞,收藏的表達方式
  • 評論率:不僅包含用戶評論數量,還包含用戶查看評論數量,評論點讚數量
  • 轉發率:不同渠道的轉發,包含是否在評論裡面@好友
  • 粉絲量:包含現有粉絲量,新增關注粉絲量及去關粉絲量,幾種分值算法
  • 進入主頁:通過作品進入用戶主頁也有加分,預覽其他作品數量及次數,還額外關係帳號權重
  • 查看音樂:通過作品查看音樂也會有基數,以及背景音樂是否原生

推薦系統的技術架構

模型的訓練上,頭條系大部分推薦產品採用實時訓練。實時訓練省資源並且反饋快,這對信息流產品非常重要。用戶需要行為信息可以被模型快速捕捉並反饋至下一刷的推薦效果。線上目前基於storm集群實時處理樣本數據,包括點擊、展現、收藏、分享等動作類型。



模型參數伺服器是內部開發的一套高性能的系統,目前頭條的推薦算法模型在世界範圍內也是比較大的,包含幾百億原始特徵和數十億向量特徵。


整體的訓練過程是線上伺服器記錄實時特徵,導入到Kafka中,然後進一步導入Storm集群消費Kafka數據,客戶端回傳推薦的標籤構造訓練樣本,隨後根據最新樣本進行在線訓練更新模型參數,最終線上模型得到更新。

推薦系統不可能所有內容全部由模型預估。所以需要設計一些召回策略,每次推薦時從海量內容中篩選出千級別的內容庫。召回策略最重要的要求是性能要極致,一般超時不能超過50毫秒。召回策略種類有很多,主要用的是倒排的思路。離線維護一個倒排,這個倒排的key可以是分類,topic,實體,來源等。


排序考慮熱度、新鮮度、動作等。線上召回可以迅速從倒排中根據用戶興趣標籤對內容做截斷,高效的從很大的內容庫中篩選比較靠譜的一小部分內容。

內容分析包括文本分析,圖片分析和視頻分析。其中文本分析是頭條做資訊的時候一開始就做的。頭條系的推薦系統主要抽取的文本特徵包括以下幾類。首先是語義標籤類特徵,顯式為文章打上語義標籤。這部分標籤是由人定義的特徵,每個標籤有明確的意義,標籤體系是預定義的。此外還有隱式語義特徵,主要是topic特徵和關鍵詞特徵,其中topic特徵是對於詞概率分布的描述,無明確意義;而關鍵詞特徵會基於一些統一特徵描述,無明確集合。


這裡要注意的是並非沒有文本特徵,推薦系統就不能工作,直接協同過濾推薦也是可以。但對資訊類、信息流類產品而言,大部分是消費當天內容,沒有文本特徵新內容冷啟動非常困難,協同類特徵無法解決文章、短視頻的冷啟動問題。


內容分析和用戶標籤是推薦系統的兩大基石。內容分析涉及到機器學習的內容多一些,相比而言,用戶標籤工程挑戰更大。


頭條系常用的用戶標籤包括用戶感興趣的類別和主題、關鍵詞、來源、基於興趣的用戶聚類以及各種垂直興趣特徵(車型,體育球隊,股票等)。還有性別、年齡、地點等信息。


性別信息通過用戶第三方社交帳號登錄得到。年齡信息通常由模型預測,通過機型、閱讀時間分布等預估。


常駐地點來自用戶授權訪問位置信息,在位置信息的基礎上通過傳統聚類的方法拿到常駐點。常駐點結合其他信息,可以推測用戶的工作地點、出差地點、旅遊地點。這些用戶標籤非常有助於推薦。


用戶標籤最簡單的做法是基於用戶瀏覽過的內容標籤,這裡涉及到一些數據處理策略,主要包括:
一、過濾噪聲。通過停留時間短的點擊,過濾標題黨。
二、熱點懲罰。對用戶在一些熱門作品上的動作做降權處理。理論上,傳播範圍較大的內容,置信度會下降。
三、時間衰減。用戶興趣會發生偏移,因此策略更偏向新的用戶行為。因此,隨著用戶動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大。
四、懲罰展現。如果一篇推薦給用戶的文章沒有被點擊,相關特徵(類別,關鍵詞,來源)權重會被懲罰。當然同時,也要考慮全局背景,是不是相關內容推送比較多,以及相關的關閉和dislike信號等。


2014年底頭條上線了用戶標籤Storm集群流式計算系統,從以前的Hadoop批量標籤計算改成流式之後,只要有用戶動作更新就更新標籤,CPU代價比較小,據說大大降低了計算資源開銷。並且特徵更新速度非常快,基本可以做到準實時。這套系統號稱從上線一直使用至今。

當然也並非所有用戶標籤都需要流式系統。像用戶的性別、年齡、常駐地點這些信息,不需要實時重複計算,就仍然保留每日更新。


推薦系統使用的算法技術

一個優秀的工業級推薦系統需要非常靈活的算法實驗平臺,可以支持多種算法組合,包括模型結構調整。因為很難有一套通用的模型架構適用於所有的推薦場景。


現在很流行將LR和DNN結合,前幾年Facebook也將LR和GBDT算法做結合。目前看起來頭條系旗下幾款產品都在沿用同一套算法推薦系統,但根據業務場景不同,模型架構會有所調整。


看一下典型的推薦特徵,主要有四類特徵會對推薦起到比較重要的作用。

第一類是相關性特徵,就是評估內容的屬性和與用戶是否匹配。顯性的匹配包括關鍵詞匹配、分類匹配、來源匹配、主題匹配等。像FM模型中也有一些隱性匹配,從用戶向量與內容向量的距離可以得出。
第二類是環境特徵,包括地理位置、時間。這些既是bias特徵,也能以此構建一些匹配特徵。
第三類是熱度特徵。包括全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等。內容熱度信息在大的推薦系統特別在用戶冷啟動的時候非常有效。
第四類是協同特徵,它可以在部分程度上幫助解決所謂算法越推越窄的問題。協同過濾這是十幾年前的老一代技術,做法也非常簡單、直觀,推薦系統會考慮你跟哪個用戶比較像,你們都點了什麼,你們喜歡同一類的電影,然後把那個人看過的,但你還沒看過的內容推薦給你,通過相似用戶的手段實現了興趣的探索。


協同特徵並非考慮用戶已有歷史。而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。


現在還有很多高端技術也在探索用戶興趣,推動內容多樣性。現在主流的技術是用深度學習做推薦,在深度學習裡面有很多方法,包括網絡可以做一些特殊的設置,讓它學一些新東西。


深度學習還是比較容易做的,因為所有用戶、所有內容都是高維空間的向量,可以有意識引導模型,讓它學習一些可能感興趣的內容,雖然它的興趣標籤和你不一樣。但是在這個空間裡面,映射到很近的點,讓模型容易推出去,這裡面有很多高端的做法。


推薦系統如何探索更多用戶興趣

從策略上講,推薦系統會有消重和打散策略。


所有的內容在推薦之前,會進行各種層次的相似性分析,會識別哪兩篇文章或者視頻是非常類似的。比如可能兩篇文章,雖然遣詞造句不一樣,但是講的內容是一樣的。推薦系統能夠分析哪些文章講的是同一個事情,或者涉及到同一個人,或者涉及到某一個公司,基於他們各種各樣的特徵進行分析。


然後,推薦的時候,系統會根據不同的相似性對這些相關的文章進行不同的處理。對於相似的文章,如果給用戶推薦了文章A,跟文章A相似的其他文章就不會被推薦了,這個就是消重的策略。


那麼還有一種情況,就是同一個方向或同一類主題的文章,比如都是足球的文章,推薦系統就需要打散策略,來保證推薦的頻率不會太高,避免用戶在前端感覺內容的同質化,保證內容多樣性,這些都是有算法保證的。


除了消重和打散策略,系統還會留一部分比例流量,探索用戶的興趣。比如每幾刷就有一刷的位置就是探索用戶的興趣,推薦一些模型不確認用戶是不是感興趣,但是模型想探索一下,會有一些這樣的流量。


如何評估推薦系統

全面的評估推薦系統,需要完備的評估體系、強大的實驗平臺以及易用的經驗分析工具。所謂完備的體系就是並非單一指標衡量,不能只看點擊率或者停留時長等,需要綜合評估。


一個良好的評估體系建立需要遵循幾個原則,首先是兼顧短期指標與長期指標。其次,要兼顧用戶指標和生態指標。既要為內容創作者提供價值,讓他更有尊嚴的創作,也有義務滿足用戶,這兩者要平衡。還有廣告主利益也要考慮,這是多方博弈和平衡的過程。另外,要注意協同效應的影響。

實驗中嚴格的流量隔離很難做到,要注意外部效應。
這裡的技術資料比較少,無法做過多的評論。



寫作不易,點讚在看加關注您覺得如何?

相關焦點

  • 小缸課堂:扒一扒汽油機的總體構造
    咱們聊完了常見汽油機、柴油機的分類和工作原理,今天扒一扒汽油機的總體構造。看看這個動力提供者有什麼三頭六臂可以驅動數以噸計的汽車?機體作為發動機各機構、各系統的裝配基體,其本身的許多部分又分別是曲柄連杆機構、燃料供給系、冷卻系和潤滑系的組成部分。有的發動機將氣缸體分鑄成上下兩個部分,上部稱為氣缸體,下部稱為曲軸箱。
  • 扒一扒Jillstuart品牌及其產品,Jillstuart人氣唇膏值得推薦麼
    雖然現在的化妝品品牌真的是多,但想找到一款適合自己的卻不是件容易的事,一不小心就會「踩雷」,小編也是經過無數次嘗試才找到一款好用的 -- Jillstuart化妝品。Jillstuart這個品牌可能大家比較陌生,所以今天就來扒一扒Jillstuart品牌及其產品,再說說Jillstuart人氣唇膏值得推薦麼。
  • 今日是財神節 扒一扒和財神節有關的傳說
    今日是財神節 扒一扒和財神節有關的傳說時間:2020-09-09 10:19   來源:今日頭條   責任編輯:莫小煙 川北在線核心提示:原標題:今日是財神節 扒一扒和財神節有關的傳說 2020年9月9日 農曆七月二十二 中國傳統的財神節 財神節,是中國漢族、土族等地民間祭祀財神的節日,一般為農曆七月廿二日,是中國傳統節日之一
  • 扒一扒中信信用卡的齷蹉勾當
    今天我們扒一下中信這隻鐵公雞,不僅摳,還私下做一些偷偷摸摸的齷齪事情,很多卡友已經怨聲載道。文末再教你擼鐵公雞一把,鐵公雞也會拔毛的。這就是我今天要重點扒的內容之一了。「都是上面授意安排好的」有卡友反饋中信某些活動一到領取禮品的時候就找不到兌換界面了,這種事情你遇到過沒有?
  • ch2楊美玲個人資料男友是誰 扒一扒ch2女團楊美玲個人資料
    ch2楊美玲個人資料男友是誰 扒一扒ch2女團楊美玲個人資料時間:2018-05-04 15:57   來源:今日頭條   責任編輯:沫朵 川北在線核心提示:原標題:ch2楊美玲個人資料男友是誰 扒一扒ch2女團楊美玲個人資料 創造101的眾多選手當中,有一對雙胞胎,叫作楊美玲和楊美琪。
  • 莽荒紀尉遲雪是誰演的 扒一扒尉遲雪扮演者王豔梅個人資料
    莽荒紀尉遲雪是誰演的 扒一扒尉遲雪扮演者王豔梅個人資料時間:2018-05-22 14:31   來源:今日頭條   責任編輯:沫朵 川北在線核心提示:原標題:莽荒紀尉遲雪是誰演的 扒一扒尉遲雪扮演者王豔梅個人資料 《莽荒紀》是由北京天悅東方文化傳媒有限公司出品,黃祖權執導的東方傳奇劇。
  • 扒一扒那些年被明星們種草的「龍角散」
    今天來扒一下一個超級適合「湊單」的隨身好物——龍角散。提到這個有200多年製藥歷史的品牌,當老師的、做主播的應該都知道,畢竟上次雪梨、佳琦在自己直播間嗓子疼的時候,都在現場直接開吃,可見效果還是槓槓的。但!
  • 扒一扒,國外名校好進嗎?TOP15名校如何進?
    好久不見,小編又要開扒了,之前一直在跟大家聊到國內的大學,今天我們不妨放開眼界,聊一聊國外的大學。國外的大學很多,相比國內來說,國外大學從師資到知名度,再到畢業後的待遇和國內大學相比差距有些大。相信現在也會有很多學生在完成國內學業後想要出國留學,去國外的大學留學,一方面是想了解更多的知識,增長更多的見識,另一方面,想要去國外渡金,以便回國後更好找工作(原諒小扒這麼實再)。但是國外的大學真的好進嗎?以美國賓夕法尼亞大學為例,夕法尼亞大學位於賓夕法尼亞州的費城,是美國一-所著名的私立研究型大學,八所常青藤盟校之一。
  • 「扒一扒」魚油裡的那些坑
    所以魚油對於國內的寵物主人來說,大多也只是了解其功效,但對於如何判斷一款魚油的品質好壞,如何選擇適合自己寵物的魚油多少還是有點迷糊的。今天我們就一起「扒一扒」魚油裡的那些坑,看看魚油的選擇中究竟有什麼彎彎繞繞。 關於魚油你需要了解什麼?
  • 扒一扒:匹克、李寧、安踏、耐克、阿迪達斯對比下有何不同?
    扒一扒:匹克、李寧、安踏、耐克、阿迪達斯對比下有何不同?小編集合一些小夥伴們真實感想和網上的言論,扒一扒這些大牌鞋有何差異?1.李寧李寧作為國產運動品牌的霸主,最先開展了籃球鞋業務,同時也是最先走出國門的品牌。大約十年之前,李寧與奧尼爾籤約,締造了君臨系列。圖為李寧奧尼爾君臨4代。鞋面上的格子為大塊碳纖維片,緩震為李寧弓科技,球鞋的用料以及科技可以與鉤子槓子球鞋一戰。
  • 扒一扒西歐噴氣式戰鬥機家族譜(3)
    原創 孫磊東 航空知識西歐噴氣式戰鬥機第三扒來了!在正式開扒之前,我們先回顧一下前兩扒。扒一扒西歐噴氣式戰鬥機家族譜(1)扒一扒西歐噴氣式戰鬥機家族譜(2)老規矩,先上個猛圖!!!
  • 江蘇省環保集團董事長、總經理公示,扒一扒各省市環保集團的一把手
    之前,北極星環保網整理過各省市的環保集團(詳見文章江蘇省環保集團將成立!扒一扒各省的環保集團,你知道幾個?),那麼各省市的環保集團有的一把手都是誰? 來源:北極星環保網 整理:Nana 熱文推薦
  • 扒一扒硅藻泥的優缺點!
    在選擇硅藻泥進行裝修的同時,讓我們一起來扒一扒硅藻泥的優缺點吧!硅藻泥可以防火阻燃現在很多火災發生時,人們死亡的大部分原因是被燃燒時釋放的有毒有害物質致死,而硅藻泥均為無機材料,且硅藻土能耐1300℃以上的高溫,只有熔點沒有燃點,不僅不會燃燒更不會釋放有毒有害物質,可以說是一面牆救一家人,安全選材真的很重要。
  • 扒一扒「車位貸」的套路!
    基本上所有樓盤的置業顧問為了促進車位銷售,會大力為購房人推薦類似產品,說辭中不乏「利息比房貸低」的表述。今天就來扒一扒車位貸背後的真相! 以上面建行的車位貸產品為例,利用貸款計算器按照3.12%年利率計算,5年期每期還款額應為1802元,而宣傳中月還款額為1926,這裡多出來的124元去哪裡了?
  • 扒一扒西歐噴氣式戰鬥機家族譜(1)
    原創 孫磊東 航空知識之前航知為大家整理了美國和蘇聯的戰鬥機家族譜,很多朋友表示意猶未盡!所以,勤勞的小編再次上線,開扒!今天,我們開扒西歐戰機!話不多說,先上個猛圖!!!
  • 扒一扒西歐噴氣式戰鬥機家族譜(2)
    原創 孫磊東 航空知識西歐噴氣式戰鬥機第一扒後,雖然閱讀量和轉發量沒有達到小編心中的預期,但說話算話,小編趕緊開扒第二撥!扒一扒西歐噴氣式戰鬥機家族譜(1)老規矩,先上個猛圖!!!
  • 扒一扒明星豐胸都是用什麼方法,效果好嗎?
    >扒一扒明星豐胸都是用什麼方法,效果好嗎?狗仔隊們也紛紛猜測,那些一招胸變大的明星們是不是做了豐胸手術呢?  最近一名大牌的明星經紀人卻曝出一個真相。其實明星們對身體的健康要求是很嚴格的,小道日常的飲食,大到生病吃藥,都是有嚴格的控制。而像隆胸手術這種是很少的存在,如果出現某某明星的隆胸手術新聞,那也大部分是炒作的。所以對於豐胸我們不僅說要有效果,更重要的是選擇健康的豐胸方法,這是最基本的。
  • 一盤子扒口條兒
    這是扒口條,清真菜裡喜歡「扒」,扒口條,扒肉條,都有。 今天,吃的是扒口條,在這以前,我不但沒吃過口條,我連口條是啥都不知道。 口條就是舌頭,別人告訴我我才知道這事兒。
  • 秋天扒玉米
    剛扒出一個小窩,父親就從地裡推回一車子玉米給填滿了。剛開始扒玉米皮的新手,不熟練,不得要領,就會多扒出來很多不帶玉米皮的光腚子。光腚子玉米是沒法掛的,只能堆在一處,或者一個個摞在一個地方,容易佔地方,不如掛起來省空間。
  • 今天就來扒一扒金晨小紅書極力推薦的德美樂嘉到底是什麼來頭?
    別說,金晨小姐姐可不是藏私的人,在她的小紅書上就有不少好物分享,更是有專題「金晨限定美妝間」給大家推薦各種護膚品。就拿金晨推薦的面膜系列來說,有黑鑽面膜,有酒粕面膜,復活草面膜,V臉面膜,急救面膜……那麼如何在眾多推薦中選擇適合自己皮膚的產品,這個時候顯得尤為重要。