FM:推薦算法中的瑞士軍刀

2021-02-14 推薦道

前言

自從我上次在知乎回答了問題《機器學習中較為簡單的算法有哪些？》，很多同學私信我詢問我FM算法在推薦系統中的應用細節，索性今天就專門寫一篇文章，仔細聊一聊FM這把「推薦算法中的瑞士軍刀」。正文開始之前，我說幾句題外話。

第一，談談本文的標題。機器學習算法中的瑞士軍刀，可不是隨便起的。以前Xgboost因為方便易用、功能廣泛、性能優異，被譽為Kaggle比賽中的瑞士軍刀。因為同樣的優點，我將FM稱作「推薦算法中的瑞士軍刀」，其中有兩個含意：

如果你身處大廠，周圍訓練、上線的資源都很充裕，需要在已經很優秀的業務指標上錦上添花，那麼你肯定看不上FM這樣的老古董，而是追求DNN、GNN這樣的大殺器，而且將Attetion、Transformer之類的花哨結構，能加的都給它加上。但是，既然是瑞士軍刀，那麼拿它與屠龍刀比威力，就不太公平了。有一日，你脫離了大平臺，單獨出來行走江湖。這個時候，你才發現，即便屠龍寶刀白送給你，你自己一個人也很難扛起來。適合於業務草創階段的算法兵器，應該具備：（1）快速訓練+上線；（2）儘量白盒，以便定位問題；（3）一專多能，減少開發、維護成本；（4）性能上也不算差。此時，你會發現，FM幾乎是你唯一的選擇。

第二，本文主要介紹FM應用於推薦系統中的一些實戰經驗，需要讀者對FM有一定的基礎。對FM還不太了解的同學，我推薦以下參考資料：

掌握FM原理，推薦讀美團的博客《深入FFM原理與實踐》。FFM的部分可以忽略，在我看來，FFM損失了FM的很多優點（比如，通過公式簡化，將時間複雜度由

接下來的文字中，我首先梳理一下FM的特點，再按照精排、召回、解釋模型的順序，介紹FM在各個業務中的技術細節，比如：如何無偏地收集樣本、如何設計模型、如何部署上線。細心的讀者可能注意到，這裡面沒有「粗排」的內容。我們嘗試過粗排模型（並非FM，而是雙塔+蒸餾），線上收益並不明顯，所以在就裡就不詳細敘述了，感興趣的同學可以參考阿里的論文《Privileged Features Distillation at Taobao Recommendations》。

FM的特點功能齊全

眾所周知，推薦算法有三個應用領域：召回、粗排、精排。推薦算法千千萬，但是有的算法只能用於召回，有的算法只能用於排序（吐槽一下，有本「著名」的書《Deep learning for matching in search and Recommendation》，其中的很多算法，比如DIEN之類的，其計算複雜度只能用於排序，但是很多人在翻譯的時候將matching翻譯成召回，簡直是開玩笑）。像FM這樣實現三個領域全覆蓋的多面手，目前為止，孤陋寡聞的我尚不知道有第二個。

特別是FM用做召回時，表現更加優秀。FM召回的主流作法，是用生成的user embedding直接查找最相近的item embedding。除此之外，利用已經生成了的user/item embedding，還有更多的玩法，比如，查找相似item的「看了又看」功能、用戶聚類推薦功能、根據item找潛在用戶的Push功能。而且，FM對新用戶、新物料也非常友好。實現一個FM召回，就能夠完成u2i, i2i, i2u, u2u2i四種召回方式，還包括對新用戶、新物料的冷啟動。性價比如此之高，即使在很多大廠，FM也是主力召回模型，果然是很香了。

另外，雖然DNN這樣的屠龍刀，威力強大，但是有一個缺點，就是模型黑盒化比較嚴重，可解釋性非常差。這方面，FM的優勢就非常明顯了。FM能夠將模型的最終打分拆解到每個特徵和特徵組合上，從而能夠讓我們分析出到底是哪些因素提高或拉低了模型的打分。最重要的是，區別於GBDT那種只能提供特徵的全局重要性，FM提供的重要性是針對某一個、某一群樣本的，使我們能夠做更加精細化的特徵分析。

性能優異

對於推薦系統的兩大永恆主題，「記憶」與「擴展」，FM也能實現全覆蓋。

FM存在一階項，實際就是LR，能夠記憶高頻、常見模式如我在《無中生有：論推薦算法中的Embedding思想》所說，Embedding是提升推薦算法「擴展性」的法寶。FM通過feature embedding，能夠自動挖掘低頻、長尾模式。在這一點上，基於embedding的二階交叉，並不比DNN的高階交叉，遜色多少。便於上線

現在DNN是推薦領域的寵兒，LR/FM/GBDT這樣的傳統機器學習算法，被打入冷宮，不招人待見。

DNN這樣的屠龍刀，雖然性能優異，但是它有一個致命缺點，就是上線困難。訓練的時候，各位調參俠，把各種酷炫的結構，什麼attention, transformer, capsule，能加上的都給它加上，看著離線指標一路上漲，心裡和臉上都樂開了花，卻全然無視旁邊的後端工程師恨得咬緊了牙根。模型越複雜，離線和線上指標未必就更好，但是線上的時間開銷肯定會增加，超時嚴重的時候，你那離線指標完美的模型壓根沒有上線的機會。雖說，目前已經有TF Serving這樣的線上serving框架，但是它也不是開箱即用的，也需要一系列的性能調優，才能滿足線上的實時性要求。

所以，如果你身處一個小團隊，後端工程人員的技術能力不強，DNN的線上實時預測，就會成為一個難題，這個時候，FM這樣的傳統機器學習算法，就凸顯出其優勢。

FM排序，雖然理論上需要所有特徵進行二階交叉，但是通過公式化簡，可以在 O(n)的時間複雜度下完成。n是樣本中非零的特徵數目，由於推薦系統中的特徵非常稀疏，所以預測速度是非常快的。召回，由於候選集巨大，對於實時性的要求更高。很多高級的召回算法（e.g., 基於GNN的召回算法），由於計算複雜，無法線上實時生成user embedding，只能退而離線生成user embedding，不僅降低了用戶覆蓋率，而且對於用戶實時興趣的捕捉大打折扣。FM召回，只需要把一系列的feature embedding相加，就可以對任何用戶在線生成最新的user embedding，從而可以基於用戶最新的興趣，從千萬量級候選item中完成實時召回。FM精排樣本

如果只做CTR預估，不涉及CVR這樣的級聯目標，精排樣本的選擇是比較清晰的，拿「曝光點擊做正樣本，曝光未點擊做負樣本」是業界的共識。

正樣本，一般再卡一個停留時長，去除用戶誤點擊、自動播放之類的髒數據負樣本，講究「真負」，一定是真正曝光給用戶、然後被用戶忽略的。為此，還有所謂above click的作法，拿用戶點擊的item以上的未點擊item做負樣本。特徵

精排能夠利用的特徵是最豐富的，需要分為三大類

user類：用戶長短期畫像、點擊/收藏/購買歷史、.等item類：物料畫像、物料的後驗指標（e.g., CTR、時長）、.等交叉類特徵：有的同學或許有疑問，不是說FM能夠自動實現特徵之間的二階交叉嗎？怎麼還需要輸入交叉特徵？FM所實現的特徵交叉指的兩個特徵的共現，比如"用戶喜歡軍事，並且，物料帶有坦克標籤"。除此之外，我們可以計算一些統計意義上的交叉，比如「用戶攜帶的tag與物料攜帶的tag之間的重合度」。這種交叉特徵，對於刻畫用戶與物料的匹配程度，非常重要，對排序模型的性能提升非常顯著。但是，由於需要讓用戶與每個候選物料進行交叉，所以只適用於候選物料較少的精排場合，無法用於召回和粗排。

正如我在《推薦算法的"五環之歌"》一文中所論述的，ID特徵才是推薦系統中的一等公民，在離線訓練、線上服務時都具備一系列優勢，所以FM中所有特徵都ID化。

類別型特徵，比如UserId、ItemId、一二級分類、標籤等，天然就是ID型特徵。而實數型特徵，比如Item過去的點擊率、用戶過去24小時的點擊數之類，需要通過分桶轉化為ID類特徵。訓練模型

由於我們使用的都是ID類特徵，所以FM的預測公式可以簡化為

b是bias項，大家都一樣，不影響排序，下文會忽略

以上公式又可以繼續推導如下，其中

這個公式避免了原始公式中兩兩特徵交叉，將時間複雜度由

得到logit之後，我們就可以與樣本的label（i.e., 是否點擊）計算binary cross-entropy loss，並通過SGD優化，從而得到各特徵的一階權重

線上服務

精排打分時，也採用logit=的公式，時間複雜度只有O(n)，n是有限的非零特徵的數目，能保證線上預測的實時性。

但是，我們還可以繼續優化。由於線上打分時，是將某個用戶與一批候選item，餵入ranker，因此那一個用戶的特徵只需要抽取、計算一遍，在給多個item打分時復用。

logit=

多線程並行完成。FM召回樣本

我曾經提出一個觀點，「排序是特徵的意義，而召回是樣本，特別是負樣本的藝術」，足見樣本選擇對召回算法的重要性。

還是拿「曝光點擊」的item做正樣本，同時需要排除誤點擊、自動播放等髒數據。對於負樣本的選擇，基本原則之一就是，不能只拿曝光未點擊做負樣本。至於是否能夠拿「曝光未點擊」作為隨機負樣本的補充，這一點有爭議。根據我和Facebook的經驗，增加「曝光未點擊」做負樣本，不僅沒有收益，性能還有所下降。但是有的同學私信給我，說他們團隊拿「曝光未點擊」做補充，還是有正向收益的。但是，無論如何，大部分負樣本應該通過隨機採樣得到，只有這樣，訓練時的數據分布才最接近預測時的數據分布。

在遵循「隨機採樣負樣本」這一基本原則之外，還需要注意兩點。

打壓熱門item

任何一個推薦系統，都難逃「2-8」定律的影響，即20%的熱門item佔據了80%的曝光量或點擊量，因此正樣本中，絕大部分是熱門item。如果不加以打壓，將導致每個用戶的召回結果，都集中於少數熱門item，從而失去個性化。為了打壓熱門item，需要我們在生成正負樣本時，針對熱門item採取截然相反的採樣策略

降低熱門item成為正樣本的可能性，因此，item越熱門，其成為正樣本的概率就應該越低。提升熱門item成為item-的概率。可以從兩個角度來理解：（1）既然熱門item已經「綁架」了正樣本，我們也需要提高熱門item在負樣本中的比例，以抵銷熱門item對loss的影響；（2）如果隨機負採樣時採取uniform sampling，因為有海量的候選item，而採樣量有限，因此極可能採樣得到的item與user「八桿子打不著」，既所謂的easy negative。而如果多採集一些熱門item當負樣本，因為絕大多數用戶都喜歡熱門item，這樣得到的是所謂的hard negative，會極大地提升模型精度。所以在隨機採樣負樣本時，一方面需要儘可能廣泛地覆蓋所有候選item，另一方面又需要儘量集中於高熱item。調節因子b=1時，負採樣完全按照item的熱門程度進行，對熱門item的打壓最厲害，但是對所有候選item的覆蓋度下降，導致訓練數據環境與預測數據環境的gap增大，反而損害召回效果調節因子b=0時，負採樣變成uniform sampling，對所有候選item的覆蓋度最高，減少了訓練數據環境與預測數據環境的gap，但是對熱門item的打壓完全沒有打壓，採集到的item-都是easy negative，召回效果會偏熱門，個性化較差

以上對熱門item成為正、負樣本時的採樣加權公式，是從word2vec中借鑑而來。因為，Language Model中根據「上下文」預測「缺失詞」的問題，其實就可以看成一個召回問題。所以，word2vec中處理高頻詞的方式，也可以拿來為我們所用，在召回中打壓高熱item。具體細節，可以參考我的知乎回答《推薦系統傳統召回是怎麼實現熱門item的打壓》。

增強Hard Negative

<user,item>的匹配度可以分成三個檔次

匹配度最高的item，是以用戶點擊為代表的，那是正樣本。匹配度最低的item，那是隨機抽取的。能被一眼看穿，是所謂的easy negative，達不到鍛鍊模型的目的。所以要選取一部分匹配度適中、但用戶又未點擊的item，增加模型在訓練時的難度，讓模型能夠關注細節，這就是所謂的hard negative。

如何選取hard negative，業界有不同的做法。Airbnb是根據業務邏輯來選取hard negative

增加與正樣本同城的房間作為負樣本，增強了正負樣本在地域上的相似性，加大了模型的學習難度增加「被房主拒絕」作為負樣本，增強了正負樣本在「匹配用戶興趣愛好」上的相似性，加大了模型的學習難度

當業務邏輯沒有那麼明顯的信號時，就只能依靠模型自己來挖掘。Facebook的EBR與百度Mobius的作法非常相似，都是用上一版本的召回模型篩選出"相似度沒那麼高"的<user,item>對，作為額外負樣本，來增強訓練下一版本召回模型。具體做法上，又分online和offline兩個版本

在線篩選

假如一個batch有n個正樣本對，<

一個正樣本最多配置2個這樣的hard negative，配置多了反而會有負向效果。缺點是僅僅採用一個batch中的item作為hard negative的候選集，規模太小，可能還不足夠hard。

離線篩選

拿當前召回模型，為每個候選item生成item embedding，灌入FAISS拿當前召回模型，為每個user生成user embedding，在FAISS中檢索出top K條近鄰item這top K條近鄰item中，排名靠前的是positive，排名靠後的是easy negative，只有中間區域（Facebook的經驗是101-500）的item可以作為hard negative。將hard negative與隨機採樣得到的easy negative混合。因為畢竟線上召回時，候選庫裡還是以easy negative為主，所以作者將比例維持在easy:hard=100:1 特徵

接下來會說到，線上部署FM召回模型時，需要周期地在線下計算好幾百萬候選item的embedding，然後灌入FAISS建立索引，等待user embedding來檢索。因為user embedding是在線生成，而item embedding是離線生成，二者分離造成我們在訓練、預測時，不能使用任何user與候選item之間的統計交叉特徵。這一點與FM精排視「統計交叉特徵」為最重要特徵，有著顯著不同。

訓練模型

如前文所述，由於召回中的負樣本大部分是通過隨機採樣得到的，它們的"negative label"是含有噪聲的。在這種情況下，再照搬精排使用binary cross-entropy loss追求「預估值」與「label」之間的「絕對準確性」，就有點強人所難了。所以，召回算法往往採用Pairwise LearningToRank（LTR），建模排序的「相對準確性」。即模型優化的目的，不是為了擬合"user與負樣本item的匹配程度越低越好"，而是追求「user與正樣本item的匹配程度，要遠遠高於，user與負樣本item的匹配程度」。

所以，與精排模型中的每個訓練樣本為<user, item, label>的形式不同，訓練召回模型時的每個訓練樣本為一個三元組，即<user, item+, item->。而模型設計，又拆分成兩個子問題：（1）如何定義user與item的匹配程度？（2）如何定義「遠遠高於」？

如何定義user與item的匹配度

對於第一個問題，FM召回當然是採用FM公式了。

MatchScore(user, item)=

細心的同學會發現，常見的召回模型中採用「user embedding與item embedding做點積或cosine」來計算匹配度，以方便利用FAISS進行快速近鄰檢索，擔心以上公式訓練出來的模型無法與FAISS兼容。不用擔心，接下來講線上服務的時候，我們會發現以上完整的FM公式也可以轉變成兩個向量點積的形式，同樣可以利用FAISS快速檢索。

如何定義"遠遠高於"

一種是採用margin hinge loss，即user與正樣本item的匹配程度，要比，user與負樣本item的匹配程度，高出一定的閾值。寫成公式，就是

但是，這個公式裡面又多出一個超參margin需要調節，因此我主要使用如下的BPR Loss。

BPR Loss的思想是計算"給user召回時，將item+排在item-前面的概率"，。因為一個三元組<user, item+, item->的ground-truth label永遠是1，所以將

線上服務傳統u2i召回

上文已經提到，訓練時，我們用完整的FM公式來描述User與Item之間的匹配度。但是，在線上服務時，我們必須將匹配度描述成點積或cosine的形式，才能利用FAISS完成在百萬、千萬級物料庫中的快速召回。這個"FM→點積"的公式轉化如下圖所示。

這時還可以做兩個簡化：

當為一個用戶召回時，這個用戶的一階權重和特徵隱向量都是固定的，因此從公式中省略"所有User特徵一階權重之和"和「所有User特徵隱向量兩兩點積之和」（圖中綠色公式）也不影響排序所有User特徵與所有Item特徵之間的兩兩點積之和（第一行紅色公式），等價於，將所有User特徵embedding相加得到user embedding，將所有Item特徵embedding相加得到item embedding，再拿user embedding與item embedding做點積（第二行紅色公式）

這時，有一種方案就是，忽略公式中的藍色部分，線上服務時只保留user embedding與item embedding的點積。這樣做，也不是不行，但是效果不是特別好。因為用戶喜歡的，未必一定是與自身最匹配的，也包括一些自身性質極佳的item（e.g.,熱門item），所以，非常有必要將"所有Item特徵一階權重之和"和「所有Item特徵隱向量兩兩點積之和」考慮進去，但是也還必須寫成點積的形式。

解決方法是將user/item embedding都增廣一維，如下圖公式所示。

Embedding的其他玩法

除了以上最常用的u2i召回，在我們得到user embedding和item embedding之後，還有很多其他玩法

拿用戶最近一次點擊的item embedding，在item faiss庫中檢索相似item，推薦給用戶，實現「看了又看」、「猜你喜歡」等功能拿當前user embedding，在user faiss庫中檢索相似user，把這些相似user消費過的item推薦給當前user，類似User CF，效果也非常好可以拿item embedding，在user faiss庫中檢索可能對它感興趣的user，把item給這些用戶Push出去，達到提高用戶黏性、減少用戶流失的目的。冷啟動新用戶與新物料

需要特別指出的是，很多召回，比如基於ALS的矩陣分解、Item CF等，都有冷啟動問題，儘管單路召回性能很好，但是由於能夠覆蓋的用戶、物料有限，對大盤指標的影響也很有限。而FM召回的優勢在於，它對新用戶、新物料都非常友好。

對新用戶，哪怕他是一個純新用戶，沒有任何畫像與交互歷史，他至少有一個特徵叫「IsNewUser=1」，也就能夠生成user embedding，FM也能替他召回對新物料，任何物料都能拿到其畫像（e.g., 一二級分類、標籤等），自然能夠得到item embedding。我們可以專門建立一個FAISS庫，裡面的item都是剛入庫的新item。用戶請求到來時，除了在常規的、由已經有一些點擊量的item faiss庫裡召回之外，還在這個只由新item組成的faiss庫裡召回。這樣既能夠將新item分發出去，又保證分發是高度個性化的，提高流量的利用率。FM解釋模型模型解釋性：全局 vs. 局部

如果說，如果要追求模型的表達能力，還要靠DNN這樣的大殺器，FM只能算「模型能力+工程複雜度」綜合考慮下一個不錯的折中方案。但是，如果論模型的可解釋性，DNN模型就難望FM的項背了。不僅如此，FM在解釋性上最大優點，是能夠提供針對一個或一群樣本上的「局部特徵重要性」。

首先，先解釋一下「全局特徵重要性」與「局部特徵重要性」兩個概念。

GBDT能提供的特徵重要性，就是「全局特徵重要性」，它代表每個特徵對整個模型的影響力。但是，如果我們想知道，對某一個具體樣本的預測得分，哪些特徵的影響力比較大，「全局特徵重要性」是無能為力的。這時就需要「局部特徵重要性」，能夠針對每一個樣本，分析出該樣本的每個特徵對該樣本預測得分的貢獻。比如SHAP算法能提供如下圖形化展示，模型給這條樣本的最終打分是24.41，從圖中我們可以看到是哪些特徵做了貢獻，又有哪些特徵拖了後腿。

為什麼「局部特徵重要性」更重要？因為數據分析的精髓就在於指標的拆解、下鑽。

我們可以按性別、年齡篩選出不同用戶的消費樣本，「局部特徵重要性」能夠告訴我們，影響某一類用戶消費的正負向因素我們可以專門篩選出那些false positive/false negative的bad case，看看哪些特徵的表現不如預期，導致預測失敗 FM得分拆解

FM允許我們將最終預測得分，拆解到各feature和feature組合上，從而能夠提供「局部特徵重要性」。但是，推薦場景下，feature空間有上億維，而且高度稀疏，拆解到feature與feature組合級別，計算量太大，而且即便能夠拆解成功，拆解後的信息也太瑣碎，讓人無從分析。因此，更合理的解決方案是拆解到field級別，因為field最多幾百個，算上field組合也不過幾萬個，無論是計算規模，還是分析規模，還是可以接受的。（有些同學對field的概念不太熟悉，這裡做一下簡單說明。比如「一級分類」算是field，而「軍事」、「歷史」這樣的具體的分類值是這個field下的feature。）

拆解方法也很簡單：針對每一個樣本，將這個樣本的feature embedding按所屬field分組，同一field下所有feature embedding相加得到field embedding，然後兩兩field embedding做點積，這樣就將樣本得分拆解到了field和field pair的維度上。以上算法可以在Spark中分布式運行。

單獨看一個樣本上的拆解結果，可能有很多噪聲。我們可以選取一組樣本進行得分拆解，然後將這組樣本在各個field pair上的得分進行統計，比如繪製熱力圖，就能看出哪些field pair對這組樣本至關重要。

FM:推薦算法中的瑞士軍刀

相關焦點

瑞士維氏牌軍刀

多功能刀具=瑞士軍刀?NO!不是什麼刀都能叫瑞士軍刀!

維氏瑞士軍刀

你用瑞士軍刀是真的維氏瑞士軍刀麼

瑞士軍刀品牌哪個正宗,維氏瑞士軍刀菁英怎麼樣

【青島免稅店】春遊必備產品推薦--瑞士軍刀

哥們,你的瑞士軍刀夠格嗎?

瑞士軍刀的前世今生

小小瑞士軍刀為何這麼貴?

瑞士軍刀——超級實用的工具

瑞士軍刀:男人一輩子的工具

瑞士軍刀和中國瑞士軍刀就「紅底十字」商標打官司

好物之走進瑞士丨瑞士軍刀Victorinox:人在江湖,怎能不擁有一把硬核的瑞士軍刀?

瑞士軍刀最經典款式,維氏瑞士軍刀照明瑞士卡質量好嗎測評

瑞士軍刀——不僅功能多

瑞士軍刀你得這麼用!

瑞士軍刀是如何製造的?

適合商務人士的瑞士軍刀

瑞士軍刀,功能性與收藏價值的典範

維氏瑞士軍刀怎麼樣之維氏瑞士軍刀迷你英雄試用測評

FM:推薦算法中的瑞士軍刀

相關焦點

瑞士維氏牌軍刀

多功能刀具=瑞士軍刀?NO!不是什麼刀都能叫瑞士軍刀!

維氏瑞士軍刀

你用瑞士軍刀是真的維氏瑞士軍刀麼

瑞士軍刀品牌哪個正宗,維氏瑞士軍刀菁英怎麼樣

【青島免稅店】春遊必備產品推薦--瑞士軍刀

哥們,你的瑞士軍刀夠格嗎?

瑞士軍刀的前世今生

小小瑞士軍刀為何這麼貴?

瑞士軍刀——超級實用的工具

瑞士軍刀:男人一輩子的工具

瑞士軍刀和中國瑞士軍刀就「紅底十字」商標打官司

好物之走進瑞士丨 瑞士軍刀Victorinox:人在江湖,怎能不擁有一把硬核的瑞士軍刀?

瑞士軍刀最經典款式,維氏瑞士軍刀照明瑞士卡質量好嗎測評

瑞士軍刀——不僅功能多

瑞士軍刀你得這麼用!

瑞士軍刀是如何製造的?

適合商務人士的瑞士軍刀

瑞士軍刀,功能性與收藏價值的典範

維氏瑞士軍刀怎麼樣之維氏瑞士軍刀迷你英雄試用測評

好物之走進瑞士丨瑞士軍刀Victorinox:人在江湖,怎能不擁有一把硬核的瑞士軍刀?