推薦系統遇上深度學習(六)--PNN模型理論和實踐

2021-02-08 Python愛好者社區

作者：石曉文中國人民大學信息學院在讀研究生

個人公眾號：小小挖掘機（ID:wAIsjwj）

前文傳送門：

推薦系統遇上深度學習(一)--FM模型理論和實踐

推薦系統遇上深度學習(二)--FFM模型理論和實踐

推薦系統遇上深度學習(三)--DeepFM模型理論和實踐

推薦系統遇上深度學習(四)--多值離散特徵的embedding解決方案

推薦系統遇上深度學習(五)--Deep&Cross Network模型理論和實踐

1、原理

PNN，全稱為Product-based Neural Network，認為在embedding輸入到MLP之後學習的交叉特徵表達並不充分，提出了一種product layer的思想，既基於乘法的運算來體現體徵交叉的DNN網絡結構，如下圖：

按照論文的思路，我們也從上往下來看這個網絡結構：

輸出層

輸出層很簡單，將上一層的網絡輸出通過一個全連結層，經過sigmoid函數轉換後映射到(0,1)的區間中，得到我們的點擊率的預測值：

l2層

根據l1層的輸出，經一個全連結層，並使用relu進行激活，得到我們l2的輸出結果：

l1層

l1層的輸出由如下的公式計算：

重點馬上就要來了，我們可以看到在得到l1層輸出時，我們輸入了三部分，分別是lz，lp 和 b1，b1是我們的偏置項，這裡可以先不管。lz和lp的計算就是PNN的精華所在了。我們慢慢道來

Product Layer

product思想來源於，在ctr預估中，認為特徵之間的關係更多是一種and「且」的關係，而非add"加」的關係。例如，性別為男且喜歡遊戲的人群，比起性別男和喜歡遊戲的人群，前者的組合比後者更能體現特徵交叉的意義。

product layer可以分成兩個部分，一部分是線性部分lz，一部分是非線性部分lp。二者的形式如下：

在這裡，我們要使用到論文中所定義的一種運算方式，其實就是矩陣的點乘啦：

我們先繼續介紹網絡結構，有關Product Layer的更詳細的介紹，我們在下一章中介紹。

Embedding Layer

Embedding Layer跟DeepFM中相同，將每一個field的特徵轉換成同樣長度的向量，這裡用f來表示。

損失函數
使用和邏輯回歸同樣的損失函數，如下：

2、Product Layer詳細介紹

前面提到了，product layer可以分成兩個部分，一部分是線性部分lz，一部分是非線性部分lp。

看上面的公式，我們首先需要知道z和p，這都是由我們的embedding層得到的，其中z是線性信號向量，因此我們直接用embedding層得到：

論文中使用的等號加一個三角形，其實就是相等的意思，你可以認為z就是embedding層的複製。

對於p來說，這裡需要一個公式進行映射：

不同的g的選擇使得我們有了兩種PNN的計算方法，一種叫做Inner PNN，簡稱IPNN，一種叫做Outer PNN，簡稱OPNN。

接下來，我們分別來具體介紹這兩種形式的PNN模型，由於涉及到複雜度的分析，所以我們這裡先定義Embedding的大小為M，field的大小為N，而lz和lp的長度為D1。

2.1 IPNN

IPNN的示意圖如下：

IPNN中p的計算方式如下，即使用內積來代表pij：

所以，pij其實是一個數，得到一個pij的時間複雜度為M，p的大小為N*N，因此計算得到p的時間複雜度為N*N*M。而再由p得到lp的時間複雜度是N*N*D1。因此對於IPNN來說，總的時間複雜度為N*N(D1+M)。文章對這一結構進行了優化，可以看到，我們的p是一個對稱矩陣，因此我們的權重也可以是一個對稱矩陣，對稱矩陣就可以進行如下的分解：

因此：

從而得到：

可以看到，我們的權重只需要D1 * N就可以了，時間複雜度也變為了D1*M*N。

2.2 OPNN

OPNN的示意圖如下：

OPNN中p的計算方式如下：

此時pij為M*M的矩陣，計算一個pij的時間複雜度為M*M，而p是N*N*M*M的矩陣，因此計算p的事件複雜度為N*N*M*M。從而計算lp的時間複雜度變為D1 * N*N*M*M。這個顯然代價很高的。為了減少負責度，論文使用了疊加的思想，它重新定義了p矩陣：

這裡計算p的時間複雜度變為了D1*M*(M+N)

3、代碼實戰

終於到了激動人心的代碼實戰環節了，一直想找一個實現比較好的代碼，找來找去tensorflow沒有什麼合適的，倒是pytorch有一個不錯的。沒辦法，只能自己來實現啦，因此本文的代碼嚴格根據論文得到，有不對的的地方或者改進之處還望大家多多指正。

本文的github地址為：
https://github.com/princewen/tensorflow_practice/tree/master/Basic-PNN-Demo.

本文的代碼根據之前DeepFM的代碼進行改進，我們只介紹模型的實現部分，其他數據處理的細節大家可以參考我的github上的代碼.

模型輸入

模型的輸入主要有下面幾個部分:

self.feat_index = tf.placeholder(tf.int32,
shape=[None,None],
name='feat_index')
self.feat_value = tf.placeholder(tf.float32,
shape=[None,None],
name='feat_value')

self.label = tf.placeholder(tf.float32,shape=[None,1],name='label')
self.dropout_keep_deep = tf.placeholder(tf.float32,shape=[None],name='dropout_deep_deep')

feat_index是特徵的一個序號，主要用於通過embedding_lookup選擇我們的embedding。feat_value是對應的特徵值，如果是離散特徵的話，就是1，如果不是離散特徵的話，就保留原來的特徵值。label是實際值。還定義了dropout來防止過擬合。

權重構建

權重由四部分構成，首先是embedding層的權重，然後是product層的權重，有線性信號權重，還有平方信號權重，根據IPNN和OPNN分別定義。最後是Deep Layer各層的權重以及輸出層的權重。

對線性信號權重來說，大小為D1 * N * M
對平方信號權重來說，IPNN 的大小為D1 * N，OPNN為D1 * M * M。

def _initialize_weights(self):
weights = dict()

#embeddings
weights['feature_embeddings'] = tf.Variable(
tf.random_normal([self.feature_size,self.embedding_size],0.0,0.01),
name='feature_embeddings')
weights['feature_bias'] = tf.Variable(tf.random_normal([self.feature_size,1],0.0,1.0),name='feature_bias')

#Product Layers
if self.use_inner:
weights['product-quadratic-inner'] = tf.Variable(tf.random_normal([self.deep_init_size,self.field_size],0.0,0.01))
else:
weights['product-quadratic-outer'] = tf.Variable(
tf.random_normal([self.deep_init_size, self.embedding_size,self.embedding_size], 0.0, 0.01))

weights['product-linear'] = tf.Variable(tf.random_normal([self.deep_init_size,self.field_size,self.embedding_size],0.0,0.01))
weights['product-bias'] = tf.Variable(tf.random_normal([self.deep_init_size,],0,0,1.0))
#deep layers
num_layer = len(self.deep_layers)
input_size = self.deep_init_size
glorot = np.sqrt(2.0/(input_size + self.deep_layers[0]))

weights['layer_0'] = tf.Variable(
np.random.normal(loc=0,scale=glorot,size=(input_size,self.deep_layers[0])),dtype=np.float32
)
weights['bias_0'] = tf.Variable(
np.random.normal(loc=0,scale=glorot,size=(1,self.deep_layers[0])),dtype=np.float32
)

for i in range(1,num_layer):
glorot = np.sqrt(2.0 / (self.deep_layers[i - 1] + self.deep_layers[i]))
weights["layer_%d" % i] = tf.Variable(
np.random.normal(loc=0, scale=glorot, size=(self.deep_layers[i - 1], self.deep_layers[i])),
dtype=np.float32) # layers[i-1] * layers[i]
weights["bias_%d" % i] = tf.Variable(
np.random.normal(loc=0, scale=glorot, size=(1, self.deep_layers[i])),
dtype=np.float32) # 1 * layer[i]

glorot = np.sqrt(2.0/(input_size + 1))
weights['output'] = tf.Variable(np.random.normal(loc=0,scale=glorot,size=(self.deep_layers[-1],1)),dtype=np.float32)
weights['output_bias'] = tf.Variable(tf.constant(0.01),dtype=np.float32)

return weights

Embedding Layer

這個部分很簡單啦，是根據feat_index選擇對應的weights['feature_embeddings']中的embedding值，然後再與對應的feat_value相乘就可以了：

# Embeddings
self.embeddings = tf.nn.embedding_lookup(self.weights['feature_embeddings'],self.feat_index) # N * F * K
feat_value = tf.reshape(self.feat_value,shape=[-1,self.field_size,1])
self.embeddings = tf.multiply(self.embeddings,feat_value) # N * F * K

Product Layer

根據之前的介紹，我們分別計算線性信號向量，二次信號向量，以及偏置項，三者相加同時經過relu激活得到深度網絡部分的輸入。

# Linear Singal
linear_output = []
for i in range(self.deep_init_size):
linear_output.append(tf.reshape(
tf.reduce_sum(tf.multiply(self.embeddings,self.weights['product-linear'][i]),axis=[1,2]),shape=(-1,1)))# N * 1

self.lz = tf.concat(linear_output,axis=1) # N * init_deep_size

# Quardatic Singal
quadratic_output = []
if self.use_inner:
for i in range(self.deep_init_size):
theta = tf.multiply(self.embeddings,tf.reshape(self.weights['product-quadratic-inner'][i],(1,-1,1))) # N * F * K
quadratic_output.append(tf.reshape(tf.norm(tf.reduce_sum(theta,axis=1),axis=1),shape=(-1,1))) # N * 1

else:
embedding_sum = tf.reduce_sum(self.embeddings,axis=1)
p = tf.matmul(tf.expand_dims(embedding_sum,2),tf.expand_dims(embedding_sum,1)) # N * K * K
for i in range(self.deep_init_size):
theta = tf.multiply(p,tf.expand_dims(self.weights['product-quadratic-outer'][i],0)) # N * K * K
quadratic_output.append(tf.reshape(tf.reduce_sum(theta,axis=[1,2]),shape=(-1,1))) # N * 1

self.lp = tf.concat(quadratic_output,axis=1) # N * init_deep_size

self.y_deep = tf.nn.relu(tf.add(tf.add(self.lz, self.lp), self.weights['product-bias']))
self.y_deep = tf.nn.dropout(self.y_deep, self.dropout_keep_deep[0])

Deep Part

論文中的Deep Part實際上只有一層，不過我們可以隨意設置，最後得到輸出：

# Deep component
for i in range(0,len(self.deep_layers)):
self.y_deep = tf.add(tf.matmul(self.y_deep,self.weights["layer_%d" %i]), self.weights["bias_%d"%i])
self.y_deep = self.deep_layers_activation(self.y_deep)
self.y_deep = tf.nn.dropout(self.y_deep,self.dropout_keep_deep[i+1])
self.out = tf.add(tf.matmul(self.y_deep,self.weights['output']),self.weights['output_bias'])

剩下的代碼就不介紹啦！

好啦，本文只是提供一個引子，有關PNN的知識大家可以更多的進行學習呦。

參考文獻
1 、https://zhuanlan.zhihu.com/p/33177517
2、https://cloud.tencent.com/developer/article/1104673?fromSource=waitui
3、https://arxiv.org/abs/1611.00144

Python愛好者社區歷史文章大合集：

Python愛好者社區歷史文章列表（每周append更新一次）

福利：文末掃碼立刻關注公眾號，「Python愛好者社區」，開始學習Python課程：

關注後在公眾號內回復「課程」即可獲取：

小編的Python入門免費視頻課程！！！

【最新免費微課】小編的Python快速上手matplotlib可視化庫！！！

崔老師爬蟲實戰案例免費學習視頻。

陳老師數據分析報告製作免費學習視頻。

玩轉大數據分析！Spark2.X+Python 精華實戰課程免費學習視頻。

推薦系統遇上深度學習(六)--PNN模型理論和實踐

相關焦點

推薦系統遇上深度學習(八)--AFM模型理論和實踐

推薦系統遇上深度學習(二)--FFM模型理論和實踐

推薦系統遇上深度學習(十二)--推薦系統中的EE問題及基本Bandit算法

推薦系統遇上深度學習(十七)--探秘阿里之MLR算法淺析及實現

推薦系統遇上深度學習(三十三)--Neural Attentive Item Similarity Model

推薦系統遇上深度學習(三)--DeepFM模型理論和實踐

Tensroflow練習,包括強化學習、推薦系統、nlp等

推薦系統遇上深度學習(一)--FM模型理論和實踐

推薦系統遇上深度學習(二十二)--DeepFM升級版XDeepFM模型強勢來襲!

推薦系統遇上深度學習(二十)--貝葉斯個性化排序(BPR)算法原理及實戰

【推薦實踐】深度學習在阿里B2B電商推薦系統中的實踐

【推薦】基於MATLAB編程、機器學習、深度學習在圖像處理中的實踐技術應用

PNN神經網絡(Matlab)

深度學習在推薦系統上的應用

深度學習模型及應用詳解!50本包郵贈送福利

新書推薦:TensorFlow深度學習及實踐

贈書|從阿里到Facebook,一線大廠這樣做深度學習推薦系統

【新書推薦】TensorFlow深度學習及實踐

推薦系統從零單排系列(五)—Word2Vec理論與實踐(下)

深度學習技術在美圖個性化推薦的應用實踐