學完NumPy,直接開始玩神經網絡

2021-01-14 機器學習算法那些事

使用成熟的Tensorflow、PyTorch框架去實現遞歸神經網絡(RNN),已經極大降低了技術的使用門檻。

    

但是,對於初學者,這還是遠遠不夠的。知其然,更需知其所以然。要避免低級錯誤,打好理論基礎,然後使用RNN去解決更多實際的問題的話。


那麼,有一個有趣的問題可以思考一下:

不使用Tensorflow等框架,只有Numpy的話,你該如何構建RNN?

沒有頭緒也不用擔心。這裡便有一項教程:使用Numpy從頭構建用於NLP領域的RNN。

可以帶你行進一遍RNN的構建流程。

   初始化參數

與傳統的神經網絡不同,RNN具有3個權重參數,即:

輸入權重(input weights),內部狀態權重(internal state weights)和輸出權重(output weights)

首先用隨機數值初始化上述三個參數。

之後,將詞嵌入維度(word_embedding dimension)和輸出維度(output dimension)分別初始化為100和80。

輸出維度是詞彙表中存在的唯一詞向量的總數。


hidden_dim = 100       
output_dim = 80 # this is the total unique words in the vocabulary
input_weights = np.random.uniform(0, 1, (hidden_dim,hidden_dim))
internal_state_weights = np.random.uniform(0,1, (hidden_dim, hidden_dim))
output_weights = np.random.uniform(0,1, (output_dim,hidden_dim))


變量prev_memory指的是internal_state(這些是先前序列的內存)。

其他參數也給予了初始化數值。

input_weight梯度,internal_state_weight梯度和output_weight梯度分別命名為dU,dW和dV。

變量bptt_truncate表示網絡在反向傳播時必須回溯的時間戳數,這樣做是為了克服梯度消失的問題。


prev_memory =  np.zeros((hidden_dim,1))
learning_rate = 0.0001    
nepoch = 25               
T = 4   # length of sequence
bptt_truncate = 2 
dU = np.zeros(input_weights.shape)
dV = np.zeros(output_weights.shape)
dW = np.zeros(internal_state_weights.shape)



   前向傳播輸出和輸入向量

例如有一句話為:I like to play.,則假設在詞彙表中:

I被映射到索引2,like對應索引45,to對應索引10、**對應索引64而標點符號.** 對應索引1。

為了展示從輸入到輸出的情況,我們先隨機初始化每個單詞的詞嵌入。


input_string = [2,45,10,65]
embeddings = [] # this is the sentence embedding list that contains the embeddings for each word
for i in range(0,T):
    x = np.random.randn(hidden_dim,1)
    embeddings.append(x)


輸入已經完成,接下來需要考慮輸出。

在本項目中,RNN單元接受輸入後,輸出的是下一個最可能出現的單詞。

用於訓練RNN,在給定第t+1個詞作為輸出的時候將第t個詞作為輸入,例如:在RNN單元輸出字為「like」的時候給定的輸入字為「I」.

現在輸入是嵌入向量的形式,而計算損失函數(Loss)所需的輸出格式是獨熱編碼(One-Hot)矢量。

這是對輸入字符串中除第一個單詞以外的每個單詞進行的操作,因為該神經網絡學習只學習的是一個示例句子,而初始輸入是該句子的第一個單詞。

RNN的黑箱計算

現在有了權重參數,也知道輸入和輸出,於是可以開始前向傳播的計算。

訓練神經網絡需要以下計算:

其中:

U代表輸入權重、W代表內部狀態權重,V代表輸出權重。

輸入權重乘以input(x),內部狀態權重乘以前一層的激活(prev_memory)。

層與層之間使用的激活函數用的是tanh。


def tanh_activation(Z):
     return (np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z)) # this is the tanh function can also be written as np.tanh(Z)
def softmax_activation(Z):
        e_x = np.exp(Z - np.max(Z))  # this is the code for softmax function 
        return e_x / e_x.sum(axis=0) 

def Rnn_forward(input_embedding, input_weights, internal_state_weights, prev_memory,output_weights):
    forward_params = []
    W_frd = np.dot(internal_state_weights,prev_memory)
    U_frd = np.dot(input_weights,input_embedding)
    sum_s = W_frd + U_frd
    ht_activated = tanh_activation(sum_s)
    yt_unactivated = np.asarray(np.dot(output_weights,  tanh_activation(sum_s)))
    yt_activated = softmax_activation(yt_unactivated)
    forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])
    return ht_activated,yt_activated,forward_params


計算損失函數

之後損失函數使用的是交叉熵損失函數,由下式給出:



def calculate_loss(output_mapper,predicted_output):
    total_loss = 0
    layer_loss = []
    for y,y_ in zip(output_mapper.values(),predicted_output): # this for loop calculation is for the first equation, where loss for each time-stamp is calculated
        loss = -sum(y[i]*np.log2(y_[i]) for i in range(len(y)))
        loss = loss/ float(len(y))
        layer_loss.append(loss) 
    for i in range(len(layer_loss)): #this the total loss calculated for all the time-stamps considered together. 
        total_loss  = total_loss + layer_loss[i]
    return total_loss/float(len(predicted_output))


最重要的是,我們需要在上面的代碼中看到第5行。

正如所知,ground_truth output(y)的形式是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形式,我們需要損失是單個值來從它推斷總損失。

為此,使用sum函數來獲得特定時間戳下y和y^hat向量中每個值的誤差之和。

total_loss是整個模型(包括所有時間戳)的損失。

   反向傳播

反向傳播的鏈式法則:

如上圖所示:

Cost代表誤差,它表示的是y^hat到y的差值。

由於Cost是的函數輸出,因此激活a所反映的變化由dCost/da表示。

實際上,這意味著從激活節點的角度來看這個變化(誤差)值。

類似地,a相對於z的變化表示為da/dz,z相對於w的變化表示為dw/dz。

最終,我們關心的是權重的變化(誤差)有多大。

而由於權重與Cost之間沒有直接關係,因此期間各個相對的變化值可以直接相乘(如上式所示)。

RNN的反向傳播

由於RNN中存在三個權重,因此我們需要三個梯度。input_weights(dLoss / dU),internal_state_weights(dLoss / dW)和output_weights(dLoss / dV)的梯度。

這三個梯度的鏈可以表示如下:

所述dLoss/dy_unactivated代碼如下:


def delta_cross_entropy(predicted_output,original_t_output):
    li = []
    grad = predicted_output
    for i,l in enumerate(original_t_output): #check if the value in the index is 1 or not, if yes then take the same index value from the predicted_ouput list and subtract 1 from it. 
        if l == 1:
    #grad = np.asarray(np.concatenate( grad, axis=0 ))
            grad[i] -= 1
    return grad


計算兩個梯度函數,一個是multiplication_backward,另一個是additional_backward。

在multiplication_backward的情況下,返回2個參數,一個是相對於權重的梯度(dLoss / dV),另一個是鏈梯度(chain gradient),該鏈梯度將成為計算另一個權重梯度的鏈的一部分。

在addition_backward的情況下,在計算導數時,加法函數(ht_unactivated)中各個組件的導數為1。例如:dh_unactivated / dU_frd=1(h_unactivated = U_frd + W_frd),且dU_frd / dU_frd的導數為1。

所以,計算梯度只需要這兩個函數。multiplication_backward函數用於包含向量點積的方程,addition_backward用於包含兩個向量相加的方程。



def multiplication_backward(weights,x,dz):
    gradient_weight = np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))
    chain_gradient = np.dot(np.transpose(weights),dz)
    return gradient_weight,chain_gradient

def add_backward(x1,x2,dz):    # this function is for calculating the derivative of ht_unactivated function
    dx1 = dz * np.ones_like(x1)
    dx2 = dz * np.ones_like(x2)
    return dx1,dx2

def tanh_activation_backward(x,top_diff):
    output = np.tanh(x)
    return (1.0 - np.square(output)) * top_diff


至此,已經分析並理解了RNN的反向傳播,目前它是在單個時間戳上實現它的功能,之後可以將其用於計算所有時間戳上的梯度。

如下面的代碼所示,forward_params_t是一個列表,其中包含特定時間步長的網絡的前向參數。

變量ds是至關重要的部分,因為此行代碼考慮了先前時間戳的隱藏狀態,這將有助於提取在反向傳播時所需的信息。


def single_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):# inlide all the param values for all the data thats there
    W_frd = forward_params_t[0][0] 
    U_frd = forward_params_t[0][1]
    ht_unactivated = forward_params_t[0][2]
    yt_unactivated = forward_params_t[0][3]
    dV,dsv = multiplication_backward(output_weights,ht_activated,dLo)
    ds = np.add(dsv,diff_s) # used for truncation of memory 
    dadd = tanh_activation_backward(ht_unactivated, ds)
    dmulw,dmulu = add_backward(U_frd,W_frd,dadd)
    dW, dprev_s = multiplication_backward(internal_state_weights, prev_s ,dmulw)
    dU, dx = multiplication_backward(input_weights, X, dmulu) #input weights
    return (dprev_s, dU, dW, dV)


對於RNN,由於存在梯度消失的問題,所以採用的是截斷的反向傳播,而不是使用原始的。

在此技術中,當前單元將只查看k個時間戳,而不是只看一次時間戳,其中k表示要回溯的先前單元的數量。


def rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):
    T = 4
    # we start the backprop from the first timestamp. 
    for t in range(4):
        prev_s_t = np.zeros((hidden_dim,1)) #required as the first timestamp does not have a previous memory, 
        diff_s = np.zeros((hidden_dim,1)) # this is used for the truncating purpose of restoring a previous information from the before level
        predictions = memory["yt" + str(t)]
        ht_activated = memory["ht" + str(t)]
        forward_params_t = memory["params"+ str(t)] 
        dLo = delta_cross_entropy(predictions,output_t[t]) #the loss derivative for that particular timestamp
        dprev_s, dU_t, dW_t, dV_t = single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)
        prev_s_t = ht_activated
        prev = t-1
        dLo = np.zeros((output_dim,1)) #here the loss deriative is turned to 0 as we do not require it for the turncated information.
        # the following code is for the trunated bptt and its for each time-stamp. 
        for i in range(t-1,max(-1,t-bptt_truncate),-1):
            forward_params_t = memory["params" + str(i)]
            ht_activated = memory["ht" + str(i)]
            prev_s_i = np.zeros((hidden_dim,1)) if i == 0 else memory["ht" + str(prev)]
            dprev_s, dU_i, dW_i, dV_i = single_backprop(embeddings[t] ,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)
            dU_t += dU_i #adding the previous gradients on lookback to the current time sequence 
            dW_t += dW_i
        dV += dV_t 
        dU += dU_t
        dW += dW_t
    return (dU, dW, dV)



   權重更新

一旦使用反向傳播計算了梯度,則更新權重勢在必行,而這些是通過批量梯度下降法


def gd_step(learning_rate, dU,dW,dV, input_weights, internal_state_weights,output_weights ):
    input_weights -= learning_rate* dU
    internal_state_weights -= learning_rate * dW
    output_weights -=learning_rate * dV
    return input_weights,internal_state_weights,output_weights



   訓練序列

完成了上述所有步驟,就可以開始訓練神經網絡了。

用於訓練的學習率是靜態的,還可以使用逐步衰減等更改學習率的動態方法。


def train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001, nepoch=100, evaluate_loss_after=2):
    losses = []
    for epoch in range(nepoch):
        if(epoch % evaluate_loss_after == 0):
                output_string,memory = full_forward_prop(T, embeddings ,input_weights,internal_state_weights,prev_memory,output_weights)
                loss = calculate_loss(output_mapper, output_string)
                losses.append(loss)
                time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
                print("%s: Loss after  epoch=%d: %f" % (time,epoch, loss))
                sys.stdout.flush()
        dU,dW,dV = rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)
        input_weights,internal_state_weights,output_weights= sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)
    return losses

losses = train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001, nepoch=10, evaluate_loss_after=2)


恭喜你!你現在已經實現從頭建立遞歸神經網絡了!

那麼,是時候了,繼續向LSTM和GRU等的高級架構前進吧。

https://medium.com/@rndholakia/implementing-recurrent-neural-network-using-numpy-c359a0a68a67

相關焦點

  • TensorFlow什麼的都弱爆了,強者只用Numpy搭建神經網絡
    大數據文摘出品作者:蔣寶尚很多同學入門機器學習之後,直接用TensorFlow調包實現神經網絡,對於神經網絡內在機理知之甚少。程式語言與技術框架變化更新非常之快,理解背後的原理才是王道。下面文摘菌和大家一起用Numpy實現一步一步實現神經網絡。
  • 教AI做件簡單的事:從零開始構建首個神經網絡
    全文共2278字,預計學習時長6分鐘圖源:Google很長時間以來,我一直對構建神經網絡躍躍欲試,現在終於有機會來研究它了。我想我並沒有完全掌握神經網絡背後的數學原理,所以先教人工智慧做一些簡單的事情吧。
  • 如何用Paddle Fluid API搭建簡單的神經網絡?這裡有一份編程指南
    本文將展示如何用 Paddle Fluid API 編程並搭建一個簡單的神經網絡。在 Paddle Fluid 中可以通過 fluid.layers.create_parameter 來創建可學習參數:w = fluid.layers.create_parameter(name="w",shape=[1],dtype='float32')一般情況下,您不需要自己來創建網絡中的可學習參數,Paddle Fluid 為大部分常見的神經網絡基本計算模塊都提供了封裝
  • 神經網絡理論基礎及Python實現
    一、多層前向神經網絡 多層前向神經網絡由三部分組成:輸出層、隱藏層、輸出層,每層由單元組成; 輸入層由訓練集的實例特徵向量傳入,經過連接結點的權重傳入下一層,前一層的輸出是下一層的輸入;隱藏層的個數是任意的,輸入層只有一層,輸出層也只有一層; 除去輸入層之外,隱藏層和輸出層的層數和為n,則該神經網絡稱為n層神經網絡
  • 乾貨分享|使用JAX創建神經網絡的對抗性示例(附詳細代碼)
    在本教程中,我們將看到如何創建使用JAX訓練神經網絡的對抗示例。首先,讓我們看一些定義。有哪些例子?簡而言之,對抗性示例是神經網絡的輸入,這些輸入經過優化以欺騙算法,即導致目標變量分類錯誤。通過向目標變量添加「適當的」噪聲,我們可以對目標變量進行錯誤分類。下圖演示了該概念。本教程的重點是演示如何創建對抗示例。我們將使用快速梯度符號法生成。
  • 代碼詳解:使用NumPy,教你9步從頭搭建神經網絡
    本文介紹了使用NumPy從頭搭建神經網絡的9個步驟,即從數據預處理到反向傳播這一「必經之路」。對機器學習、人工神經網絡、Python語法和編程邏輯有些基本理解最好,(但這也不是必需條件,你可以邊讀邊學)。1. 初始化導入NumPy。
  • 神經網絡原來這麼簡單,機器學習入門貼送給你 | 乾貨
    神經網絡概論作者說,神經網絡並不複雜!「神經網絡」一詞很流行,人們通常認為它很難,但其實要簡單得多。是不是這樣呢?先看再說。神經網絡的理解主要分為三個部分,神經元、神經網絡的構建、訓練神經網絡。神經元——神經網絡的基本單元
  • 初學AI神經網絡應該選擇Keras或是Pytorch框架?
    TensorFlow框架儘管意義非凡,引起極大關注和神經網絡學習風潮,但對一般開發者用戶太不友好。軟體開發者畢竟不是科學家,很多時候簡單易學易用是程式設計師選擇的第一要素。目前,兩個主要的深度學習庫Keras和Pytorch獲得了大量關注,主要是因為它們的使用比較簡單。
  • 用純NumPy碼一個RNN、LSTM:這是最好的入門方式了
    機器之心報導參與:思源隨著 TensorFlow 和 PyTorch 等框架的流行,很多時候搭建神經網絡也就調用幾行 API 的事。大多數開發者對底層運行機制,尤其是如何使用純 NumPy 實現神經網絡變得比較陌生。
  • 深度學習筆記8:利用Tensorflow搭建神經網絡
    作者:魯偉 一個數據科學踐行者的學習日記。
  • 從零開始:教你如何訓練神經網絡
    Bushaev 作者從神經網絡簡單的數學定義開始,沿著損失函數、激活函數和反向傳播等方法進一步描述基本的優化算法。損失函數 在開始討論神經網絡的訓練之前,最後一個需要定義的就是損失函數了。損失函數是一個可以告訴我們,神經網絡在某個特定的任務上表現有多好的函數。
  • 使用神經網絡為圖像生成標題
    我們都知道,神經網絡可以在執行某些任務時複製人腦的功能。神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。
  • 如何從NumPy直接創建RNN?_湃客_澎湃新聞-The Paper
    初始化參數與傳統的神經網絡不同,RNN具有3個權重參數,即:輸入權重(input weights),內部狀態權重(internal state weights)和輸出權重(output weights)首先用隨機數值初始化上述三個參數。
  • 神經網絡中的各種損失函數介紹
    損失函數的簡要介紹損失函數有助於優化神經網絡的參數。我們的目標是通過優化神經網絡的參數(權重)來最大程度地減少神經網絡的損失。通過神經網絡將目標(實際)值與預測值進行匹配,再經過損失函數就可以計算出損失。然後,我們使用梯度下降法來優化網絡權重,以使損失最小化。這就是我們訓練神經網絡的方式。
  • 神經網絡原來這麼簡單,機器學習入門貼送給你|乾貨
    什麼神經網絡、隨機森林、計算機視覺通通一網打盡。這個Facebook軟體工程師做了一個入門貼。專為基礎為零的初學者打造。有基礎的同學,也可以來看看加深一下理解。我們就以神經網絡為例先來一睹為快吧!神經網絡概論作者說,神經網絡並不複雜!
  • 使用Python和Numpy構建神經網絡模型——波士頓房價預測案例
    希望通過本文,可以讓更多朋友了解和起步神經網絡的搭建。01案例分析很多人看到問題就敲代碼,但是我認為更重要的首先是分析問題。首先,我們先來看房價受哪些因素。(如果日後有需要完善,我再更新)在上課時,老師曾今講過,神經網絡模型的搭建有些類似當年八股文,有著高度類似的格式。圖片來自AIStudio不過呢,也正是因為深度學習的建模和訓練的過程存在通用性,在構建不同的模型時,只有模型三要素不同,其它步驟基本一致,深度學習框架才有用武之地。
  • 深度學習中的NumPy基礎
    import numpy as npa = np.array([1,2,3])a.shapea.dim此外,您可以直接從標準的 Python 列表創建。Numpy 數組是智能的。如果將 Python 列表傳遞給 array()函數,它將自動執行操作並返回 Numpy 數組。
  • 盤點:GPU加速的神經網絡與JavaScript的交叉
    雖然它的特性集面向神經網絡,但deeplearn.js可以被描述為通用機器學習框架。Propel是一個提供自動微分的科學計算的庫。Gpu.js提供了一種方便的方式來運行GPU上的JavaScript函數。Brain.js是舊的神經網絡庫的延續,並使用Gpu.js硬體加速。
  • 哪一個才更適合編程實現深度神經網絡?
    編程實現神經網絡的最佳框架是什麼?TensorFlow還是PyTorch?我的回答是:別擔心,你從哪一個入門,你選擇哪一個並不重要,重要的是自己動手實踐!下面我們開始吧!這兩種框架都提供了編程神經網絡常用的機器學習步驟:導入所需的庫加載並預處理數據定義模型定義優化器和損失函數訓練模型評估模型這些步驟可以在任何一個框架中找到非常類似的實現(即使是像MindSpore這樣的框架)。為此,在本文中,我們將構建一個神經網絡模型,分別在PyTorch API與TensorFlow Keras API下進行手寫數字分類任務的實現。
  • AI從入門到放棄:BP神經網絡算法推導及代碼實現筆記
    仿生嘛,於是喜歡放飛自我的 某些人 就提出了人工神經網絡。一切的基礎-->人工神經單元,看圖:▌三. 通往沙漠的入口: 神經元是什麼,有什麼用:開始前,需要搞清楚一個很重要的問題:人工神經網絡裡的神經元是什麼,有什麼用。只有弄清楚這個問題,你才知道你在哪裡,在做什麼,要往哪裡去。