乾貨分享!改善神經網絡方面的各種術語和方法

2021-01-11 讀芯術

全文共2734字,預計學習時長5分鐘

深層神經網絡可以解決諸如自然語言處理、機器視覺、語音合成等複雜任務。提高深層神經網絡的性能與理解其工作原理同樣重要。這篇文章將解釋改善神經網絡方面的各種術語和方法。

偏差與方差

偏差與方差是體現網絡在訓練集和測試集中性能的兩個基本術語。下列兩類問題可以輕鬆直觀地解釋偏差與方差。藍線表示由神經網絡計算的判定邊界。

1. 最左側的圖片展示出神經網絡存在較大偏差。此時網絡學習了一個簡單假設,所以不能正確地用於訓練數據。因此無法區分不同類的示例,並且對訓練集和測試集處理效果不佳。可以說這個網絡是不擬合的。

2. 最右側的圖片表明,神經網絡存在較大方差。此時網絡學習了一個非常複雜的假設,因此無法進行歸納。該方法對訓練數據的處理效果較好,而對測試數據的處理效果較差。可以說網絡是過度擬合的。

3. 中間的圖片展示了一個「恰到好處」的神經網絡。它學習了理想假設,這有助於網絡篩選出異常情況,並對數據進行歸納。應將實現這種類型的網絡定為目標。

圖片來源:pexels.com/@pixabay

訓練方法

既然了解了什麼是理想的神經網絡,那麼如何實現目標呢?首先應處理偏差問題,再處理方差問題。

第一個問題是「是否存在較大偏差?」如果答案是肯定的,那麼應嘗試以下步驟:

· 訓練更大的網絡,包括增加隱層數和隱層的神經元數。

· 對網絡進行長時間的訓練。訓練過程可能不完整,需要更多迭代。

· 嘗試不同的優化算法,包括Adam、Momentum、AdaDelta等。

· 迭代執行上述步驟,直到偏差問題得到解決,然後處理第二個問題。

如果答案是否定的,意味著偏差問題已經解決,接下來應關注方差問題。第二個問題是「是否存在較大方差?」如果答案是肯定的,應嘗試以下步驟:

· 收集更多訓練數據。訓練數據越多,數據越多變,從變化較小的數據中學習的假設就越不複雜。

· 嘗試正則化。將在下一節中詳述。

· 迭代執行上述步驟,直到方差問題得到解決。

如果答案是否定的,意味著方差問題已經解決,現在的神經網絡是「恰到好處的」。

正則化

正則化是一種有助於減少神經網絡過度擬合的邏輯技術。當在網絡中加入正則化時,意味著加入了一個新的正則化項,並且修改了損失函數。修改後的代價函數 J在數學上表示為:

帶有λ的第二項為正則化項。||W||項為弗羅賓尼斯範數(矩陣中元素的平方和)。隨著正則化的引入,λ成為一個新的超參數,可以對其進行修改以提高神經網絡的性能。上述正則化也稱為L-2正則化。

早期使用以下更新規則來更新權值:

由於在修改後的已包括正則化的代價函數J中存在新的正則化項,所以將用以下方式更新權值:

這裡顯示出,權值減少了一個小於1的小數。因此也稱這種正則化為權值衰減。衰減值取決於學習速率α和正則化項λ。

正則化為什麼有效?

訓練神經網絡的最終目標是使代價函數J最小化,從而使正則化項最小化。現在已經了解了正則化的概念,接下來解釋它為什麼有效。

第一,如果增加λ的值,弗羅賓尼斯範數就會變小,權值就會接近0。這種方法消除了大部分神經元,製造淺層網絡。可以看作是將學習複雜假設的深層網絡轉化為學習簡單假設的淺層網絡。眾所周知,簡單假設可以減少複雜的特徵,減少過度擬合,得到一個「恰到好處」的神經網絡。

也可以從應用正則化時神經元的激活方式來解釋。為此,需要了解tanh(x)的激活。

如果增加λ的值,那麼弗羅賓尼斯範數變小,即權值W 變小。因此,該層的輸出將變小,並且將位於激活函數的藍色區域中。可以看到,藍色區域的激活幾乎是線性的,網絡的行為將類似於淺層網絡,即網絡將不學習複雜的假設(將避免尖銳的曲線),並且最終將減少過度擬合,便可以獲得一個「恰到好處」的神經網絡。

因此,由於弗羅賓尼斯範數將變大,過小的λ值將導致過度擬合,神經元將不會被清除,並且層的輸出將不會在線性區域中。類似地,過大的λ值將導致擬合不足。因此,尋找λ的最優值是提高神經網絡性能的關鍵。

丟棄正則化

丟棄正則化是另一種正則化技術。這種技術會丟棄某些神經元以及它們在神經網絡中的連接。概率keep_prob決定了要丟棄的神經元。在去除神經元後,網絡對剩餘的神經元進行訓練。需要注意的是,在測試時間/推理時間內,所有神經元都有可能用於確定輸出。下例有助於理解這個概念:

# Define the probablity that a neuron stays.keep_prob = 0.5

# Create a probability mask for a layer eg. layer 2. The mask should

# have same dimensions as the weight matrix so that the connections

# can be removed.

d2 = np.random.rand(a2.shape[0],a2.shape[1]) < keep_prob

# Obtain the new output matrix.a2 = np.multiply(a2,d2)

# Since few neurons are removed, we need to boost the weights of

# remaining neurons to avoid weight imbalance during test time.a2 = a2/keep_prob

由於首先丟棄概率為keep_prob的神經元,然後使用keep_prob增強剩餘神經元,所以這種類型的丟棄被稱為倒置丟棄。

丟棄之間禁止神經元只依賴某些特徵,因此,權值得以傳播。神經元可能變得依賴於某些輸入特徵來確定輸出。在丟棄正則化的影響下,對於訓練過程中的不同訓練樣本,一個特定神經元每次只得到少數特徵作為輸入。最終,權值分布在所有輸入之間,網絡使用所有輸入特徵來確定輸出,而不依賴於任何單個特徵,從而使網絡更加結實。這也叫L2正則化的自適應形式。

也可以為每一層單獨設置 keep_prob。因為丟棄的神經元數量與 keep_prob成反比;建立 keep_prob的一般標準是,密集連接應包含相對較少的 keep_prob,以便丟棄更多的神經元,反之亦然。

在丟棄正則化時,深層網絡模仿淺層網絡在訓練階段的工作。這反過來又減少了過度擬合,可得到「恰到好處」的神經網絡。

早停止

早停止是一種訓練方法。在早期停止訓練神經網絡以防止其過度擬合併跟蹤train_loss和dev_loss以確定何時停止訓練。

只要dev_loss開始迭代過度;便停止訓練。這種方法被稱為早停止。但是,由於以下兩個原因,不推薦在訓練網絡時使用:

1. 停止訓練時,損失不是最小的。

2. 正在減少訓練不當的網絡的過度擬合。

早停止會增加複雜度,無法獲得「恰到好處」的神經網絡。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 【乾貨】圖神經網絡的十大學習資源分享
    :【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行
  • 乾貨分享-一起大白話講講攝影常見的術語
    上一篇乾貨分享-攝影的術語白話解答(一)我們一起討論了全畫幅,定變焦以及曝光三要素。咋們今天聊一聊下面常見的攝影術語以及其現實中起到什麼作用。因為在光比比較大的環境(明暗反差過大的環境),相機會進行均衡周圍環境亮度,從中損失亮部和暗部的細節。我們用包圍曝光拍攝則拍下不同亮度的信息,後期可以HDR合成將明暗細節都體現出來。曝光補償,很簡單的理解為亮度調節。你發現在快門優先或光圈優先模式下,相機拍出來不符合現實環境的亮度,你可以自己調動曝光補償按鈕(+/-按鈕)來改變亮度,需要注意的是操作原則白加黑減,M模式不能使用。
  • 港科大博士生侯璐:基於損失函數的神經網絡量化方法|分享總結
    為了解決這個問題, 最近有許多針對於神經網絡壓縮和加速的工作被提出, 例如神經網絡剪枝, 權重矩陣低秩分解,權重量化等。這次分享主要是針對於權重量化這一類方法。近期,在雷鋒網 GAIR 大講堂上,來自香港科技大學的博士生侯璐同學分享了深度學習網絡的權重量化的一些最新進展。以及幾篇ICLR的論文解讀。
  • 如何重建深層神經網絡的可塑性?
    ,深度學習是神經網絡的一個大的分支,深度學習的基本結構是深度神經網絡,它是一種人工神經網絡,人工神經網絡是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型。這不足為奇,突觸可塑性被認為是長期學習和記憶等領域的基礎。在人工智慧太空領域,研究人員長期以來嘗試建立模擬突觸可塑性的機制,以改善神經網絡的學習。最近,Uber人工智慧實驗室團隊發表了一篇研究論文,提出了一種「可微可塑性」的元學習方法,該方法模仿了突觸可塑性動力學,以創建經過初步訓練就可以從經驗中學習的神經網絡。
  • 什麼是人工神經網絡(ANN)?
    每天使用神經網絡的應用程式有很多,例如Google的翻譯服務,Apple的Face ID iPhone鎖和Amazon的Alexa AI驅動的助手。神經網絡也在其他領域的一些重要人工智慧突破背後,例如診斷皮膚和乳腺癌,讓目光投向自動駕駛汽車。人工神經網絡背後的概念和科學已經存在了數十年。
  • 神經網絡:高深莫測又妙趣橫生的完整歷史
    在同步激活多個神經元以代表每一位信息方面有著廣泛的研究。基於香農(Shannon)信息熵原理的資訊理論成為該領域的一個重要研究領域。 最重要的發明是羅森布拉特(Rosenblatt)在1958年發明的感知器模型。羅森布拉特提出的反向傳播方法對多層網絡的訓練非常有用。由於廣泛的研究和不斷的發展,這個時代毫無疑問就是神經網絡的黃金時代。
  • 一文看懂各種神經網絡優化算法:從梯度下降到Adam方法
    原標題:一文看懂各種神經網絡優化算法:從梯度下降到Adam方法 王小新 編譯自 Medium 量子位 出品 | 公眾號 QbitAI 在調整模型更新權重和偏差參數的方式時,你是否考慮過哪種優化算法能使模型產生更好且更快的效果?
  • BP神經網絡
    我國上市公司在飛速發展的同時,也不斷地受到各種外界風險的衝擊,如何能夠對上市公司的財務風險進行有效預警,是許多決策者和研究者面臨的難題。本文介紹智能財務風險預警方法——BP神經網絡。「大數據與人工智慧環境下的智能財務風險預警方法」系列推文二:BP神經網絡 近年來,AlphaGo擊敗了人類職業圍棋選手,激起了全球範圍內對人工智慧的關注。
  • 乾貨來襲,谷歌最新機器學習術語表(上)
    以下術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。本文為 A-L (術語首字母)部分,M-W 部分參見乾貨來襲,谷歌最新機器學習術語表(下)。凸優化 (convex optimization)使用數學方法(例如梯度下降法)尋找凸函數最小值的過程。機器學習方面的大量研究都是專注於如何通過公式將各種問題表示成凸優化問題,以及如何更高效地解決這些問題。
  • 表徵圖數據絕不止圖神經網絡一種方法
    近年來,圖神經網絡掀起了將深度學習方法應用於圖數據分析的浪潮。不過其作為一門古老的認識世界的方法論,人們對於圖表徵技術的研究從很早以前就開始了。雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。本文是一篇出自倫敦大學學院的圖表徵學習綜述,詳細介紹了圖核、卷積、圖神經網絡、圖嵌入、概率模型共五類圖表徵學習方法的起源與發展,並對圖數據表徵學習方法的最新進展和未來發展方向進行總結和討論。
  • 神經網絡和深度學習簡史(全)
    跳出了討厭的概率數學,這一變化使得網絡能以一種更快的學習算法得到訓練。灑水器和雨水那一層上面可以視為有一個信念網絡——這一術語非常嚴謹,因為這種基於概率的模型,除了和機器學習領域有著聯繫,和數學中的概率領域也有著密切的關聯。儘管這種方法比玻爾茲曼機進步,但還是太慢了,正確計算變量間的概率關係的數學需求計算量太大了,而且還沒啥簡化技巧。
  • 神經網絡原來這麼簡單,機器學習入門貼送給你 | 乾貨
    神經網絡概論作者說,神經網絡並不複雜!「神經網絡」一詞很流行,人們通常認為它很難,但其實要簡單得多。是不是這樣呢?先看再說。神經網絡的理解主要分為三個部分,神經元、神經網絡的構建、訓練神經網絡。神經元——神經網絡的基本單元
  • 深度科普:神經網絡的類型及其作用
    通過使用各種神經網絡處理數據……就可以構建功能強大的工具來完成一些神奇的事情!這其中,有很多神經網絡具有神奇的特性,下面小芯將介紹幾種最著名的:1. 感知器——最古老最簡單的神經網絡感知器是最古老的神經網絡,其發明最早可追溯到1958年。它同時也是最簡單的神經網絡。
  • 人工智慧神經網絡你知道是什麼嗎
    這個無需解釋太多,因為通過各種科幻電影我們已經對人工智慧很熟悉了。大家現在感興趣的應該是——如何實現人工智慧? 從1956年夏季首次提出「人工智慧」這一術語開始,科學家們嘗試了各種方法來實現它。這些方法包括專家系統,決策樹、歸納邏輯、聚類等等,但這些都是假智能。直到人工神經網絡技術的出現,才讓機器擁有了「真智能」。 為什麼說之前的方法都是假智能呢?
  • 從特徵檢測器到視覺轉換器:卷積神經網絡的時代到此結束了嗎?
    圖源:unsplash近十年來,卷積神經網絡一直在全球計算機視覺研究領域發揮著主導作用。但研究者們正在提出一種新方法,想要利用轉換器的功能賦予圖像更深層的意義。卷積神經網絡(CNN)存在的問題在深入研究視覺轉換器的運行方式之前,釐清卷積神經網絡的缺點和根本缺陷很有必要。首先,卷積神經網絡無法編碼相對空間信息。也就是說,它僅關注於檢測某些特徵,而忽略了相對空間位置。上面兩幅圖像都會被識別為人臉,因為卷積神經網絡只關注輸入圖像中是否存在某些特徵,而忽略了它們相對於彼此的位置。
  • 神經網絡中避免過擬合5種方法介紹
    在本文中,我將展示5種在訓練神經網絡時避免過擬合的技術。 一、簡化模型 處理過擬合的第一步就是降低模型複雜度。為了降低複雜度,我們可以簡單地移除層或者減少神經元的數量使得網絡規模變小。與此同時,計算神經網絡中不同層的輸入和輸出維度也十分重要。
  • 一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程
    編者按:幾個月前,Deepmind在ICML上發表了一篇論文《Neural Processes》,提出了一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程,被稱為是高斯過程的深度學習版本。雖然倍受關注,但目前真正能直觀解讀神經過程的文章並不多,今天論智帶來的是牛津大學在讀PHD Kaspar Märtens的一篇可視化佳作。
  • 人工智慧神經網絡和生物大腦有什麼區別 神經網絡將如何發展
    自從該領域的歷史開始以來,符號人工智慧和人工神經網絡就構成了開發AI系統的兩種主要方法。Zador寫道:「符號AI可以看作是心理學家的方法,它從人類的認知過程中汲取了靈感,而沒有試圖破解黑匣子,而使用類神經元元素的ANN則從神經科學中汲取靈感。」在AI歷史的前幾十年中,由程式設計師明確定義系統規則的符號系統佔據了主導地位,而如今,神經網絡已成為人工智慧大多數發展的主要亮點。
  • 加州伯克利博士:基於隱模型的圖神經網絡設計|NeurIPS 2020論文分享
    近年來,人們對深度學習方法在圖上的擴展越來越感興趣。在多方因素的成功推動下,研究人員借鑑了卷積網絡、循環網絡和深度自動編碼器的思想,定義和設計了用於處理圖數據的神經網絡結構,由此出現了一個新的研究熱點——「圖神經網絡(Graph Neural Networks,GNN)」。