神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT

2020-12-05 機器之心Pro

選自arXiv

作者:張紹群、周志華

機器之心編譯

在此論文中,來自南京大學的張紹群博士和周志華教授提出一個新型神經元模型 Flexible Transmitter (FT),該模型具備靈活的可塑性並支持複雜數據的處理。據論文介紹,這項研究為神經網絡提供了一種新的基本構造單元,展示了開發具有神經元可塑性的人工神經網絡的可行性。

當前的神經網絡大多基於 MP 模型,即按照生物神經元的結構和工作原理構造出來的抽象和簡化模型。此類模型通常將神經元形式化為一個「激活函數複合上輸入信號加權和」的形式。

近日,來自南京大學張紹群博士和周志華教授提出了一個名為 Flexible Transmitter (FT) 的模型,這是一種具備靈活可塑性的新型生物擬真神經元。

FT 模型利用一對參數來建模神經元之間的傳輸遞質(transmitter),並設置一個神經遞質調節的記憶單元來記錄所關注神經元的長期學習信息。因此,該研究將 FT 模型形式化為一個二元二值函數,常用的 MP 神經元模型是其特殊形式。FT 模型可以處理更加複雜的數據,甚至時序信號。

為了展示 FT 模型的能力和潛力,研究者提出了 Flexible Transmitter Network (FTNet)。FTNet 基於最常見的全連接前饋架構而構建,並使用 FT 神經元作為其基本構造塊。FTNet 允許梯度計算,並且可以通過在複數域中的反向傳播算法來實現。在一系列任務上的實驗結果展示了 FTNet 的優越性能。這項研究為神經網絡提供了另一種基本構造塊,展示了開發具有神經元可塑性的人工神經網絡的可行性。

論文連結:https://arxiv.org/pdf/2004.03839v2.pdf

常見的 MP 模型

神經網絡的基礎計算單元是神經元,對應於生物神經系統的細胞。儘管神經網絡研究已經持續 50 餘年,多種神經網絡算法和架構層出不窮,然而人們對神經元建模方面的研究仍然不夠。

最著名也最常用的神經元表示是 MP 模型 [12],如下圖 1 所示:

圖 1:MP 模型

MP 模型接收到來自 n 個其他神經元傳遞過來的輸入信號 x_i,這些輸入信號通過帶權重的連接 w_i 進行傳遞,神經元接收到的總輸入值將與神經元的閥值進行比較,然後通過激活函數 f 處理以產生神經元的輸出,即

。從圖 1 中可以看到,x_i 表示來自其他神經元的信號,w_i 表示對應的連接權重,θ 表示神經元的閾值,f 表示通常連續可微的激活函數,如常用於淺層網絡的 sigmoid 函數和常用於深層網絡的 ReLU 函數。

儘管刻畫方式非常簡單,但 MP 模型很成功。然而實際中神經元細胞結構要複雜得多,因此探索具備其他生物擬真形式的神經元模型成為計算神經相關領域的一個基本問題。人們在建模細胞的放電行為方面做出了很多努力,提出了尖峰神經元模型(spiking neuron model)和以尖峰神經元作為基本計算單位的脈衝神經網絡 [9, 18]。

是否存在另一種形式的神經元模型?

南京大學的研究者考慮了另一個有趣的角度,並提出一種新型神經元模型。

神經科學研究 [2, 7] 揭示了,突觸可以確保兩個神經元之間的單向通信機制,即信息流的流向是從突觸前細胞到突觸後細胞。突觸通常在突觸前細胞的軸突和突觸後細胞的樹突之間形成。在常見的突觸結構中,樹突和軸突之間存在大約 20 微米的間隙(在神經科學中叫作「突觸間隙」),如圖 2 所示。

圖 2:生物神經元(左)及其突觸結構(右)。

這意味著儘管密切相關,但突觸前細胞的軸突傳遞強度(axonal transmission strength)和突觸後細胞的樹突濃度(dendritic concentration)是不同的。因此,自然有必要在神經元模型中區分突觸前和突觸後的部分。

與簡單地將整個突觸結構視為可學習的實值參數 w 的 MP 模型和使用具有自衰減累積(leaky integration)結構的 ODE 方程建模突觸的尖峰神經元相反,該研究使用一對相關參數 (w, v) 來分別表示軸突傳遞強度和樹突濃度,這就是靈活傳輸遞質(flexible transmitter)。

此外,很多實驗研究 [8, 6] 指出,神經元擁有對過去學習行為的記憶,並且生物電壓根據近期的活動模式得到持續的加強或抑制,即長期増強(LTP)或抑制(LTD)。這項研究專門設置了一個記憶變量,即神經遞質自調節記憶元,用來記錄神經元對長期學習行為的記憶信息。

Flexible Transmitter 模型

神經科學方面的這一有趣發現表明,神經元 A 接收到來自神經元 B 的刺激信號後的響應不僅取決於神經元 B 的軸突傳遞強度,還依賴於神經元 A 的樹突濃度,而這與神經元 A 的記憶單元有關,如圖 2 所示。

受此啟發,該研究提出了 Flexible Transmitter 模型,如下圖 3 所示:

圖 3:FT 模型圖示。其中 (w, v) 是傳輸遞質參數對,m_t 表示神經元 A 的記憶單元在時間 t 處的強度。

與 MP 模型相反,FT 模型中的交互包括兩個部分:wx_t,x_t 表示當下通過對應的軸突傳遞強度 w 發送至相關神經元的刺激信號;vm_t1,m_t1 表示在第 (t 1) 時刻與樹突濃度 v 相關的記憶強度。也就是說,FT 模型使用傳輸遞質參數對 (w, v),而不是 MP 模型中的實數權重 w,來表示突觸可塑性。

另一方面,FT 神經元在第 t 時刻的輸出也包括兩部分:s_t 和 m_t,其中 s_t 是神經元生成的生物電/化學刺激信號,m_t 是神經元的當前記憶強度。在該時刻結束後,刺激信號 s_t 被傳輸到下一個神經元,而相關神經元的記憶強度也更新為 m_t。

FT 模型利用參數對 (w, v) 表示突觸可塑性,用神經元唯一的變量 m_t 表示神經遞質調節的記憶單元。進而,FT 模型可以形式化為帶有參數對 (w, v) 的二元二值函數,如下所示:

研究者將該模型叫作 Flexible Transmitter 模型。顯然,這種建模方法使 FT 神經元不僅更具生物逼真度,也更有潛力處理複雜結構的數據。

Flexible Transmitter Network

FTNet 採用全連接網絡架構,研究者用 FT 神經元代替了實值 MP 模型。他們還相應地開發了用於訓練 FTNet 的實用、高效反向傳播算法。

FT 模型的實現

根據公式 1,FT 模型本質上是由二元二值函數 f 和參數對 (w, v) 主導的。FT 模型的輸入和輸出包含兩個部分,它們之間的關係非常複雜。多數現有的神經元模型都依賴於單值函數,而單值函數很難直接應用於這一問題。一種有趣的解決方法是利用複變函數來表示神經元的輸入和輸出,得到的神經元模型如下所示:

在復變分析中,複變函數輸出的實部和虛部是成對的,即 s_t 和 m_t 共享同一個複變函數 f 和參數對 (w, v)。

FTNet 的簡單架構

FT 神經元是神經網絡的基本單元。為了評估它的潛力,研究者考慮使用最簡單的全連接前饋神經網絡架構,用 FT 神經元做構造塊,替代原來的 MP 神經元,從而得到 FTNet。基於公式 2,我們為一層 FT 神經元提供一個通用向量化表示:

逐層重用式 3 中的向量化表示,可以得到 FTNet 的多層全連接前饋架構。

現在還有兩個問題:1)複變函數 f 應該是什麼樣的?2)如何學習其參數?

為了解決這兩個問題,研究者將方程 2 中的複變函數 f 分為兩個部分:轉換函數 τ : C → C 和激活函數 σ : C → C,其中 f = σ τ。該複合運算將 f 中的複雜結構與非線性激活函數分離開來:轉換函數 τ 表示複數域上的加和運算,通常是可微的,而 σ 表示激活函數。因此,FTNet 允許梯度計算,且能夠適應一些傳統的激活函數。

複雜的反向傳播算法

為了訓練 FTNet,研究者提出了一種複雜的反向傳播算法(Complex Backpropagation,CBP)。該算法是常用反向傳播算法在複數域中的擴展版本。該研究還以單層 FTNet 和雙層 FTNet 為例,給出了 CBP 的詳細實現過程,詳見原論文附錄 B。

實驗

研究者在三個模擬和實際數據集上對比了 FTNet 和多個常見神經網絡。

模擬信號

研究者首先探索了使用不同配置的 FTNet 在模擬數據上的性能。

實驗發現,tanh 激活函數是最能維持最優性能的,不管是使用 FT0 還是 FT1 架構都是如此。相比之下,sigmoid 和 modReLU 激活函數的性能要差一些。zReLU 的性能略優於 P ReLU。

研究人員猜想其原因在於,對於複數激活函數而言,半徑可能比相位更易受影響,也更重要。因此,研究者在接下來的現實世界任務中統一使用 tanh 激活函數和 0.01 的學習率來配置 FTNet。

單變量時序預測:鹽城汽車上牌量預測任務

研究者在鹽城汽車上牌量預測競賽數據集上進行了實驗,這是一個現實世界單變量時序預測任務。

表 1:在鹽城汽車上牌量預測任務上的均方差(MSE)和模型設置。

從表 1 中可以看出,FT1 模型的性能極具競爭力。

多變量時序預測:HDUK 交通預測任務

研究者在 HDUK 數據集上驗證了 FTNet 的性能,這是一個典型的多變量時序預測數據集。實驗表明,在相同設置下,FTNet 的性能超過其他神經網絡。

表 2:模型在 HDUK 交通預測任務上的 MSE 和 confusion accuracy。

在 pixel-by-pixel MNIST 數據集上的圖像識別性能

表 3:各模型在 pixel-by-pixel MNIST 任務上的準確率。

實驗表明,FTNet 的性能優於之前最優的神經網絡。

關於作者

該研究的第一作者張紹群現在南京大學計算機科學與技術系 LAMDA 組讀博,導師是周志華,研究興趣是時序分析和計算神經科學。周志華教授也是該研究的通訊作者。

第一作者張紹群

相關焦點

  • 自動化所提出基於類腦脈衝神經網絡的音樂記憶與激活模型
    中國科學院自動化研究所類腦智能研究中心曾毅團隊充分借鑑了人類大腦在音樂信息處理方面的神經機制,構建了一個多尺度的多腦區協同的脈衝神經網絡SNN(Spiking Neural Network)模型,用於音樂感知與記憶。模型可以通過一首曲名從而回憶起整首樂曲,也可以只通過一個片段,回憶起整首曲目,甚至可以回憶樂曲的節奏與速度。
  • 科學家提出具有同層側向激勵和抑制的卷積脈衝神經網絡模型
    近年來,基於梯度反向傳播的脈衝神經網絡(SNN)訓練方法逐漸興起。在這種訓練方法下,SNN能夠在保留神經元內部動力學的同時獲得較好的性能。 在此基礎上,中國科學院自動化研究所聽覺模型與認知計算團隊模仿刻畫視聽覺系統神經元側向作用的數學模型動態神經場,提出了具有側向作用的SNN——LISNN,用於圖像識別任務。
  • 多變量多因子的非線性模型|BP神經網絡模型
    神經網絡模型的靈感來源於生物體內的神經網絡,大量的神經元(可以理解為變量)之間相互聯繫,共同協作處理問題。通過不斷調整輸入神經元的權重,達到目標結果,這也就是訓練的過程二、BP神經網絡BP的全稱是Backpropagation,譯為反向傳播,是目前應用最為廣泛的神經網絡模型之一。
  • 深度神經決策樹:深度神經網絡和樹模型結合的新模型
    深度神經決策樹:深度神經網絡和樹模型結合的新模型 工程師郭婷 發表於 2018-08-19 09:14:44 近日,來自愛丁堡大學的研究人員提出了一種結合深度神經網絡和樹模型的新型模型
  • 自動化所提出具有同層側向激勵和抑制的卷積脈衝神經網絡模型
    近年來,基於梯度反向傳播的脈衝神經網絡(SNN)訓練方法逐漸興起。在這種訓練方法下,SNN能夠在保留神經元內部動力學的同時獲得較好的性能。  在此基礎上,中國科學院自動化研究所聽覺模型與認知計算團隊模仿刻畫視聽覺系統神經元側向作用的數學模型動態神經場,提出了具有側向作用的SNN——LISNN,用於圖像識別任務。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 深度學習之卷積神經網絡經典模型
    隨著ReLU與dropout的提出,以及GPU帶來算力突破和網際網路時代大數據的爆發,卷積神經網絡帶來歷史的突破,AlexNet的提出讓深度學習走上人工智慧的最前端。這就會出現飽和的現象,飽和現象中神經元的梯度會變得特別小,這樣必然會使得網絡的學習更加困難。此外,sigmoid的output的值並不是0為均值,因為這會導致上一層輸出的非0均值信號會直接輸入到後一層的神經元上。所以AlexNet模型提出了ReLU函數,公式:f(x)=max(0,x)f(x)=max(0,x)。
  • 神經網絡模型預測值 論文_bp神經網絡預測模型建模步驟 - CSDN
    在深度學習十分火熱的今天,不時會湧現出各種新型的人工神經網絡,想要實時了解這些新型神經網絡的架構還真是不容易。光是知道各式各樣的神經網絡模型縮寫(如:DCIGN、BiLSTM、DCGAN……還有哪些?),就已經讓人招架不住了。因此,這裡整理出一份清單來梳理所有這些架構。
  • 深度森林第三彈:周志華組提出可做表徵學習的多層梯度提升決策樹
    自去年周志華等研究者提出了「深度森林」以後,這種新型的層級表徵方式吸引了很多研究者的關注。今日,南京大學的馮霽、俞揚和周志華提出了多層梯度提升決策樹模型,它通過堆疊多個回歸 GBDT 層作為構建塊,並探索了其學習層級表徵的能力。此外,與層級表徵的神經網絡不同,他們提出的方法並不要求每一層都是可微,也不需要使用反向傳播更新參數。
  • 神經元 脈衝的自相似網絡模型
    對於單個神經元,理論研究一直致力於通過用分數階導數代替整數階導數來研究其分數階尖峰響應。得益於分數階微積分,得到的分數階神經元模型被廣泛用於產生不同的突發模式,並自然地引入了尖峰適應。然而,所有這些模型都忽略了分數階導數的起源,或將其唯象地歸因於門控變量或膜電導的冪律動力學,而仿真表明神經元樹突形態也影響著它們的尖峰模式。
  • 周志華組最新論文提出「溯因學習」,受瑪雅文字啟發的神經邏輯機
    【新智元導讀】南京大學周志華教授等人在最新的一篇論文中提出了「溯因學習」(abductive learning)的概念,將神經網絡的感知能力和符號AI的推理能力結合在一起,能夠同時處理亞符號數據(如原始像素)和符號知識。
  • 模塊化免疫神經網絡模型在計算機病毒分類檢測中的
    故採用免疫算法和神經網絡的新型網絡模型,對計算機病毒分類檢測進行研究。1 模塊化免疫神經網絡模型的提出人工神經網絡和人工免疫系統都是受生物學的啟發發展而來的理論和技術,兩者在生物學原理和人工原理上各有異同。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    關鍵詞:燃煤電廠;脫硫系統;計算機模擬;深度學習;神經網絡;預測;模型應用;智慧環保;當前,國家正加快推進以 5G、人工智慧、工業網際網路、物聯網為代表的新型基礎設施建設(新基建),電力行業的智能化建設也蓬勃發展。國內大型火力發電廠很早就實現了廠級 DCS 數據監控,歷史運行數據豐富,為實現數據驅動的神經網絡建模提供了有利條件。
  • 如何重建深層神經網絡的可塑性?
    ,深度學習的基本結構是深度神經網絡,它是一種人工神經網絡,人工神經網絡是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型。在人工智慧太空領域,研究人員長期以來嘗試建立模擬突觸可塑性的機制,以改善神經網絡的學習。最近,Uber人工智慧實驗室團隊發表了一篇研究論文,提出了一種「可微可塑性」的元學習方法,該方法模仿了突觸可塑性動力學,以創建經過初步訓練就可以從經驗中學習的神經網絡。
  • AutoML : 更有效地設計神經網絡模型
    在本文中,我們將介紹AutoML的以下內容:關於AutoKeras的一個簡短介紹通過AutoKeras這個神經架構搜索算法,我們可以找到最好的神經網絡架構,比如層中神經元的數量,架構的層數,加入哪些層,層的特定參數,比如Dropout中的濾波器大小或掉落神經元的百分比等等。
  • 深度學習背後的基礎-神經網絡揭秘
    二 神經元生物神經元首先, 神經網絡的靈感來自生物神經網絡。 那麼生物神經網絡是怎麼組成的? 神經元。 神經元的基本結構是樹突, 胞體和軸突(如上圖)。我們這個簡化出來的模型,正是所有人工神經網絡的祖母-感知機。 從名字可以看出,人們設計這個模型的最初目的就是像讓它像真實的生物神經元一樣,做出感知和判斷。 並且從數據中學習。 感知機算是最早的把連接主義引入機器學習的嘗試。
  • 新深度學習模型——少量人工神經元造就更高智能
    這種新型系統只需要少量人工神經元就能控制車輛。與之前的深度學習模型相比,該系統具有明顯的優勢:能更好地應對嘈雜輸入,而且其操作模式可以詳細解讀。與活體大腦相似,人工神經網絡也是由許多獨立的細胞組成的。這種細胞間的活動傳遞模式決定了該系統的行為模式——參數在自動學習過程中可以不斷調整,直至神經網絡能夠解決特定問題。「多年來,我們一直嘗試從自然中汲取改善深度學習的知識,」TUW網絡物理系統(CPS)研究小組負責人Radu Grosu教授說,「例如,雖然線蟲的神經元數量非常少,但其神經系統在處理信息時卻非常高效、和諧。」
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    為什麼要給 LM 加上神經網絡?然而,N 元語言模型有一個明顯的缺點。為了解決這個問題,我們在將神經網絡(NN)引入到了連續空間的語言建模中。NN 包括前饋神經網絡(FFNN)、循環神經網絡(RNN),可以自動學習特徵和連續的表徵。
  • 微電子所在新型存儲器件、模型及類腦計算研究中取得進展
    會上,中國科學院微電子研究所劉明團隊展示了新型存儲器件(選通管、可編程二極體)、負電容電晶體緊縮模型、類腦神經元器件電路的最新研究成果。  在存儲器件方面,劉明團隊提出了一種基於HZO鐵電薄膜極性反轉調製的電場可編程二極體及1T2D結構的電壓輸出存儲單元(圖1)。