遞歸是神經網絡中的一個重要術語,在機器學習和神經科學領域有著不同的含義。然而,隨著用於實際應用的人工神經網絡(ANNs)越來越複雜,且在某些方面更像生物神經網絡(BNNs),這種差異正在逐漸縮小(但總體上仍存在巨大差異)。
在這篇文章中,我們將重點介紹這兩個群體中遞歸使用的歷史差異,重點介紹一些比較新的神經科學領域的深度學習神經網絡模型,指出一些神經科學研究揭示遞歸的功能,並對未來進行預測。
深度學習社區所指的是經常性連接類似於神經科學界所說的橫向連接。 即局部區域中的互連神經元。
在神經科學界,經常性網絡是一種多樣性的網絡,包括前饋、橫向和反饋連接。
反饋連接適合動物的能力和行為,在沒有這種連接的深度學習模型中可能無法複製。
深度學習人工神經網絡的遞歸
正如許多讀者所知,深度學習網絡是神經網絡的子類型,其中神經元(或節點)被安排成層。與早期研究的只有一兩個這樣的層的網絡相比,這樣的網絡中存在許多層,這也是它命名的原因。在一個典型的全連接前饋深度學習網絡中,給定層中的所有神經元都將它們的輸出發送給緊隨其後的層中的所有神經元(計算的方向流通常被描述為從下到上或從左到右在層之間移動)。
人們還可以設計網絡,其中給定層中的神經元將其輸出發送到緊接在其之前的層,從而引入層之間的反饋連接。
最後,一層神經元可以以完全連接(或其他)的方式將其輸出發送回自身。 存儲在層中的信息在下一個處理步驟中作為對同一層的輸入重新出現。 這是一種遞歸的類型,在深度學習實踐者討論時總是意味著遞歸僅限於一個層。 (請注意,可能存在多個循環層,但層間連接僅為前饋。)
與右側的前饋網絡不同,左側的網絡具有「反饋」到自身的重複層(較大的淺藍色圓圈)。在深度學習的說法中,
這種遞歸連接將記憶賦予遞歸神經網絡(RNN)。網絡的輸出不再僅僅依賴於對標時間的輸入。相反,網絡在任何給定的時間都有一個「狀態」,它與下一個輸入相結合,提供一個新的輸出,並更新網絡的狀態。
這允許RNN識別或產生其時間結構不同的模式,例如語音[1]。 例如,話語<sleep>和<sleeeep>都可以被識別為單詞「sleep」。 事實上,這種序列到序列網絡的設計和訓練方法的重大進步是語音識別技術在過去2 - 3年中取得如此巨大進步的關鍵原因。 Siri和Alexa可能仍然像個「人工智障」,但至少他們可以非常準確地將您口語翻譯成文本(儘管您可能並不總是認可它們的回答)。
文本的語言翻譯是另一個取得巨大成功的領域。遞歸式的使用允許在編碼階段中積累信息,在解碼階段中進行分布式(跨時間輸出),因此不需要直接進行單詞對單詞或短語對短語的對齊。例如,允許一種語言中單詞前的修飾語在另一種語言中緊隨其後,或是將red hat翻譯成sombrero rojo。
更不用說上面所說的「普通」RNN架構在實踐中很少使用了。高級應用程式通常依賴於人為設計的修改,以適應門控機制。在某種意義上,這允許它在接收到某個輸入或交付某個輸出時「轉儲」循環層的狀態內存。作為一個類比,當你完成一個想法時,可能會希望扔掉那個想法,這樣它就不會和你的下一個想法混淆了。值得注意的是,最常見和有效的門控層之一是長短期內存(LSTM)層,最初創建於1997年,遠遠早於基於rnnn的應用程式的。
生物神經網絡中的遞歸
在神經科學家中,遞歸有一個更寬泛的定義:基於生物神經網絡(BNNs)中神經元之間幾乎各向同性的連接模式。神經元向其他神經元的軸突投射非常豐富,可以向前或向後、短距離或長距離傳送。雖然有證據表明,大腦皮層在結構和功能上都存在粗糙的分層結構,但大腦皮層顯然沒有被安排成神經元的有限層(組)。大腦作為一個整體有不同的區域,有不同類型的神經元和神經遞質,但沒有像深度學習神經網絡定義特徵那樣的分隔連接。儘管如此,深度學習實踐者所稱的反覆連接更有可能被神經學家稱為橫向連接。
遞歸網絡是以吸引子網絡的模式完成特性,這也是計算神經科學家進行大量研究的方面。在我們自己的腦海中,可能只需要短暫的一瞥,一陣短暫的聲音或者一點點氣味,就能帶來強烈而充滿活力的記憶。或者當我們試著回憶一個演員或女演員的名字時,我們會想像他們的臉,想起他們合作過的其他演員的名字、電影的名字等等,直到他們的名字神奇地出現在我們的腦海中。類似的現象已經在吸引子網絡的模擬中被觀察到(一個非深度學習結構的ANN,通常帶有抑制和興奮性的人工神經元,這代表了BNNs的更現實的模型)。例如,由人臉圖像驅動的神經活動模式也可能由同一人臉的模糊或嘈雜圖像驅動,只是在後一種情況下,網絡的動態需要更長的時間才能達到穩定狀態。
Hopfield吸引網絡的能量景觀。感覺信息可以簡單地將網絡活動定位在不穩定的部分信息狀態,從該狀態
比區分深度學習神經網絡的有限遞歸(層內)與廣泛遞歸更重要的是,在大多數深度學習模型中缺乏反饋連接。在神經科學領域,「遞歸」一詞幾乎等同於反饋和前饋連接的混合,最近的研究為反饋的作用提供了新的證據。
生物網絡中可能存在的周期性連接和反饋連接功能:
迭代感知處理:即循環處理,其中自下而上和自上而下的信息流相互作用以穩定結果。有關該主題的更深入問題,請見以下內容。
長期記憶:不完整的信息可以發起從長期儲存在網絡的存儲器召回(如上所述)。
短期記憶:可以記憶短數字序列或幾句話內容所需,由共同產生穩定(或動態的)發射模式的神經元維持,保持新的短期記憶。該功能與上述序列到序列深度學習RNN的功能相似(例如,允許語音識別和語言翻譯)。
自上而下的目標驅動注意力:基於目前的任務和相關目標,並不是所有的感官信息都具有同等價值。尋找自己喜愛的紅色漿果的動物可能具有反饋連接,這種連接可以增強對紅光作出反應的低層神經元的活動,同時降低對其他顏色作出反應的神經元的活動。這個過程的神經模型利用了深度學習社區工作。
可塑性:遞歸也是生物大腦學習機制的重要組成部分。例如,皮層下基底核中的多巴胺釋放神經元是由皮層和皮層下區域組成的複雜網絡的一部分,能夠增強皮層區域對獎賞(食物、交配等)行為的可塑性,從而加強這種行為。這種神經元和網絡的複雜性在最先進的深度學習中幾乎完全缺失。
門控:據推測,反饋也可以作為一種門控機制來控制信息從低級神經元到高級神經元的流動。注意力可能會使用這樣的門控,但這裡我們指的門控不是由生物體的意識感知和目標驅動的。例如,眾所周知,關於物體身份的視覺信息是沿著枕葉皮質到下顳葉皮質的通路提取和提煉的。相反,目標位置信息是沿著枕葉皮質到頂葉皮質的路徑提取和細化的。門控可能有助於指導這種信息傳遞過程,並且可能是支持前面討論的迭代感官處理的機制。
迭代感官處理
我們簡要強調BNN中循環和反饋連接的迭代感知處理角色,並將其與在深度學習神經網絡中主導圖像分類任務的前饋卷積神經網絡(CNN)進行對比。
深度學習對象(image)識別模型在該領域取得了巨大的成功,自CNN發布第一個贏得ImageNet大型視覺識別挑戰(ILSVRC)的模型「AlexNet」以來,該領域發展迅速。由於視覺皮層是哺乳動物皮層中研究最廣泛的區域,因此,人們對深度學習中樞神經網絡與哺乳動物視覺進行了許多主觀和定量的比較。
早期的視覺神經科學模型是基於Hubel和Weisel等人對單個神經元的記錄,它們與標準的中樞神經網絡相似,都有卷積、匯聚和前饋連接。功能模型前饋的部分動機是視覺感知速度很快,大約在100毫秒左右。這一估計是基於大腦「高級」區域的神經放電時間相對於向實驗動物展示圖像的時刻。基於解剖學,視覺皮層通常被建模為一個鬆散的層次結構,由4-6個層次組成,具有強烈的反饋連通性。儘管存在反饋連接,但較高水平的神經反應速度表明,反饋連接並非完全必要(對於簡單的對象識別任務)。如果不是這種情況,在這些領域形成穩定反饋的速度將會更慢,因為反饋循環的貢獻需要更多的時間來傳播。
然而,在具有挑戰性的ILSVRC測試集中,CNNs需要幾十層甚至數百層才能實現良好的圖像分類性能,這與僅僅由幾個前饋級組成的視覺皮層模型形成了矛盾。此外,在一些計算研究中,相對較淺的RNNs與較深的CNNs表現相當。
Liao和Poggio [10]建立了一個4級復發網絡,旨在模擬視覺皮層。在這個粗糙的模型中,來自眼
最近,世界級實驗室進行的一對神經科學研究以及對生物反饋性連接的時間延遲研究,表明需要遞歸才能捕獲人類視覺皮層的動態計算, 遞歸對於視覺皮層執行識別行為至關重要。 簡而言之,如果沒有被循環網絡多次迭代,就無法識別出更具「挑戰性」的對象圖像實例。 換句話說,需要額外的非線性變換以成功識別對象,在那些區域中形成的反饋將更慢,因為來自反饋迴路的貢獻需要更多的時間來傳播。
最後的話
如上所述,雖然循環深度學習神經網絡模型具有層內遞歸(神經科學用語中的「橫向」連接),但很少有神經科學家經常研究的反饋連接類型:從較高層到較低層的連接。
與此相關的是,生物神經元是並行運作的,因此在大規模的遞歸網絡中的計算可以快速進行。事實上,神經元狀態的同步計算更新是成功的關鍵。對於運行在現代硬體上的大型、高重複性神經網絡,這種程度的並行可能很難實現。我們推測,在深度學習模型中引入大量的反饋遞歸,並為這些模型開發訓練方將帶來強大的人工智慧能力。