【VALSE前沿技術選介16-19期】Recurrent Highway Networks

2021-02-08 VALSE

好久不見大家。今天給大家推薦的是來自大牛 Jürgen Schmidhuber 的工作,《Recurrent Highway Networks》[1]。另外這篇工作也和曾經將 LSTM 的模型的各種 variant 做橫向對比的 LSTM Odyssey[2] 是出自同一個團隊。這篇論文為一些在 RNN 方面的 trick 做了理論上的統一,並且提出了一種將 RNN 在與 time 的方向相垂直的 space 方向(論文中採用這個詞,但並一定準確)上增加 depth 的新模型——即 Recurrent Highway Networks。一些同學可能已經能從名字中看出端倪,這篇論文就是使用了 Highway Networks[3] 的 architecture 來進行縱向擴展。


那麼先說說,我們為什麼要讓 RNN 做一些縱向上的擴展,這所謂的「縱向」又是什麼呢?大家都知道 RNN,是在時間軸上做一種 micro time steps 的 tick 循環,從而有一種 time 方向上的 depth,如果這個我們叫做「橫向的」 depth。那麼這篇論文[1] 則是希望進行與這個方向垂直的,一種 space 方向上的擴展。這個 space 是說,在 recurrent state transition 上增加 depth——為「縱向」的 depth——起名為 recurrence depth。這個 depth 怎麼增加呢?就是用 Highway Networks 的方式,增加一個 deep net 去計算從 (h_t, x_t) 到 h_{t+1} 的轉移。說到這裡,是不是這樣做的原因已經很明白了?因為眾所周知的 RNN 甚至 LSTM 梯度信息傳遞的困難,大家總是希望能有更 efficient 或者更 effective 的方式,去把 gradient information flow 在兩個 state 之間進行傳遞。這篇論文[1] 的出發點也是如此。


有了出發點,怎樣入手呢?由於這篇論文[1] 的作者曾經對 LSTM variant 做過很深入的研究[2],他們甚至找到了一個比較統一的理論框架,去解讀 RNN 這種模型在 gradient information flow 問題上的各種邊界情況。他們首先定義了 temporal Jacobian 如下:


然後利用一個叫做 Geršgorin circle theorem (GCT) 的定理,得到了 Jacobian 的 spectral radius、recurrent weight matrix R 和 graident vanishing/exploding 的關係。


雖然這個定理比較生僻,但是圖示和 intuitive 的理解很容易。大家甚至可以從 Bengio 在 ICML 2016 Back-to-the-future Workshop 上給的 talk 中獲得一些啟發。如果我們要穩定地去存儲 1 bit information,我們需要做的就是 spectral radius 小於1:


而這又可以和我們的 recurrent transition matrix R 做好關聯。多個 spectral radis 小於1 的 matrices 連乘就相當於一個 spectral radius 指數型收斂於0 的 matrix:



於是乎,就像這篇論文[1] 的結論一樣,gradient vanishing problem 的出現,就是當我們用一些標準差接近0(zero-mean Gaussian)的方式去為 recurrent transition matrix R 做初始化和使用 L1/L2 weight regularization 的 trick 時,一般就會使得 spectral radius 小於1。而當我們用標準差比較大的方式去做這件事,就正好相反啦,就會出現 gradient exploding problem。那麼一個邊界情況是啥呢,就是我們正好用 identity matrix(或者 scaled identity matrix)做 R 的初始化,就像[4] 論文提出的那樣,這時候 specturm 就更容易落在1這個中心附近,gradient 也就不容易出現 vanishing/exploding。所以稍微總結一下,這個 RNN 的 gradient information flow,是和 recurrent transition matrix R 的 Jacobian eigenvalue 有很大關係的,而這個 eigenvalue 的數值很容易被我們的初始化影響。


但是 eigenvalue 的數值,不只是會被初始化影響,還會在 training 的過程中繼續改變呀,所以直接把 R 初始化成 identity matrix(IRNN)的方法,並不能完全保證良好的 gradient information flow。這也是為啥一般這種時候,我們會採用比較小的學習率的原因。所以這篇論文[1] 還是想在除了初始化以外的地方,去改進 gradient information flow 的機制。他們另闢蹊徑,在計算 recurrent state transition 時使用 highway networks 做 deep net,並把這種改進的 RNN architecture 叫做 Recurrent Highway Networks(RHN)。如下,一個擁有 recurrence depth = L 的 RHN 層:


這裡的 t_l 和 c_l 就是對應 highway networks[2] 中的 transform gate 和 carry gate。



除了上面這種圖示,我們還可以把 RHN 與其它常見的 LSTM variant 做對比。個人感覺,當我們的 recurrence depth L=1 時,這個特殊情況的 RHN 與 GRU 非常相似,只不過 GRU 多一個 reset gate。而與 LSTM 相比的話,LSTM 多的是 output gate,以及合併後的 input 和 forget gate,還有一個 output activation function。所以說到這裡,RHN 的「優勢」和特點就很明顯了。首先是,與 highway networks 結合的它,使得它可以將信息無轉化的在 hidden state 間傳遞(carry gate)。第二,它不像 GRU 和 LSTM 一樣,需要通過 activation function,而這會帶來很大的不同。說完這些 variant 的對比,就不得不說到這篇論文[1] 的不足之處。它和 GRU 以及一些相關 LSTM variant 的區別討論不足,實驗對比也不足。比如在實驗部分根本沒有加入 GRU。作者在網上承諾將在下一個版本內補上。


接下來就是把剛才利用 GCT 定理的分析和作者提出的 RHN 架構結合在一起的時候啦。作者發現,利用 GCT 定理,RHN 的優點有以下幾個:(1)首先就跟 highway networks 一樣,RHN 的 transform 和 carry gates 讓它變得更靈活一點;(2)這個靈活性是作者認為他們的 RHN 比別人的表現更好的原因。也就是說,當應對複雜的 complex sequences modeling 的時候,它更靈活,又好 training,那不就相當於它的 representation ability 和 optimization ability 都更強麼?


最後就是實驗啦,實驗是它的弱項。對比不夠充分,而且在使用的優化方法上也不夠有說服力。對比不充分是它沒有和非常相似的 GRU 或者 IRNN 做對比。以及它既然對比了 Grid-LSTM,卻沒有更深入的分析 RHN 和 Grid-LSTM 的區別(甚至沒有 cite),實驗的結果都是直接 copy 自 Grid-LSTM 的論文。第二是,它的優化方法採用的是 Momentum SGD,而不是 Adam 這些 learning rate 可以調整的優化方法。那麼顯然,這個對於 RHN 的 optimization ability 比別人更好,是不太有說服力的。


綜上,推薦這篇論文的原因主要是它從另一個簡單的方式將 RNN 在 recurrence depth 上進行了改造,使得 RNN 的建模更加靈活和強大。但它提出的 RHN 到底多強大,也就是這種改造方法,比起 Grid-LSTM 等相似方法,到底能好出多少,還需要更多的分析和實驗。






[1] Julian Georg Zilly, Rupesh Kumar Srivastava, Jan Koutník, Jürgen Schmidhuber. "Recurrent Highway Networks". 2016 arXiv preprint. 

[2] Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, Jürgen Schmidhuber. "LSTM: A Search Space Odyssey". 2015 arXiv preprint.

[3] Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. "Highway networks". arXiv preprint arXiv:1505.00387, 2015.

[4] Q. V. Le, N. Jaitly, and G. E. Hinton. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units. ArXiv e-prints, April 2015.





相關焦點

  • VALSE Webinar 19-29期 舉一反三:小樣本學習新進展
    In this talk, we introduce some of our previous works about one-shot learning in semantic embedding, published in ECCV12, TPAMI14, CVPR16, and TPAMI19.
  • VALSE Webinar 19-16期 雲深可知處:視覺SLAM
    為諾基亞芬蘭、三星、華為、百度等企業提供視覺SLAM技術服務累計10餘年。他發起並連續策劃了五屆上海交通大學無人飛行器智能感知技術挑戰賽,並在2017年推廣為全國性賽事。提出了PMIS(稜鏡掩模調製)光譜視頻成像理論,理論成果發表在PAMI、Optica、IJCV、ICCV(Oral)、CVPR(Oral)等國際期刊和會議,關鍵技術授權美國和中國專利40餘項,被美國空軍實驗室在其報導中列為當前三大光譜視頻成像技術之一(其餘兩項技術由美國DARPA和亞利桑那光學中學分別提出)。
  • Recurrent Neural Networks及NLP ——集智NLP讀書會筆記
    當然,這裡所說的RNN是recurrent neural networks,而不是recursive,當然,這兩類RNN在訓練算法上有相通的地方。I. RNN的發展歷程1982年,J.Hopfield提出了Hopfield networks,這個網絡的結構如圖1所示。從這個結構中,我們可以看出,Hopfield 網絡其實是一個單層的循環網絡。
  • VALSE Webinar 20-27期 看圖識字:文字檢測與識別新進展
    NLP技術目前有了很大進展,怎麼看待OCR與NLP技術的相結合,會是未來OCR的一個發展趨勢嗎?*歡迎大家在下方留言提出主題相關問題,主持人和panel嘉賓會從中選擇若干熱度高的問題加入panel議題!
  • recurrent什麼意思
    recurrent什麼意思單詞解析re,表示重複,更多例子還有:residence, rehearsal, recovery, etc.current 之 當下的recurrent,反覆出現的、反覆發生的。大家看出來吧?這裡藏著兩個單詞,就是recur和current.
  • 第114期中國科學院學部科學與技術前沿論壇召開
    第114期中國科學院學部科學與技術前沿論壇召開 2020-12-18 20:04 來源:澎湃新聞·澎湃號·政務
  • 英語每日一句:My way or the highway
    新東方網>英語>英語學習>口語>每日一句英語>正文英語每日一句:My way or the highway 2013-01-28 16:19 來源:恆星英語 作者:
  • ACL 2019對話系統論文綜述,一文帶你縱覽16篇前沿研究
    In Advances in Neural Information Processing Systems, pages 5998–6008Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu. 2013. 3d convolutional neural networks for human action recognition.
  • 百面深度學習 | 第十四期:語音識別
    Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal processing magazine, 2012, 29.[2] GRAVES A, FERNÁNDEZ S, GOMEZ F, 等.
  • 省科技館舉辦第四期前沿技術大講堂雲課堂活動
    8月21日,2020年遼寧省前沿技術大講堂第四期雲課堂順利舉辦。瀋陽鼓風機集團股份有限公司、瀋陽史太白技術轉移有限公司、遼寧省人才雙創促進會、遼寧省自動化學會、瀋陽航空航天大學等省級學會、地市科協、企業和高校院所的科技人員進行在線直播學習,其中本次活動分會場瀋陽鼓風集團積極組織了部分科技人員集體收看了本次直播。
  • Fender highway 1 系列吉他簡介
    在highway 1現有的五款琴中,有兩種全新的顏色,它們分別是:寶藍色和可可色。這次我們為你選擇的照片是沙金色的highway 1,這樣你可以通過半透明的琴體可以看到木頭上的表紋。    漆面說完了,現在我們就來看看琴頸。
  • 非公路用車 off-highway vehicle
    非公路用車 off-highway vehicle[ 2009-08-04 10:05 ]近年來,美國非公路用車在公共陸地上的使用頻率不斷升高,越來越多的人喜歡駕車到野外去遊玩請看外電的報導:Hampered by lean budgets and growing responsibilities, federal land management agencies have struggled in recent years to keep up with the rising popularity ofoff-highway
  • Highway to scenic area steers into the fast lane
    As Shanxi enters the hot summer months, construction of a highway in the south of Taihang Mountains is accelerating.
  • Procera Networks收購Vineyard Networks
    Procera認為,網絡智能技術是未來網絡的基礎。Procera總裁兼執行長James Brear表示:「所有網絡單元都需要智能化。我們的戰略願景是讓各類規模的網絡都具備高效運行所必需的智能。Procera可以通過PacketLogic解決方案直接滿足各類服務提供商的這一需求。
  • Efforts to repair mudslide-damaged pivotal highway hindered...
    An ambulance is stuck in rain-triggered mudslides on a damaged highway in Wenchuan County, southwest China's