新智元報導
來源:Reddit、Science
編輯:大明、鵬飛
【新智元導讀】近日,史丹福大學華人教授Shanhui Fan團隊在Science子刊發文,指出不管是聲波、光波還是其他形式的波,其描述方程上都可以和循環神經網絡(RNN)等效。這一發現可能為新型模擬機器學習平臺的出現鋪平了道路。文章作者之一還在Reddit上和網友做了互動。戳右邊連結上新智元小程序了解更多!
近來,物理、數學與機器學習領域之間相互交叉,促進了使用機器學習框架來優化物理模型,並進一步促進研究人員開發了許多令人興奮的新機器學習模型(例如神經ODE,哈密頓神經網絡等),它們借鑑了物理學的概念。
來自史丹福大學Shanhui Fan組的研究員,就對物理學本身可以用作計算引擎的觀點特別感興趣。換句話說,就是對可以用作硬體加速器或用作快速有效的機器學習計算的專用模擬處理器的物理系統感興趣。
本文通訊作者,史丹福大學教授Shanhui Fan
在他們最近發表在《Science Advances》上的論文中,證明了波的物理特性能夠直接映射到RNN的時間動態中。使用此連接,研究人員證明了可以訓練聲學/光學系統(通過PyTorch開發的數值模型),從人類說話者的錄音中準確地對元音進行分類。本質上是將元音波形啟動到物理模型中,並允許優化器在域內各個點的1000處添加和刪除材料,本質上充當了模型的權重。
因為此機器學習模型實際上對應於物理系統,所以這意味著可以採用經過訓練的材料分布並將其「列印」到實際的物理設備中。結果將類似於ASIC(專用集成電路),但用於特定的RNN計算。
研究人員認為它們指出除了脈衝本身所攜帶的能量之外,還能夠完全被動地執行複雜的循環機器學習計算,而沒有能耗。
論文解讀:聲波、光波都可視作循環神經網絡
模擬機器學習硬體平臺有望比數位化平臺更快,更節能。與數位化模式相比,物理學中的聲波和光波是為時變信號構建模擬處理器的自然選擇。本文確定了各類波的形式與循環神經網絡中的計算之間的映射。該映射表明,可以使用神經網絡的標準訓練技術來訓練物理波系統,學習時間數據中的複雜特徵。
逆向設計的不均勻介質可以對原始音頻信號進行元音分類,從而達到與循環神經網絡的標準數字實現相當的性能。這些發現為新型模擬機器學習平臺鋪平了道路。
波的動力學與RNN之間的等價關係
RNN通過在輸入過程的每個步驟中對輸入序列的每個成員應用相同的基本操作,將輸入序列轉換為輸出序列。先前時間步驟的記憶被編碼為RNN的隱藏狀態,並在每個步驟中進行更新。隱藏狀態使RNN可以保留過去的信息,並學習數據中的時間結構和長期依賴關係。在給定的時間步長t處,RNN對序列xt的當前輸入向量和上一步ht-1的隱藏狀態向量進行運算,以生成輸出向量yt以及更新的隱藏向量狀態,ht。
儘管RNN有許多形式的變體,一般常見的實現方式可由下列方程描述:
與標準RNN相似,隱藏狀態與波的動力學方程的輸入和輸出之間的連接也由線性算符定義,可以如下方式給出:
輸入和輸出矩陣定義了空間域內的注入點和測量點。與標準RNN不同,輸入和輸出矩陣很密集,波動方程的輸入和輸出矩陣很稀疏,因為它們僅在注入點和測量點處為非零值,而且這些矩陣在訓練過程中不會改變。
RNN和波量度系統的概念比較如圖1所示:
圖1 標準RNN與基于波的物理尺度系統的概念比較
圖2 元音識別設置和訓練過程示意圖
圖3 元音識別訓練結果
未來:波與RNN概念互聯,機器學習新平臺大有可為
本文中介紹的基于波原理的RNN具有許多優勢,使其成為處理時間編碼信息的有希望的接班人。
另外,與常規RNN不同,波動方程強制執行節能約束,能夠防止隱藏狀態和輸出信號範數的無限增長。相比之下,定義標準RNN更新關係的無約束的矩陣會導致梯度消失和梯度爆炸,這正是訓練傳統RNN時需要防範的重大問題。
本文證明,波的動力學方程在概念上與RNN可以實現等效。這種概念上的互聯為新型的模擬硬體平臺的誕生提供了機會。這種利用物理學計算的方法可能會催生出用於模擬機器學習設備的新平臺,比數位化的同類產品具備更自然,更高效地執行計算任務的潛力。
Q&A環節:作者回應網友疑問和質疑
Reddit網友對此表現出濃厚的興趣,但也同時對該研究有很多疑惑。OP也非常耐心的做了解答。
問:聲學中的非線性是否足夠強大到足以使其不只是另一個光榮的線性模型?
答:在我們的方案中,物質響應是為隱藏狀態非線性激活函數提供隱藏狀態的要素,而檢測電路是提供輸出非線性的要素。在聲學方面,流體存在一些有趣的可能性。例如,已知具有小氣泡的液體具有非常強的非線性聲學響應。我相信這些效果在醫學超聲成像中很容易遇到。通常由於線性運算在數字處理器上仍然會非常昂貴,因此擁有一個非常高性能的線性單元(例如在ONN中)仍然具有很多價值。與此相關的是,我們還有另一篇論文提出了基於電光電路的ONN的激活功能。
問:是通過真的某個地方播放並使用探頭或揚聲器測量聲音在介質中的傳播方式創建輸出的,還是模擬數字環境並使用它創建不同的輸出?
答:演示用的數值模擬。在本文精確配置中,麥克風探針或接收器電路還需要執行其記錄的一些時間積分,以及不同探針處的時間積分信號之間的一些附加比較邏輯。但方案中大多數分類工作量已被轉移到訓練介質中波的傳播和散射上。
問:你談了很多物理學,但是本文並未論證正在研究的現象背後的物理學的基本知識。我已經通過3-5個神經元MLP(每個元音)完成了在線元音識別,所以我知道這並不難。
答:重點並不是要說此特定任務對其他模型來說太難了。我們的工作重點是說基于波的物理系統可以成為循環機器學習(也許通常是計算)的引人注目的模擬計算引擎。
問:這很可能會遇到「現實差距」,訓練會利用物理模型中存在的,與現實中不同或不存在的現象。當使用如此多的自交互(由於非線性)自由度時,即使是很小的離散誤差,各處都可能產生令人驚訝的與現實的差異。
答:我們在離散化誤差意義上(理想情況下)收斂的仿真環境中進行操作。這意味著如果我們假設模擬參數(例如波速和非線性材料參數)能夠反映現實世界的值,那麼模擬應該很好地表示現實情況。我們可能希望改善對結構中最小特徵尺寸的約束。我們還需要考慮三維效果(本文中的演示僅為二維)。但是,應該沒有根本性的問題去解決這些問題。
問:有趣的研究!你知道這樣的方法是否可以達到多少計算能力的上限?
答:這絕對是一個很好的問題,但是很難提供一個封閉形式的答案,這是我們正在積極研究的東西。波動方程具有一些屬性,即因果關係和能量守恆,我們可以期望它們會限制系統可以產生的響應形式。
論文地址:
https://advances.sciencemag.org/content/advances/5/12/eaay6946.full.pdf
Reddit討論:
https://www.reddit.com/r/MachineLearning/comments/ej3bgf/r_acoustic_optical_and_other_types_of_waves_are/
圖文直播|新智元小程序技術公開課第一期!
1月6日晚,16本Phthon系列教材作者董付國將在新智元小程序揭秘「如何編寫有「Python味道」的Python代碼?」,當天還有機會與大咖在線互動,答疑解惑,現在掃描下方海報二維碼可搶佔免費預約名額。