在過去的幾十年裡,電子計算發展迅猛,但其能源成本居高不下,因此,研究人員一直在探索其他可行的計算方法。光學計算就是其中一條頗有前景的研究方向。近日,一篇 Nature 論文展示了光學計算的最新成果,德國的研究人員提出了一種在毫米級光子晶片上實現的全光學神經網絡,該網絡內部沒有光到電的轉換,因此能源利用效率更高。這種光神經突觸網絡有望獲得光學系統固有的高速和高帶寬,並可以直接處理光通信和視覺數據。
光纖以光的形式傳輸數據,是現代遠程通信網絡的支柱。但在分析這種數據時,我們需要把光轉換為電子,然後用電子方法進行處理。光學曾被認為是一種潛在計算技術的基礎,但由於電子計算發展迅速,光學計算在這條賽道上跑得很吃力。
然而,近幾年來,人們越來越關注計算的能源成本。因此,光學計算再次受到關注,因為它不僅可以降低能源需求,還可作為加速人工智慧算法(如深度神經網絡)的專用硬體。德國明斯特大學物理研究所的 Feldmann 等人在《Nature》上發表了一篇論文——「All-optical spiking neurosynaptic networks with self-learning capabilities」,闡述了這種網絡的全光學實現取得的可喜進展。
深度神經網絡包含很多層人工神經元和人工突觸,它們是神經元之間的連接。這些連接的強度被稱為權重,它們可以是正的,表示神經元被激活;也可以是負的,表示神經元抑制。深度神經網絡通過改變其突觸權重來學習執行圖像識別等任務,從而最小化實際輸出與預期輸出之間的差距。
CPU 和其他數字硬體加速器通常用於深度神經網絡計算。深度神經網絡可以使用一個已知的數據集進行訓練,而已經訓練的深度神經網絡可以在推理任務中應用於未知數據。無論哪種情況,雖然計算量很大,運算種類卻不多,因為「乘積累加」運算在諸多突觸權重和神經元激活中佔據主導地位。
眾所周知,深度神經網絡在計算精度低時也能表現良好。因此,這些網絡為非傳統計算技術提供了一個很好的機遇。例如,研究人員正在探索基於非易失性存儲設備的深度神經網絡加速器。這類設備在切斷電源時也能保存信息,同時通過模擬電子計算能夠提升深度神經網絡的速度和能源效率。
那麼,為什麼不考慮利用光學呢?引導光的結構--無論是用於電信的光纖還是用於光子晶片的波導--都可以包含大量數據。在這類波導內部,光的很多波長可以利用波分復用(wavelength division multiplexing)技術同時傳播。之後,每個波長可以進行調製(其改變時可以攜帶信息),其中調製速度受限於與電-光計算和光-電計算有關的可用帶寬。
諧振器結構使波導能夠添加或刪除單個波長。例如,微米級環狀(微環)諧振器可以實現突觸權重陣列。這類諧振器可以進行熱態電光調製,或利用上述論文中提到的相變材料調製。這些材料可以在非晶相和晶相之間轉換,這與它們吸收光的能力大不相同。在理想狀況下,得出的乘積累加運算只需少量電能。
Feldmann 等人提出了一種在毫米級光子晶片上的全光學神經網絡,該網絡內部沒有光到電的轉換。輸入的數據被電子調製成不同的波長以注入網絡,但之後所有數據都會停留在晶片上。利用集成相變材料來實現權重調製和神經元集成;它們位於兩種微環諧振器上,具有突觸或神經功能。
在不同工作波長情況下注入的未調製光接收到在相變材料中累積的神經元激活,之後將它們傳遞到網絡下一層。即使沒有晶片上光學增益(在這個過程中,一種介質將能量傳遞給通過它傳輸的光),這個設置也可能擴展至更大的網絡。作者在其上實現了小規模的監督學習和無監督學習。
由於權重通過光吸收來實現,負權重需要一個較大的偏置信號,一定不能激活相變材料。另一種可以快速提供負權重的方法是採用 Mach–Zehnder 幹涉儀。在這些設備中,單個波導被分為兩個分支,之後重新結合,這使得傳輸光的數量取決於兩條路徑間的光學相位差。但是,這種方法與波分復用方法的結合可能具有挑戰性,因為每個幹涉儀的分支需要為每個波長引入合適的相位差。
光學 DNN 仍然面臨巨大挑戰。在理想狀態下,它們的總功率使用可能較低,但熱光功率經常需要調整和保持每個 Mach–Zehnder 幹涉儀分支中的光學相位差異。此外,注入包含相變材料系統中的總光學功率必須仔細校準,使材料對輸入信號的響應完全符合預期。
儘管相變材料可以用來調整 Mach–Zehnder 相位,但材料吸收光的強度和減慢光速之間不可避免的交叉耦合會帶來相當大的複雜性。
相變材料似乎非常適合突觸權重的非揮發性長期存儲,突觸權重基於微環共振器,只需要很少的調整。然而,當在神經元中使用時,這種材料的結晶速度會限制神經元被激發的最大速率。
另外,在每次潛在的激發事件後,需要熔化材料以誘導完全神經元復位,這將迅速消耗材料雖然很大但有限的開關耐用性。
傳統的 DNN 已經發展壯大,現在的 DNN 通常包含數千個神經元和數百萬突觸。但光學網絡需要相隔很遠的波導,以防止耦合,並且避免急劇彎曲以防光離開波導。因為交叉兩個波導可能將不想要的功率注入錯誤路徑,因此光子晶片的 2D 特性呈現出實質性的設計限制。
實現光學網絡除了需要很長的距離和很大的面積外,每個光子結構關鍵部件的製造也要求非常精確。因為波導和耦合區域(例如,在每個微環諧振器的入口和出口處)必須有精確的維度來達到預期的性能。
小型微環共振器的製造也有限制。最後,調製技術提供的相對較弱的光學效果需要很長的交互區域,以使它們對通過的光的有限影響達到顯著水平。
Feldmann 及其同事在研究中所取得的進步,有望推動該領域的未來發展。開發容易獲得的寬帶片上增益將大有裨益,支持對每片光學編碼數據進行獨立和任意操作、而無需大面積光子晶片的技術也同樣如此。
如果提供高能效的可擴展光子神經加速器最終出現,Feldmann 等人和該領域其他人的研究將會成為該項技術的開山之作。
論文:All-optical spiking neurosynaptic networks with self-learning capabilities
論文地址:https://www.nature.com/articles/s41586-019-1157-8
類腦運算中的軟體實現是語音識別等諸多重要計算任務以及人工智慧和深度學習應用的基礎。然而不同於真正的神經組織,傳統計算架構物理分隔了內存和處理的核心計算功能,導致很難實現快速、高效和低能耗計算。為了克服這些限制,設計能夠模擬神經元和突觸的硬體不失為一種好方案。當在神經網絡或神經形態系統中連接時,這種硬體像大腦一樣處理信息。
在本篇論文中,作者提出一種全光學神經突觸系統,能夠實現監督和無監督學習。他們利用波分復用技術實現了光子神經網絡的可擴展迴路架構,成功展示了在光學領域的模式識別。這種光子神經突觸網絡有望獲得光學系統固有的高速和高帶寬,從而能夠直接處理光通信和視覺數據。
圖 1:本論文中的全光學脈衝神經元迴路。a, b:本研究實現的神經網絡原理圖,包括幾個突觸前輸入神經元和一個突觸後輸出神經元,二者通過 PCM 突觸連接。輸入脈衝使用 PCM 單元加權,利用一個 WDM 多路轉換器(MUX)進行綜合。如果突觸後脈衝的綜合功率超過一定的閾值,環形諧振器上的 PCM 單元就會轉換,輸出脈衝就會產生(神經元脈衝)。c:帶有符號塊的集成光學神經元的光子迴路圖,其中幾個符號塊可以使用波長輸入和輸出連接到更大的網絡(見圖 5)。d:三組神經元(B1、D1、D2)的光學顯微照片,有四個輸入埠。左邊的四個小環形諧振器用於將不同波長的光從輸入端耦合到單個波導上,然後在與大環形的交點處形成 PCM 單元。底部的三角形結構是光柵耦合器,用於將光耦合到晶片上和晶片外。
圖 2:人工神經元的脈衝產生和操作。a:一種相變神經元迴路的光子實現原理圖。b:用電子顯微掃描環形諧振器以實現激活函數;c:該器件在 b 中的歸一化傳輸測量(除以測量的最大傳輸值)及其對脈衝能量的依賴。d:歸一化傳輸到固定波長輸出(c 中虛線),顯示用於定義神經元觸發閾值的激活函數。
圖 3:利用相變全光學神經元進行監督學習和無監督學習。a 和 b 表示兩個神經元在不同輸入模式下的輸出;C:全光學神經元的無監督學習機制;d:重複顯示「0110」模式時四個突觸的權重隨時間的變化。
圖 4:全光學神經網絡的可擴展架構。a:整個神經網絡包含一個輸入層、一個輸出層和幾個隱藏層。b:神經網絡中一個單層結構的光子實現。
圖 5:單層脈衝神經網絡的實驗實現。a:該裝置由四個光子神經元組成,每個神經元有 15 個突觸。b:輸出脈衝強度的變化顯示在右側所示的四種訓練模式中。
參考連結:https://www.nature.com/articles/d41586-019-01406-0