深度光學和人工智慧推理應用,實現高速高帶寬低功耗AI計算

2020-12-11 電子發燒友

深度光學和人工智慧推理應用,實現高速高帶寬低功耗AI計算

Gordon Wetzstein等 發表於 2020-12-10 14:43:33

相比於電子計算,光計算具有高速、高帶寬、低功耗的優勢,但目前光計算還不夠成熟,只在某些特定領域得到了非常有限的應用。近日,Nature 上一篇 Perspective 文章剖析了深度光學和深度光子學的人工智慧推理應用,展示了該領域(尤其是光 - 電混合系統)的發展潛力。

 

為了高速且低功耗地執行各種應用中的人工智慧任務,我們需要加速器。光計算系統也許能夠滿足這些領域特定的需求,但即便已經歷半個世紀的研究,通用型光計算系統仍還未發展成一項成熟的實用技術。但是,人工智慧推理(尤其是用於視覺計算應用的推理)也許能為基於光學和光子學系統的推理提供機會。

本文將回顧用於人工智慧的光學計算的近期研究成果並探討其潛力和挑戰。

計算系統的能力正與它們試圖理解的飛速增長的視覺數據進行軍備競賽。在自動駕駛、機器人視覺、智能家居、遙感、顯微技術、監控、國防和物聯網等多種應用中,計算成像系統都會記錄和處理前所未有的巨量數據。對這些數據的解讀不可能由人類完成,而是要使用基於人工智慧(AI)構建的算法。

在這些應用之中,深度神經網絡(DNN)正快速發展成為視覺數據處理的標準算法方法。這主要是因為 DNN 在許多基準上都取得了當前最佳的結果,而且往往超出其它方法一大截。深度學習近來的這些突破性進展主要得益於現代圖形處理單元(GPU)的強大處理能力和並行計算能力以及大規模視覺數據集的可用性,這些進展讓 DNN 可以高效地使用監督式機器學習策略執行訓練。

但是,高端 GPU 和其它運行日趨複雜的神經網絡的加速器的功耗和帶寬需求非常高,它們需要大量處理時間而且具有尺寸龐大的外形。這些限制讓人難以在邊緣設備中使用 DNN,比如相機、自動化載具、機器人或物聯網外圍設備。以自動汽車中的視覺系統為例,其必須要能使用有限的計算資源實時地做出穩定可靠的決策。當汽車在高速行駛時,瞬間的決策關乎人的生死。事實上,如果計算成像系統能做到更精簡,那麼幾乎所有邊緣設備都能從中受益,這能帶來更低的延遲以及尺寸、重量和功耗方面的改進。

DNN 一般都包含訓練和推理兩個階段,這兩個階段的計算需求差異很大。在訓練階段,會向 DNN 輸入大量有標註的樣本,然後針對某個特定任務,使用迭代方法優化該 DNN 的參數。訓練完成後,可使用該 DNN 來執行推理:以前向通過的方式向該網絡輸入一個數據(比如一張圖像),經過該網絡處理後計算得到所需結果。雖然某些應用也會使用 GPU 來執行推理,但對許多邊緣設備而言,由於前述原因,使用 GPU 並不現實。

儘管電子 AI 加速器很靈活,但光神經網絡(ONN)和光子迴路可能為該應用與其它機器學習應用帶來一次範式轉換。光計算系統有望實現大規模的並行計算,同時設備尺寸還更小,而且在某些實現中的功耗非常低。事實上,在計算系統中使用光來實現通信的光互連(optical interconnect)技術已經在現如今的數據中心中得到了廣泛應用,而且在計算系統更深處越來越多地使用光互連可能是持續擴展的關鍵。

不同於電互連技術,隨著光學、光電和電子設備的更深度整合,光互連有望為通信的帶寬密度和單位比特的能量消耗帶來幾個數量級的提升和改善。這種改進過的互連技術能實現電 - 光混合 DNN,而且這種低功耗、高並行的集成技術還可用作模擬光處理器的部件。

儘管光計算機潛力巨大而且也已歷經約半個世紀的研究,但通用型光計算仍還不是一項成熟的實用技術。但是,推理任務(尤其是用於視覺計算應用的推理任務)已可使用全光學或光 - 電混合系統來很好地實現。舉個例子,線性光學元件可以近乎「免費」地計算卷積、傅立葉變換、隨機投影和許多其它運算,因為這些運算可作為光與物質交互或光傳播的副產物。這些運算是 DNN 架構的基本構建模塊,驅動著大多數現代視覺計算算法。我們有望以光速執行這些運算,同時功耗需求很低乃至沒有。本文認為這具有變革性的潛力。

回顧光計算的歷史

下圖 1 展示了人工智慧及相關光學和光子學實現的時間軸。其中展示了一些經過挑選的裡程碑和論文,並重點關注了近期進展。

以具體年份計則如下所示:

1949 年,Donald O. Hebb 發表《行為的組織(The Organization of Behavior)》一書

1957 年,Frank Rosenblatt 提出感知器

1960 年,Widrow & Hoff 提出自適應開關電路

1964 年,Lugt 提出光學相關性(Optical correlation)

1982 年,John Hopfield 提出 Hopfield 網絡;Kohonen 提出自組織特徵圖

1984 年,Goodman et al. 發表論文《用於超大規模集成電路系統的光互連(Optical interconnections for VLSI systems)》

1985 年,Farhat et al. 發表論文《Hopfield 模型的光學實現(Optical implementation of the Hopfield model)》

1986 年,Rumelhart et al. 提出使用反向傳播的多層感知器

2006 年,Hinton & Salakhutdinov 提出深度自編碼器

2012 年,Krizhevksy et al. 提出深度 CNN

2017 年,Shen et al. 提出使用納米光子電路的深度學習;Tait et al. 提出神經形態光子網絡

2018 年,Chang et al. 提出光 CNN;Lin et al. 提出全光衍射神經網絡

2019 年,Feldman et al. 提出高帶寬光子神經突觸網絡

用於人工智慧的光子迴路

現代 DNN 架構是級聯的線性層後面跟著非線性激活函數,而且這會重複很多次。最一般形式的線性層是全連接層。在這種情況下,每個輸出神經元都是所有輸入神經元的加權和。從數學上看,這可以表示成一種矩陣 - 向量乘法,從而可以有效地使用光學技術實現。也就是說我們可以使用光子迴路來執行人工智慧的相關計算。不過相關技術還面臨著可編程性等有待解決的問題。

使用自由空間、透鏡和複雜介質進行計算

還有一種可替代光子迴路的選擇:在自由空間或某種介質中傳播的光場上直接構建計算能力。(見下圖 2)從數學上講,在自由空間中傳播的波可用基爾霍夫衍射積分(Kirchhoff’s diffraction integral)來描述,這相當於讓該場與一個固定的核(kernel)執行卷積。該運算又是卷積神經網絡(CNN)的一大基本構建模塊,而 CNN 又是最常用的視覺計算框架。

圖 2:光波傳播概況。如圖所示,上面一行展示了波在自由空間和不同介質中的傳播,下面一行是相應的線性矩陣運算。其中 a 是波穿過自由空間的情況,其在數學上被描述成波場與一個復值核的卷積。b-g 則使用了不同的介質,它們也因此有各自不同的矩陣。

使用深度計算光學和成像來執行推理

計算成像領域研究的是光學和圖像處理的聯合設計,這可用於增強計算式相機(computational camera)能力等應用。將相機解釋成編碼器 - 解碼器系統會很有幫助。因此,我們可以從整體角度將相機設計問題看作是光學和成像處理的端到端優化問題。因此可以針對經由損失函數和訓練數據集定義的特定任務對物理透鏡和深度神經網絡進行聯合優化。(見下圖 3)

圖 3:光學編碼器 - 電子解碼器系統示意圖。其中傳感器充當瓶頸,在角度、波長譜、曝光時間、相位和其它入射光指標上進行積分。自由曲面透鏡或定製傳感器電子設備能以離線方式針對特定任務進行優化,然後經過生產加工後用於從光學和電子方面記錄圖像編碼。然後可以使用神經網絡或其它可微分的圖像處理算法來從觀測結果提取所需的信息。這些編碼器和解碼器一起可共同組成一個混合式的光 - 電神經網絡。

我們也可以將光學操作的原理解讀為一種形式的計算,即與處理數據記錄的電子平臺一起工作的預處理器或協處理器。基於這一解讀,我們可以讓光學組件做儘可能多的工作,進而優化計算成像系統的延遲和功耗需求。

顯微鏡應用

光學顯微鏡也是深度學習方法已經取得重大影響的一個領域,其涵蓋多種模態,包括相干成像以及明視野顯微鏡和螢光顯微鏡。解決顯微圖像重建和增強的反向問題已經是一項持續數十年的熱門研究課題,之前方法的一大關鍵是建立成像系統的前向模型。基於深度學習的數據驅動方法是解決光學顯微鏡反向問題的另一條途徑。

圖 4:深度光學和光子學應用示例 I。a. 光學圖像分類;b. 混合光電圖像分類;c. 使用偽隨機投影的圖像分類;d. 虛擬染色;e. 虛擬重新聚焦。

圖 5:深度光學和光子學應用示例 I。a. 單像素相機;b. 用於視頻超解析度的神經傳感器;c. 納米光子迴路;d. 光子集成電路;e. 光學幹涉儀;f. 逆向設計的非均勻介質。

展望未來

文章認為,混合光 - 電計算系統是這一領域最有發展前景的方向。混合系統既具備光計算的帶寬和速度優勢,又具備電計算的靈活性,而且還能利用模擬和數字光學 / 光電 / 電子系統的高能效技術基礎。混合光 - 電推理機器能將 AI 推理用於計算機視覺、機器人學、顯微和其它視覺計算任務,進而實現光學計算機早該具有的變革性能力。

責任編輯:PSY

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • Nature:將光計算與AI推理整合,實現高速高帶寬低功耗AI計算
    ,光計算具有高速、高帶寬、低功耗的優勢,但目前光計算還不夠成熟,只在某些特定領域得到了非常有限的應用。近日,Nature 上一篇 Perspective 文章剖析了深度光學和深度光子學的人工智慧推理應用,展示了該領域(尤其是光 - 電混合系統)的發展潛力。
  • 光子晶片研究進展及展望:面向未來的計算系統,光計算具有天然優勢
    2019年,美國普林斯頓大學普魯尼(Prucnal)等人撰文指出人工智慧大數據時代對算力的需求每三個半月翻一番,遠超摩爾定律所預測的算力供給量,即每18~24個月翻一番。同年,美國國防部高級研究計劃局(DARPA)啟動「未來計算系統」項目,目的是研究基於知識/推理的引擎,具備深度學習能力、高算力和低功耗的集成光子晶片。
  • 為人工智慧、機器學習和深度學習做好準備的數據中心實踐
    人工智慧、機器學習、深度學習應用的強烈需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是當架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。GPU(圖形處理單元)伺服器如今很常見,圍繞GPU計算的生態系統正在迅速發展,以提高GPU工作負載的效率和可擴展性。然而在避免存儲和網絡中潛在的瓶頸的同時,也有一些技巧可以很大限度地提高GPU的利用率。
  • 人工智慧推理晶片最佳使用場景:邊緣應用
    據報導,Flex Logix InferX X1晶片特別適用於網關和低端邊緣伺服器,它們不需要高端數據中心晶片的原始性能,但可以利用更多的吞吐量進行AI推理。據該公司稱,該晶片在小批量產品上具有接近數據中心推理晶片的性能,並且只需一個DRAM即可在邊緣計算應用中提供高吞吐量,同時保持系統功耗和成本。Flex Logix執行長Geoff Tate表示,InferX X1主要基於低DRAM帶寬,每瓦吞吐量提高四倍,每美元吞吐量提高三倍,因為Nvidia的Tesla T4是高端數據中心伺服器的黃金標準。
  • AI vs 深度學習 vs 機器學習:人工智慧的 12 大應用場景
    來源:dzone.com作者:Ajit Jaokar編譯:劉小芹【新智元導讀】在本文中,作者先探討了深度學習的特點和優勢,然後介紹了12種類型的AI問題,即:在哪些場景下應該使用人工智慧(AI)?作者強調企業AI問題,因為他認為AI會影響許多主流的應用。首先,讓我們探討深度學習是什麼。深度學習是指由許多層組成的人工神經網絡。「深」是指層數多。相比深度學習,其他的許多機器學習算法是淺的,例如 SVM,因為它們沒有多層的深架構。多層的架構允許後面的計算建立在前面的計算之上。
  • 人工智慧、機器學習和深度學習做好準備的數據中心
    人工智慧、機器學習、深度學習應用程式的密集需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是在IT架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet分享了9個為人工智慧、機器學習和深度學習準備數據中心的最佳實踐。
  • 模擬內存計算如何解決邊緣AI推理的功耗挑戰
    機器學習和深度學習已經成為我們生活中不可或缺的一部分。通過自然語言處理(NLP)、圖像分類和對象檢測的人工智慧(AI)應用已經深入到我們許多設備中。大多數人工智慧應用程式都是通過基於雲的引擎提供服務,這些引擎可以很好地為它們的用途提供基礎支持,比如在Gmail中輸入電子郵件回復時獲得單詞預測。
  • 含金量最高的免費人工智慧課程!
    他創辦了Deeplearning.ai,旨在繼續提供深度學習方面的服務。近期,Deeplearning.ai與Coursera合作帶來了一系列深度學習在線課程。因為該在線課程的開通,史丹福大學教授承諾的的三個項目也總算完成了一個。關於Deeplearning.ai,百度詞條只有兩句話:作為人工智慧和深度學習領域最權威的國際專家之一,吳恩達也算是在自己的老本行裡打拼了。
  • 人工智慧發展趨勢大起底,你對人工智慧有什麼看法呢?
    說到通用型服務,我想在座各位一定聽說過「雲計算」,「iaas」、「paas」,它們都是基於某種服務,ai更是被認為有可能拓展雲計算的可能性。那什麼服務可以擴展數據傳輸通道,並且以更小的帶寬和更小的網絡容量提供ai能力?可以把ai想像成這樣的一個服務,可以從一個數據集分布的前端進入,再由後端收集處理數據,整個過程下來,可以做到多樣化、快速、無縫。
  • 智算中心融合算力、數據和算法,全面支撐AI技術應用和演進
    智能計算中心是符合中國當前社會經濟發展階段和轉型需求,促進AI產業化和產業AI化的重要引擎,現階段智能計算中心的建設目標和內涵主要包括:  新型算力公共基礎設施,通過提供共性的算力、數據及算法服務,讓算力服務更易用,使得智慧計算像水電一樣成為基本公共服務;技術領先、生態成熟,採用先進的人工智慧晶片,面向新型的人工智慧場景,基於AI模型,形成技術領先、生態成熟可持續迭代升級的智能計算平臺
  • 斯坦福深度學習訓練及推理榜單:華為雲拿下雙料冠軍
    日前,史丹福大學發布最新的DAWNBench榜單,華為雲ModelArts一站式AI開發平臺,獲得圖像識別訓練和推理性能雙料冠軍,將模型訓練時間大幅縮減的同時實現了超強推理性能,體現了其在全球深度學習平臺技術的領先性。
  • 英特爾Trish Damkroger:異構性將是加速高性能計算和AI融合關鍵
    日益豐富的人工智慧使用場景,將我們推向計算智能進一步強化的新時代,模式的變革推動著人工智慧和高性能計算工作負載的融合。現如今,我們看到,這一融合以多種方式發生在各行各業,其主要目標便是實現人工智慧——加速傳統上完全由高性能計算完成的洞察。
  • 研究:用於光學神經網絡的高速光學卷積加速器
    它們在機器學習任務中應用廣泛,例如計算機視覺,語音識別,玩棋盤遊戲和醫療診斷等。光學神經網絡能夠利用可用的寬光學帶寬極大地提高計算速度。這種方法可擴展和訓練到更複雜的網絡,以應對諸如自動駕駛汽車和實時視頻識別之類的高要求應用。
  • 深度解讀新一代高性能計算整體解決方案
    近日,紫光股份旗下新華三集團在西安舉辦「2020智行中國智慧計算HPC客戶沙龍」,深度解讀新一代高性能計算整體解決方案、高算異構加速方案和高算存儲解決方案,為技術變革提供有效助力。 得益於在數字基礎設施方面的強大優勢,新華三集團可以提供H3C UniServer B16000刀片系統、H3C UniServer R5500 G5伺服器等多種形式的混合負載,同時支持GPU、NPU、FPGA等多種形式的計算資源,為高性能計算的實踐打下堅實的硬體基礎。 在網絡方面,通過對多種高速網絡協議的支持,新華三高性能計算解決方案實現系統的高速互聯,進一步加速集群建設。
  • 一文看全:全球99家AI晶片公司全景圖,中國正在崛起
    視覺處理單元包含並行性、指令集體系結構和微體系結構特性,在一系列計算成像和計算機視覺應用程式(包括延遲要求低到毫秒級的應用程式)中提供高度可持續的性能效率。 MyriadX是第一個以神經計算引擎為特徵的VPU,這是一個用於在設備上運行深度神經網絡應用程式的專用硬體加速器。
  • 打開人工智慧黑箱:看最新16篇可解釋深度學習文章,帶您了解增強AI透明性
    而可解釋性AI在關於人類的很多應用方面是必需的,如醫療診斷、教育學習、政府決策等等。最近,關於深度學習的可解釋性,學者們做了大量的研究工作,專知整理關於深度學習可解釋性的最新一些文章,希望能給讀者提供一些參考和幫助。
  • 技術回顧 ▏深度學習在機器視覺中有哪些典型的應用?
    圖像採集卡和(嵌入式)視覺設備上所使用的 FPGA 技術,令神經網絡應用於工業級應用成為可能,這需要強大的實時處理能力、低延遲(實時在線檢測)、高數據吞吐量、高帶寬和低功耗低發熱(嵌入式視覺應用),以及高解析度。
  • 師說 | 2019年AI晶片產業深度研究報告
    深度學習算法對晶片性能需求主要表現在三個方面:一、海量數據在計算和存儲單元之間的高速通信需求。這不但需要晶片具備強大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬。二、專用計算能力需求高。
  • 燧原科技進軍AI邊緣領域,攜手浪潮推出邊緣AI推理伺服器
    標誌燧原科技業務向AI邊緣推理的拓展。該伺服器可根據客戶需求支持2-4張雲燧i10,為邊緣AI推理應用如自動駕駛、智慧交通、ETC識別、精密儀器預測性維護、AI工業質檢等場景提供強大算力支持。雲燧i10實現多用戶支持,最大可支持4個設備實例,具備計算與存儲資源的獨享性,多用戶間安全隔離;單顆晶片上可同時部署不同的業務與負載,實現多任務並行,提高利用率;支持KVM、Xen等系統虛擬化平臺。 浪潮邊緣計算伺服器NE5260M5高度2U,深度只有430毫米,可部署在通信機房或直接懸掛在牆壁上。
  • 人們熟知的人工智慧AI到底是什麼東西?
    通用型人工智慧是ai領域研究的主要目標之一,其主要包括:計算機視覺、計算機語言理解和知識表示幾個子領域,它所規定和指導的ai手段正是符號邏輯和語義邏輯等基礎邏輯。由於其基礎邏輯更加容易被人們理解,所以通用人工智慧的發展可以解決實際應用中計算機視覺等方面的具體問題,也可以解決知識表示等方面的問題。2017年國內機器人技術創新成果獎3月底頒獎典禮上,華為雲通用人工智慧產mace11也獲得了該獎項。此次獲獎的成果顯示,華為雲通用人工智慧產mace11是ai創新應用載體,基於雲端,具有極強的多領域適用性和普惠性。