硬剛無限寬神經網絡後,谷歌大腦有了12個新發現

2020-12-19 AI 科技評論

作者 | 青暮、陳大鑫

編輯 | 陳彩嫻

各位煉丹師平時「煉丹」時最多跑過多深的神經網絡呢?152層,256層,還是更多層?

那各位跑過最寬的神經網絡又有多寬呢?可能一層撐死有10個或20個神經元?

對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。

也許會有人說相比寬度而言,神經網絡更需要深度來支持表達性,從一些經典神經網絡的發展歷程即可看出。但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。作者聲稱,他們在該研究中解決了與無限寬神經網絡研究相關的各種開放性問題。

該項目負責人Jascha Sohl-Dickstein在Twitter上介紹了這項研究,得到了廣泛關注。他表示,這項研究包含了關於無限寬網絡的所有方面。一般而言,人們並沒有足夠的計算能力去探索無限寬神經網絡,但顯然,谷歌並不擔心這個問題。

該研究得出了十二項實驗結論,包括(NTK:神經正切核、NNGP:神經網絡高斯過程):

1、NNGP/NTK的性能優於有限寬網絡。

2、NNGP通常優於NTK。

3、中心化的和集成的有限寬網絡的性能會變得更接近核方法。

4、大學習速率和L2正則化會導致有限寬網絡和核方法之間的差異。

5、使用標準參數化可以改善網絡的L2正則化。

6、性能與網絡寬度的關係是非單調的,並且不同於雙下降現象。

7、對角線正則化核函數的作用類似於early stopping。

8、浮點精度限制了超過臨界數據集大小的核方法性能。

9、線性化的CNN-GAP模型由於條件差而表現不佳。

10、正則化的ZCA白化提高了準確率。

11、等變性僅對核機制之外的窄網絡有益。

12、集成核預測變量有助於NNGP / NTK數據增強。

該實驗進一步啟發了一種應用於權值衰減的改進的層級縮放方法,從而提高了有限寬網絡的泛化能力。最後,作者開發了使用NNGP和NT核進行預測的改進最佳實踐,包括一種新的組裝技術。通過這些最佳實踐,作者實現了CIFAR-10分類的SOTA結果,這些核對應於其考慮的每個架構類。

當中間層無限寬時,很大一類貝葉斯網絡和以梯度下降訓練的神經網絡最後都會收斂到高斯過程(GPs)或與其密切相關的核方法。

這些無限寬網絡的預測由貝葉斯網絡的神經網絡高斯過程(NNGP)核方法進行描述,以及由以梯度下降訓練的神經網絡的神經正切核(NTK)和權值空間線性化進行描述。

這種對應關係是理解神經網絡的關鍵。它還使核方法、貝葉斯深度學習、主動學習和半監督學習等領域取得了實際進展。

NNGP、NTK和相關的大寬度限制對於精確描述大規模神經網絡的理論有獨特作用。正因為如此,作者相信它們將繼續在深度學習理論中發揮變革作用。

無限寬網絡是一個新的活躍領域,基本的經驗問題仍然沒有答案。在這項工作中,作者對有限寬和無限寬的神經網絡進行了廣泛而深入的實證研究。該研究定量地探索了驅動有限寬網絡和核方法的性能變化的因素,揭示了令人驚喜的新發現,並開發了提高有限寬和無限寬網絡性能的最佳實踐。作者表示,該研究成果將為未來的寬網絡研究奠定基礎。

1

實驗結果

1、NNGP/NTK的性能優於有限寬網絡

無限寬神經網絡高斯過程(NNGP)和神經正切核(NTK)預測可以優於有限網絡,這取決於架構和訓練設置。對於全連接網絡,無限寬網絡可靠地優於有限網絡。

研究無限寬網絡的一個常見假設是,它們在大數據中的表現不及相應的有限網絡。作者通過將核方法與學習率較低且沒有正則化訓練的有限寬度架構進行比較,仔細檢驗了這一假設。然後逐一利用較大的學習率、L2正則化和集合方法,來檢驗無限寬網絡與核方法的相對性能變化。實驗結果總結在圖1中。

首先關注基礎的有限寬網絡,作者觀察到無限FCN和CNN-VEC優於各自對應的有限寬網絡。另一方面,無限寬CNN-GAP網絡的性能要比其有限寬的差。作者強調架構在相對性能中起著關鍵作用。例如,即使與各種技巧(例如大學習率、L2正則化和欠擬合)結合使用,無限FCN也會勝過有限寬網絡。僅在使用集合方法之後,性能才變得相似。

一個有趣的發現是,ZCA正則化預處理可以對CNN-GAP核進行重大改進,將差距縮小到1-2%之內。

圖1:有限寬和無限寬網絡的CIFAR-10測試準確率變化。

2、NNGP通常優於NTK

NNGP(對應於無限寬貝葉斯網絡)通常優於NTK(對應於由梯度下降訓練的無限寬網絡)。

最近對無限寬度網絡的評估已將重點放在NTK上,而沒有與對應的NNGP模型進行顯式比較。結合將NNGP視為「弱訓練」 (即僅學習了最後一層)的觀點,人們可能希望NTK比NNGP更有效。

相反,我們通常會觀察到NNGP推理可以實現更好的性能。通過NNGP在所有架構中都可以達到固定核之間的SOTA性能。圖2表明該趨勢在CIFAR-10、CIFAR-100和Fashion-MNIST上仍然存在。

除了生成更強大的模型外,NNGP核還需要大約一半的內存作為相應的NTK進行計算,並且某些性能最高的核根本沒有關聯的NTK。這些結果共同表明,在試圖最大化性能時,研究人員應從NNGP開始。

圖2:仔細調整對角正則化條件時,NNGP在圖像分類任務中通常勝過NTK。

3、中心化的和集成的有限寬網絡的性能會變得更接近核方法

有限寬度網絡的中心化和集合都會帶來更接近核方法的性能。中心化訓練可以加快訓練速度。

可以通過將模型中心化(centering)來減少預測方差,即減去模型的初始預測。圖3觀察到中心化顯著加快了FCN和CNN-VEC模型的訓練速度,並提高了泛化能力,但對CNN-GAP架構幾乎沒有影響。作者觀察到,在給定更多數據的情況下,在無限寬核中,CNN-GAP的規模後驗方差相對於先驗方差較小,與中心化和集合方法一致,效果不大。

圖3:中心化可以加快訓練速度並提高表現。整個訓練過程中的驗證準確率適用於幾種有限寬的架構。

4、大學習速率和L2正則化會導致有限寬網絡和核方法之間的差異

大學習率和L2正則化都會導致有限網絡和核方法之間的差異,並導致有限寬度網絡表現得更好。大學習率和L2正則化的組合效應是超線性的。

圖1:有限寬和無限寬網絡的CIFAR-10測試準確率變化。

5、L2正則化對於NTK參數化網絡的效果更好

與標準參數化網絡相比,L2正則化對於NTK參數化網絡的效果出乎意料地好。作者用匹配層級L2正則化係數對其進行仿真,從而在標準參數化網絡(即典型網絡)中實現更好的泛化。

圖5:NTK驅動的層級縮放使L2正則化在標準參數化網絡中更有幫助。

6、泛化性能與網絡寬度的關係非單調,並且不同於雙下降

某些有限寬網絡(尤其是不帶池化的CNN網絡)的泛化性能對於寬度是非單調的,這是用雙下降現象無法解釋的。

人們在研究深度學習時反覆發現,增加模型中參數的數量可以提高性能。儘管這種現象與從貝葉斯角度的關於泛化的觀點是一致的,但與經典泛化理論(主要考慮最壞情況的過擬合)似乎不一致。這導致人們做了關於超參數化和泛化的相互作用的大量工作。特別令人關注的是雙重下降現象。

根據經驗,作者發現在大多數情況下(兩種參數化中的FCN和CNN-GAP,帶有標準參數化的CNN-VEC),增加寬度都會導致性能的單調提高。但是,在特定的相對簡單的設置中,作者還發現了對寬度的更複雜的依賴性。例如,在圖6中,對於具有NTK參數化的CNN-VEC,性能不是單調依賴於寬度,並且最佳寬度是一個中間值。這種非單調性不同於類雙重下降現象,因為所有寬度都對應於超參數化模型 。

圖6:隨著寬度的增加,有限寬網絡通常表現得更好,但是CNN-VEC顯示出驚人的非單調行為。L2:訓練期間允許非零權重衰減 ,LR:允許大學習率。虛線表示允許欠擬合(U)。

7、對角線正則化核函數的作用類似於early stopping

在進行核推理時,通常在訓練核矩陣中添加一個對角正則化器。

對於線性回歸,Ali等人證明了梯度流下核正則化器的逆與early stopping的時間有關。對於核函數,梯度流動力學直接對應於廣義神經網絡的訓練。

作者在圖7中實驗性地探索了early stopping、核正則化和泛化之間的關係,觀察到了正則化和early stopping之間的密切關係,並發現在大多數情況下,最好的驗證性能發生在early stopping和非零ε。

圖7:對角核正則化的作用類似於 early stopping。實線對應於具有可變對角線正則化ε的NTK推斷。虛線對應於梯度下降演化到特定時間後的預測。線顏色表示不同的訓練集大小m。在時間t執行早期停止與係數ε的正則化密切相關,其中K=10表示輸出類別的數量。

8、浮點精度限制了超過臨界數據集大小的內核性能

作者從經驗上觀察到,在一個關鍵的數據集大小下,內核對float32和float64的數值精度變得敏感。例如,GAP模型在數據集大小為10^4時會遇到float32數值精度錯誤。

圖8:無限網絡核的尾部特徵值顯示冪律衰減。紅色虛線表示寬度增大的核矩陣由於浮點精度而在特徵值中預測的噪聲比例。CNN-GAP結構的特徵值衰減很快,當數據集大小為O(10^4)時,可能會被float32量化噪聲所淹沒。對於float64精度,在數據集大小為O(10^10)之前,量化噪聲不會變得顯著。

這種現象可以用一個簡單的隨機噪聲模型來理解。關鍵是特徵值衰減快的核會受到浮點噪聲的影響。經驗上,NNGP/NTK的尾部特徵值遵循冪律(見圖8),測量其衰減趨勢可以很好地指示關鍵數據集大小。

9、線性化的CNN-GAP模型由於條件差而表現不佳

作者觀察到線性化的CNN-GAP在訓練集上收斂極慢,導致驗證性能不佳(圖3)。即使在L2正則化強度和學習率發生變化時,訓練10M以上的步數,最佳訓練精度仍低於90%,測試精度為70%——比相應的無限和非線性有限寬度網絡都差。

這是由池化網絡條件不佳造成的,CNN-GAP網絡在初始化時的調節比FCN或CNN-VEC網絡差一倍(CIFAR-10為1024)。

在圖8中可以看到核特徵譜的這種不良條件。對於線性化網絡,除了將訓練速度減慢1024倍外,使用float32還會導致數值不穩定。

10、正則化的ZCA白化提高了準確率

ZCA白化是一種數據預處理技術:

最近有研究者證明在一些核方法中它結合分母中的一個小正則化參數可以顯著提高精度。

作者研究了ZCA白化作為有限寬度和無限寬度神經網絡的預處理步驟的效用,通過調整正則化參數,輸入圖像的正則化ZCA白化提高了驚人的模型精度,特別是對於無限寬NNGP和NTK預測:

圖9:正規化ZCA白化改善了有限寬度和無限寬度網絡的圖像分類性能。所有曲線均顯示性能是ZCA正則強度的函數。(a)對CIFAR-10,Fashion-MNIST和CIFAR-100上的內核方法的輸入進行ZCA白化。(b)對有限寬度網絡的輸入進行ZCA白化(圖S11中的訓練曲線)。

11、等變性僅對核機制之外的窄網絡有益

等變性是一種常用的激發CNN強大性能的方法,作者證明了等變性只對遠離核區域的窄網絡有益。

圖10:等變性僅在核機制之外的CNN模型中使用。如果CNN模型能夠有效利用等變性,則我們希望它比FCN(全卷積網絡)對裁剪和翻譯的魯棒性更高。出人意料的是,寬輸入CNN-VEC的性能隨輸入擾動幅度的下降速度與FCN一樣快,這表明等變性未被利用。相反,具有權重衰減的窄模型(CNN-VEC + L2 + narrow)的性能下降得慢得多。如預期一樣,翻譯不變的CNNGAP仍然是最可靠的。

12、集成核預測變量有助於NNGP / NTK數據增強

最後,作者提出了一種簡單的方法,用於對NNGP和NTK模型的預測進行集成,以在無限寬度網絡中實現數據增強。(否則,由於核方法對數據集大小的立方依賴,數據增強是不可行的)

圖11:集成內核預測變量使從大型增強數據集進行的預測易於計算。

表1:相應架構類型內核的CIFAR-10測試準確率。

2

論文信息

論文連結:https://arxiv.org/abs/2007.15801v1

想知道谷歌大腦是如何設置和訓練無限寬神經網絡的嗎?谷歌大腦已經開源了該項目,感興趣的同學可以去試試。

項目地址:https://github.com/google/neural-tangents

第一作者:Jaehoon Lee。

Jaehoon目前是谷歌大腦團隊的一員。加入谷歌之前,他已經接受過理論物理學的訓練。他是溫哥華UBC弦理論小組的博士後研究員。在此之前,他在麻省理工學院獲得博士學位,在理論物理中心工作,致力於相互作用的量子場論。目前,他的研究興趣是通過物理學的啟發來增強對深度學習的理解。

谷歌主頁:https://research.google/people/JaehoonLee/

相關焦點

  • 谷歌用算力爆了一篇論文,解答有關無限寬度網絡的一切
    選自arXiv作者:Jaehoon Lee等編輯:Panda無限寬度神經網絡是近來一個重要的研究課題,但要通過實證實驗來探索它們的性質,必需大規模的計算能力才行。近日,谷歌大腦公布的一篇論文介紹了他們在有限和無限神經網絡方面的系統性探索成果。該研究通過大規模對比實驗得到了 12 條重要的實驗結論並在此過程中找到了一些新的改進方法。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    谷歌翻譯後的日文儘管有點小小的不自然,但是,讀起來感覺更加易懂(transparent)。接著,博文的第二部分從另一個方向(日文到英文)檢查了谷歌翻譯。他把自己翻譯的海明威《吉力馬札羅的雪》的開頭輸入進去,讓谷歌翻譯成英文。結果發現翻譯的準確度難以置信。Rekimoto 將自己的發現放在了 Twitter 上,幾個小時後,數以千計的人也貼出了自己的實驗結果。
  • 谷歌MorphNet:讓你的神經網絡更小但更快
    考慮到架構可能需要巨大的搜索空間,從頭開始為特定的應用程式設計一個網絡在計算資源和時間方面花銷可能非常大。神經網絡架構搜索和 AdaNet 等方法利用機器學習來搜索設計空間,以便找到改進架構的方法。另一種選擇是將現有的體系結構用於類似的問題,並一次性為手頭的任務進行優化。正對這個問題,谷歌 AI 發布了一篇博文討論了 MorphNet。
  • 反之亦然,科學家開始用深度神經網絡解釋人類大腦
    其實人類可以輕鬆做到這些的,但對於機器來說,這是個艱難的任務。而丹尼爾預想中的解決方案模仿自生物大腦,而這就是深度神經網絡。丹尼爾後來在採訪中說:「我非常清楚地記得,當我們找到一個真正可以用於解決難題的神經網絡的時候是凌晨兩點,因為不忍叫醒同事,我一個人獨自在劍橋的寒風中走來走去。」
  • 宇宙尺度的超級大腦?大腦神經網絡與宇宙網結構驚人相似
    對於天文愛好者來說,這種比較可能並不鮮見,或許你已經對關於大腦神經與模擬星系網之間圖片對比的驚人相似印象深刻,但表象上的相似是否與內在機制的相似存在關聯,還是未解之謎。從量級方面,人類大腦約有690億個神經元,而現已觀察到的宇宙含有超過1000億個星系,兩種結構在量級上總相差約27個數量級。儘管驅使兩種結構的物理過程可能大不相同,但是最終所致的複雜性和自組織水平是相近的,兩個系統在定義的網絡結構中都由對應的節點——神經元和星系,通過絲形體鏈連接,兩者由絲形體鏈連接的節點都具有典型的半徑範圍,且節點間的信息和能量流都約佔整個系統質量和能量的25%。
  • DNNBrain:北師大團隊出品的用於映射深層神經網絡到大腦的工具箱
    深度神經網絡的成功吸引了神經科學家,他們不僅將DNN應用到生物神經系統模型中,而且還採用了認知神經科學的概念和方法來理解DNN的內部表示。儘管可以使用諸如PyTorch和TensorFlow之類的通用深度學習框架來進行此類跨學科研究,但是使用這些框架通常需要高級編程專家和全面的數學知識。因此迫切需要一個專門為認知神經科學家設計的工具箱,以繪製DNN和大腦的圖。
  • 25000個神經元,2000萬個突觸,谷歌等機構耗時十年重建突觸級果蠅半腦
    ,社會科學家研究社會網絡,那神經科學家自然研究神經網絡。 長期以來,大腦神經網絡的工作方式一直是一個熱門研究話題,近年大熱的人工神經網絡也是受到大腦神經元的啟發才創建的。 嘗試重建大腦(使用精細的成像技術繪製大腦物理路徑)是連接組學的一個方向,也是神經科學家對揭示大腦工作方式的一種探索。由於人類大腦過於複雜,研究者們嘗試從果蠅等較為簡單的生物入手,試圖重建果蠅大腦的完整神經連接圖。人類大腦有 1000 億個神經元,果蠅大腦只有 10 萬左右。
  • 幾萬個神經元,幾千萬個突觸,谷歌耗時十年重建突觸級果蠅半腦
    人類總算作圖出了最大的果蠅大腦接連圖,還精細到了突觸一個勁級別。漫遊生物科學家切磋基因發網,社會科學家研討社會發網,那神經科學者本來研討神經網絡。研討複雜系統的「大網」是描述體系的基本方法。幾萬個神經元,幾千萬個突觸,谷歌等機構耗時十年重建突觸級果蠅半腦長期以來,大腦神經網絡的勞作道道兒徑直是一個熱門研討話題,近年來大熱的人工神經網絡也是遭遇大腦神經元的開導才締造的。
  • 什麼是人工神經網絡(ANN)?
    人工神經網絡的靈感來自其生物學對應物。大腦的許多功能仍然是個謎,但是我們知道的是,生物神經網絡使大腦能夠以複雜的方式處理大量信息。大腦的生物神經網絡由大約1000億個神經元組成,這是大腦的基本處理單元。神經元通過彼此之間巨大的連接(稱為突觸)來執行其功能。人腦大約有100萬億個突觸,每個神經元約有1,000個。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    他們認為,5年後(甚至不到5年的時間內),人們就可以用電子翻譯器在若干種語言之間進行翻譯。結果,事實證明,這個進步非常緩慢。60多年後,實時的通用翻譯器(如《星球大戰》中的C-3PO和《銀河系漫遊指南》中的巴別魚(Babel Fish))依然只是科幻作品的產物。但今天,當我們站在此處回顧歷史,我們才發現我們真的已經將科幻變成了現實。
  • 肖巍:女性主義「神經倫理學」的興起——從全球男女大腦性別差異...
    但男性在其他方面,例如在性 意識方面卻比女性更為強烈,因為男性大腦中的相 關控制區域要比女性大一倍。近十年以來,神經科學不斷宣布的關於大腦性 別差異研究的新發現,促使女性主義學者認真地思 考大腦的性別差異問題。2014年,有文獻報導說:英 國劍橋大學的研究人員經過20多年的神經科學研 究發現,男女的大腦的確存在差異,這主要體現在大 腦的結構和容量方面。
  • 谷歌和 OpenAI 強強聯手找到了神經網絡「黑盒子」的正確打開方式!
    隨著人工智慧系統被應用到更多重要的場景中,更好地了解其內部決策過程將有助於研究者能夠及時發現其中的缺陷和錯誤。對此,谷歌 AI 研究院與 OpenAI 一起合作提出了能夠弄清這個「黑盒子」裡面到底有什麼的新方法——激活圖集。谷歌在博客上發布文章介紹了這一意義重大的成果,雷鋒網 AI 科技評論編譯如下。
  • Science Advances:無創神經調控技術新發現,不同腦區應答不同
    阿爾茲海默病(AD)是威脅全球健康的重大問題,至今為止,藥物治療取得的效果甚微,使得研究者更加有興致地去找尋非藥物相關的新幹預策略。無創神經調控技術經顱磁刺激(TMS)的發展運勢而生。作為潛在的臨床無創幹預手段,TMS可以誘導大腦活性的改變並能夠長調節由疾病造成的神經網絡損傷。
  • MIT 重磅研究成果:已開發出大腦神經迴路計算模型
    真相就在於該模型能夠對抑制性神經元在大腦中的行為進行預測,而這也成為了計算分析輔佐神經科學研究的絕佳例子。這一新發現在本周的理論計算機科學變革會議上公布。論文作者為 MIT 軟體科學及工程的 NEC 教授 Nancy Lynch,博士後 Merav Parter 及電子工程與計算機科學的研究生 Cameron Musco。
  • 科學家發現:大腦神經網與星系網絡驚人相似
    據《流行力學》網17日報導,天體物理學家和神經科學家合作,比較了宇宙和大腦神經元網絡之間的相似性。儘管在規模上存在很大差異,但這兩者複雜的系統卻驚人地相似。大腦神經網與星系網絡的比較據報導,義大利博洛尼亞大學(University of Bologna)的天體物理學教授Franco Vazza和維羅納大學(University of Verona)的神經外科醫生Alberto Feletti研究了自然界中最具挑戰性也是最複雜的兩個系統之間的相似性:宇宙的星系網絡以及人腦中神經元細胞的網絡
  • 谷歌大腦科學家:大腦是AI研究的靈感來源 AI沒有邊界
    選自:Gigaom 編譯:網易智能 參與:nariiy本期對話嘉賓是谷歌大腦的研究科學家、機器學習專家、副教授Hugo LaRochelle,他專攻計算機視覺和自然語言處理領域的深度神經網絡。在機器學習中,有一種基於人工神經網絡的方法,這種方法更接近於我們的大腦,趨近真正的神經網絡和真正的神經元,人工神經網絡是受動物中樞神經系統啟發的計算模型,某種意義上說,這些算法可能與真正的生物神經元工作機制尚存有差距,但我想,很多機器學習研究者,尤其是深度學習領域的研究者從中獲得了啟發,即大腦是真正的生物機器,它正在執行一些算法,並且想要知道這個算法是什麼,因此,大腦在我們設計自己的人工神經網絡中的功能機制是什麼的時候
  • 霸榜馬裡奧賽車,谷歌強化學習訓練參數銳減1000倍
    【新智元導讀】最近,谷歌的研究人員發現神經進化方法非常適合訓練基於視覺的強化學習(RL)任務的自注意力結構,使研究人員能夠合併一些模塊,包括對智能體有用的一些不可微分的操作,從而解決具有挑戰性的視覺任務如馬裡奧賽車,其參數至少降低了 1000 倍。心理學中有一種現象叫選擇性失明,會使人們看不見東西。
  • 網絡規模更小、速度更快,這是谷歌提出的MorphNet
    一直以來,深度神經網絡在圖像分類、文本識別等實際問題中發揮重要的作用。但是,考慮到計算資源和時間,深度神經網絡架構往往成本很高。此次,谷歌研究人員提出一種自動化神經網絡架構的新方法 MorphNet,通過迭代縮放神經網絡,節省了資源,提升了性能。深度神經網絡(DNN)在解決圖像分類、文本識別和語音轉錄等實際難題方面顯示出卓越的效能。
  • 大腦神經元的結構跟可觀測宇宙有著驚人的相似
    物理學家與神經外科醫生合作一位天體物理學家和一位神經外科醫生合作出星系大腦理論的一項研究,雖然這一開始聽起來像是一個玩笑話,但義大利研究人員已提出了一個真正的星系大腦論述,他們表示可觀測宇宙的結構與人類大腦的神經元網絡驚人地相似。
  • 谷歌新研究:基於數據共享的神經網絡快速訓練方法
    網絡訓練的另一個瓶頸網絡訓練速度的提升對神經網絡的發展至關重要。過去的研究著重於如何在 GPU 和更專業的硬體設備上進行矩陣和張量的相關運算,從而代替 CPU 進行網絡訓練。GPU 和TPU 等相關專業計算硬體的通用性不像 CPU 那麼廣泛,但是由於特殊的設計和計算單元構造,能夠在一些專門的任務中具有大幅超越 CPU 的表現。