「幾何深度學習」受愛因斯坦啟示:讓AI擺脫平面看到更高的維度

2020-12-05 新智元

新智元導讀】卷積神經網絡(CNN)已在平面視覺任務上大顯身手,但遇見不規則曲面,其效果往往大打折扣。高通和阿姆斯特丹大學提出的「規範等變卷積神經網絡」成功突破了平面的限制,將CNN的視覺能力提升了一個維度,讓AI站的更高,看得更遠。戳右邊連結上 新智元小程序 了解更多!

現在,計算機可以駕駛汽車,在象棋和圍棋中擊敗世界冠軍,甚至撰寫散文。人工智慧的革命很大程度上源於一種特殊類型的人工神經網絡的力量,其設計靈感來自哺乳動物視覺皮層中神經元的連接層。事實證明,這些「卷積神經網絡」(CNN)擅長於學習二維數據中的模式,尤其是在計算機視覺任務中得到了廣泛應用。

但是,如果將卷積神經網絡用於沒有內置平面幾何形狀的數據集(如3D計算機動畫中使用的不規則形狀的模型,或者自動駕駛汽車生成的點雲來繪製周圍環境),這種強大的機器學習架構的效果就要受到影響。2016年前後,出現了一種稱為幾何深度學習的新學科,其目標是將CNN拓展到平面之外。

現在,研究人員提供了一個新的理論框架,可用於構建可以學習任何幾何表面上的圖案的神經網絡。由阿姆斯特丹大學和高通AI研究中心的Taco Cohen,Maurice Weiler,Berkay Kicanaoglu和Max Welling開發的「等規卷積神經網絡」,不僅可以檢測2D像素陣列中的模式,而且還可以檢測在球體和不對稱彎曲的物體上的模式。Welling表示:「這個框架是對曲面上深度學習問題的絕對確定的答案。」

在模擬全球氣候數據的學習模式中,這種新架構的性能已大大超過了其前輩。該算法還可能改善可視3D目標的無人機和無人駕駛汽車的視覺效果,對於心臟、大腦或其他器官的不規則曲面上收集的數據,分析能力也能大為提升。

高通公司和阿姆斯特丹大學的機器學習研究員Taco Cohen是規範等變卷積神經網絡的主要設計者之一。

研究人員要讓深度學習模型擺脫平面的束縛,也與物理學有著深厚的聯繫。描述世界的物理理論,比如愛因斯坦的廣義相對論和粒子物理學的標準模型,都表現出一種稱為「規範等變」的性質。這意味著世界上的量及其關係不依賴於任意的參照系。

無論觀察者是移動還是靜止不動,無論標尺上的數字有什麼不同,這些量和關係都是一致的。在不同的量度上進行的測量要想進行轉換,必須要能夠相互保留彼此之間這些不變的潛在關係。

舉個例子,測量一個足球場的長度,首先以碼為單位,然後再以米為單位進行測量,得到的數字是不同的,但這是一種可預測的不同。同樣,兩位攝影師從兩個不同的有利位置拍攝同一個對象的照片會產生不同的圖像,但是這些圖像可以彼此關聯。量表的等方差可確保物理學家的現實模型保持一致,無論他們的觀測點或測量單位如何變化。

紐約大學物理學家凱爾·克蘭默(Kyle Cranmer)說:「他們希望將這種思想其、引入神經網絡,要將機器學習應用於粒子物理學數據上,而且成功實現了。」

規範等變卷積神經網絡:「逃離平面,看懂3D」

倫敦帝國理工學院的計算機科學家麥可·布朗斯坦(Michael Bronstein)在2015年提出「幾何深度學習」一詞,用以描述為神經網絡擺脫平面束縛而進行的新努力,並設計了可以學習非平面數據模式的神經網絡。這個詞和相關研究工作很快流行起來。

Bronstein明白,要想超越歐幾裡德平面,需要重新構想一種基本的計算程序,該程序首先使神經網絡能高效實現2D圖像識別。此過程稱為「卷積」,它使神經網絡的一層對輸入數據一小批執行數學運算,然後將結果傳遞到網絡中的下一層。

「基本上可以將卷積視為滑動的窗口,」 Bronstein解釋說。卷積神經網絡將許多這些「窗口」滑動到數據上,例如過濾器,每一個都旨在檢測數據中的某種模式。如果是貓的照片,經過訓練的CNN可能會使用過濾器來檢測原始輸入像素中的低級特徵,例如邊緣。

這些特徵會傳遞到網絡中的其他層,執行其他卷積,並提取更高層的特徵,如眼睛,尾巴或三角形的耳朵。用於識別貓的CNN最終將使用這些分層卷積的結果,為整個圖像分配標籤(「是貓」或「不是貓」)。

卷積神經網絡是如何「看見」目標的

但這種方法僅適用於平面。韋林說:「如果要分析的表面是彎曲的,那麼基本上會遇到麻煩。」

在曲面上進行卷積(在幾何學上稱為「流形」),就像在地球上拿著一小塊半透明的方格紙,然後試圖準確地追蹤格陵蘭島的海岸線一樣困難。不可能在不使紙張起皺的情況下,將正方形按在格陵蘭島上,也就是說,當再次把這張紙展平時,圖形將會出現變形。

如果流形不是球形的這樣的整齊球體,而是瓶子的形狀,或是摺疊的蛋白質等更複雜、更不規則的物體,則在這些目標上進行卷積操作會變得更加困難。

Bronstein等人在2015年找到了解決非歐流形上卷積問題的一種解決方案:將「滑動窗口」重新想像成更像是圓形蜘蛛網狀,而不是一張方格紙,這樣就可以將其壓在地球上(或任何曲面上),而不會造成「窗口」的彎曲、拉伸或撕裂。

以這種方式更改「滑塊」過濾器的屬性,可以讓CNN能夠更好地「理解」某些幾何關係。比如可以自動識別出彎成兩個不同姿勢的3D形狀(一個站直的人,和一個抬起一條腿的人)是同一類對象實例,而不是兩個完全不同的對象。這一變化讓神經網絡的學習效率大大提高。Bronstein說,標準的CNN「需要花數周時間進行訓練,使用數百萬個形狀示例,我們以不同的姿勢使用了大約100種形狀,只需要大約半小時的訓練。」

同時,塔科·科恩(Taco Cohen)等人開始從相反方向著手解決同一問題。2015年,當時還在讀研究生的科恩尚未研究這個問題。當時他對一個實際的工程問題很感興趣:提升數據效率,即如何用更少的示例來訓練神經網絡。

科恩說:「深度學習是一種非常緩慢的學習。」如果要訓練CNN來識別貓,那麼幾乎沒什麼問題,因為網絡上有大量的貓的圖像數據。但是,如果想讓CNN檢測更重要的內容,例如肺組織圖像中的癌性結節,那麼找到足夠的訓練數據(需要醫學上準確、正確標記,並且沒有隱私問題)並非易事。訓練神經網絡所需的數據示例越少越好。

Cohen知道,提高神經網絡數據效率的一種方法是,預先為數據配備某些假設條件,例如告訴神經網絡,即使肺腫瘤在圖像中出現旋轉或映射,它仍然是肺腫瘤。

2016年,Cohen和Welling合寫了一篇論文,定義了如何將其中的一些假設條件編碼為幾何對稱的神經網絡。這種方法效果非常好,到2018年,Cohen和Marysia Winkels進一步推廣了該方法,證明了在CT掃描中識別肺癌的可喜結果:他們構建的神經網絡模型,僅使用之前模型十分之一訓練數據,就能識別出肺癌的可視化證據。

在此基礎上,研究人員不斷推廣,找到了規範等變卷積神經網絡。

從物理學到CNN:「等變」思想的擴展

物理和機器學習具有基本的相似性。正如Cohen(Cohen)所說:「兩個領域都涉及進行觀測,然後建立模型進行預測。」並非單個事物的模型,而是整個品類的模型。例如,我們不會為頭朝上的氫原子建一個模型、頭朝下的氫原子再建一個。

等變(或「協變」,物理學家偏愛的術語)是自愛因斯坦以來,物理學家賴以推廣其模型的假設。

阿姆斯特丹大學的理論物理學家Miranda Cheng解釋說:「這只是意味著,如果你正確的描述了物理,那麼它應該不取決於你用的哪種『尺子』、後者你觀察時候的視角。」

Cheng(上圖)和Cohen等撰寫了一篇論文,探討了物理學與規範等變CNN之間的聯繫。

就像愛因斯坦本人在1916年所說的那樣:「自然的一般定律應由對所有坐標系都適用的方程式表示。」卷積網絡通過利用該原理的一個簡單示例「平移等變」,成為深度學習中最成功的方法之一。一個窗口過濾器檢測圖像中特定特徵(例如垂直邊緣),將滑動(或「平移」)在像素平面上,並對所有這些垂直邊緣的位置進行編碼;然後,它會創建一個標記這些位置的「功能圖」,並將其傳遞到網絡的下一層。

由於平移等變,使得創建特徵圖成為可能。神經網絡「假定」同一特徵可以出現在2D平面中的任何位置,並且能夠將無論是在右上角還是在左下角的垂直邊緣,都識別為垂直邊緣。

Weiler說:「關於等變神經網絡的觀點是[採用]這些明顯的對稱性並將它們放入網絡體系結構中,有點像免費午餐。」

到2018年,Weiler,Cohen及其博士導師Max Welling擴大了「免費午餐」的範圍,將其他等變包括在內。他們的「集群等變」 CNN可以檢測平面圖像中的旋轉或反射特徵,而無需針對這些方向上的特徵訓練特定示例;球形CNN可以根據球體表面上的數據創建特徵圖,而不會將其扭曲為平面投影。

這些方法仍然不夠通用,無法處理具有顛簸,不規則結構的流形上的數據,該數據描述了從土豆到蛋白質,到人體,到時空彎曲的幾乎所有物體的幾何形狀。

對於神經網絡,這些類型的流形沒有「全局」對稱性來做出以下等變假設:它們上的每個位置都是不同的。

挑戰在於,將細分過濾器在表面上滑動會改變過濾器的方向,具體取決於其採用的特定路徑。

想像一下設計用於檢測簡單圖案的過濾器:深色斑點在左,淺色在右。在平面網格上下左右滑動它,它將始終保持右邊朝上。但是,即使在球體的表面上,這種情況也會改變。

將濾鏡圍繞球面的赤道移動180度,則濾鏡的方向將保持不變:深色斑點在左,淺色斑點在右。但如果通過球體的北極上方移過,濾鏡就反過來了,深右淺左。在更複雜的歧管上移動過濾器,它最終可能指向許多雙重的方向。幸運的是,自愛因斯坦以來的物理學家找到了解決方案:軌距等變。

Welling解釋說,關鍵是忘記跟蹤過濾器沿不同路徑移動時方向如何變化。取而代之的是,只選擇一個過濾器方向(或gauge),然後定義一種將所有其他方向轉換為該方向的一致方法。

要注意的是,儘管可以在初始方向上使用任意量度,但將其他量度轉換為該參考系必須保留的基本模式。Weiler說,採用這種等量變方法,「實際數字發生了變化,但是它們以完全可預測的方式發生了變化。」

Cohen,Weiler和Welling在2019年將gauge-equivariant(最終的「免費午餐」)編碼到了他們的卷積神經網絡中。通過將數學約束納入神經網絡可以通過卷積在數據中「看到」。

Welling說:「基本上,它可以提供任何表面」,從歐幾裡德平面到任意彎曲的物體,包括諸如Klein瓶或四維時空的奇異流形,「這對在該表面上進行深度學習非常有用。」

理論起源:來自愛因斯坦的啟示

規範等變CNN的起源理論非常廣泛,沿用了以前的幾何深度學習方法的內在假設,如旋轉等變和球上的移位過濾器。即使是Michael Bronstein的早期方法,也可以讓神經網絡識別彎曲成不同姿勢的單個3D形狀。「Gauge-equivariant是一個非常廣泛的框架。它包含了我們在2015年所做的特定設置。」 Bronstein說。

理論上,CNN計可在任何尺寸的任何曲面上工作,但Cohen及其合作者已在全球氣候數據上對其進行了測試,該數據必定具有潛在的3D球形結構。他們使用等量線框架構造了一個CNN,該CNN經過訓練可以從氣候模擬數據中檢測出極端天氣模式,例如熱帶氣旋。

2017年,政府和學術研究人員使用標準卷積網絡以74%的準確性檢測數據中的氣旋特徵;去年,美國有線電視新聞網(CNN)探測到旋風的準確率達到97.9%。(優於2018年專門為球體設計的不太通用的幾何深度學習方法,該系統的準確度為94%。)Lawrence Berkeley National Laboratory的氣候科學家Mayur Mudigonda使用深度學習,表示將繼續關注測量CNN。

他說:「人類視覺智能的這一方面」(無論模式如何定向)都可以準確地識別出來,「這就是我們想要轉化為氣候社區的東西。」

高通是一家晶片製造商,最近僱用了Cohen和Welling,並收購了他們建立的一家初創公司,將其早期工作納入等變神經網絡。現在,高通正計劃應用規範CNN理論來開發改進的計算機視覺應用,例如可以直接「看到」360度全景的無人機,就像全球氣候數據一樣,可以將這個世界的魚眼圖自然地映射到球形表面上。

同時,規範的CNN在諸如Cranmer之類的物理學家中越來越受歡迎,他們計劃將其用於處理亞原子粒子相互作用的模擬數據。Cranmer說:「我們正在分析與強大的核力量有關的數據,試圖了解質子內部發生了什麼。」他說,數據是四維的,「因此,對於具有這種規範等變的神經網絡,這是一個完美的應用實例。」

前物理學家Risi Kondor現在正在研究等變神經網絡,他說,規範CNN的潛在科學應用可能比其在AI中的應用更為重要。

他說:「如果在YouTube上即使發現自己不太擅長識別上下顛倒的貓,也許可以忍受。」但是對於物理學家來說,至關重要的是要確保神經網絡不會因為其特定的方向而錯誤地識別力場或粒子軌跡。Kondor說:「這不僅僅是方便的問題,而且必須尊重基本的對稱性。」

但是,儘管物理學家的數學方法啟發了人們對CNN的了解,物理學家可能會為它們找到很多用處,但Cohen指出,這些神經網絡本身並不會發現任何新的物理學。

他說:「我們現在能夠設計處理非常奇特的數據的網絡,但必須知道該數據的結構是什麼。」換句話說,物理學家之所以可以使用規範的CNN是因為愛因斯坦已經證明時空可以表示為四維彎曲流形。

Cohen的神經網絡將無法獨自「看到」該結構。他說:「目前還沒開始做學習對稱性的事情,」儘管他希望將來有可能。

Cohen說:「我一直感覺機器學習和物理學正在做非常相似的事情。這是我發現真正不可思議的事情之一:我們只是從這個工程問題開始,並且隨著我們開始改進,我們逐漸發現了越來越多的聯繫。」

參考連結:

https://www.quantamagazine.org/an-idea-from-physics-helps-ai-see-in-higher-dimensions-20200109/

相關焦點

  • 人工智慧新突破:計算機正在學習從更高維度觀察世界
    編者按:圖像識別既是深度學習最早的突破,也是最成功的應用之一。但是隨著應用的深入,傳統深度學習方法逐漸黔驢技窮。甚至令一些業界大牛喊出來AI新的凜冬將至。不過,最近AI研究人員從物理學規律上尋找到了靈感,找到了讓機器可以識別高維度對象的辦法,然後物理學家又發現,AI的這一進展甚至還能為物理研究做出更大的貢獻。
  • 高維度與神秘世界的聯繫,愛因斯坦等科學大牛的高維度理論之路
    他們的作品大量借鑑了高斯的類比,高斯設想了一個局限在平面頁面上的書蟲如何感知三維世界是「不真實的」。這些作品中最著名的是英國數學家埃德溫·阿伯特的《平面世界》(1884),他是倫敦金融城學校的校長。《平面世界》設想了一個局限在平面上的幾何生物社會如何應對來自三維領域的入侵。
  • 幾何——平面圖形
    認識平面圖形是學前孩子數學教育的重要內容,它能幫助孩子對客觀世界中形形色色的物體做出辨認和區分,發展孩子的空間知覺能力與初步的空間想像力,從而為進一步正式的幾何圖形的學習打下定的基礎。學前階段平面圖形掌握的程度學前階段的孩子需要掌握哪些平面圖形?學前階段的孩子需要認識的平面圖形一般包括圓形、正方形、三角形、長方形、橢圓形和梯形。
  • 前沿| 深度學習的概念、深度、策略、效果及其啟示
    美國威廉和弗洛拉·休利特基金會與美國研究院合作開展的深度學習項目(SDL)對以上問題給予了回答。在概述(SDL)研究背景和研究設計的基礎上,從核心概念、促進深度學習的策略和途徑、深度學習的效果三個維度進行了介紹與解讀。
  • 3D重建:硬派幾何求解vs深度學習打天下?
    幾何方法對比深度學習方法Maxim Tatarchenko 等學者[10] 認為,實際上目前表現最好的深度學習算法實際上學習到的是圖像分類,而非圖像重建。可以看到,絕對大多數類都不能拒絕深度學習方法和兩個基線方法的直方圖分布一樣的原假設。而最近鄰方法則和其他方法有比較明顯的不同。
  • 在更高維度的視角下,我們的世界是什麼樣的?
    在更高維度的視角下,我們的三維空間是以什麼形態存在的?以二維空間為例,無論二維空間是平面還是曲面的形態存在,擁有更高維度視角的我們都可以輕易觀測。而因為二維空間沒有Z軸,也就是高度,所以生活在二維曲面空間的二維生物,對於他們自己空間的曲率是無法感知的。
  • 人工智慧不只能看 「平面世界」,還能觀察四維時空
    一物理學理念正幫助計算機學習在比二維更高的維度中進行「觀察」。新的人工智慧技術不僅能夠在二維圖像中發現模式,還能夠在球體和其他曲面上發現模式,從而將人工智慧從「平面世界」中跳脫出來。
  • 人工智慧不只能看「平面世界」 還能觀察四維時空
    【來源:網易科技】一物理學理念正幫助計算機學習在比二維更高的維度中進行「觀察」。新的人工智慧技術不僅能夠在二維圖像中發現模式,還能夠在球體和其他曲面上發現模式,從而將人工智慧從「平面世界」中跳脫出來。2016年,一門名為幾何深度學習的新學科應運而生,其目標是將卷積神經網絡從二維世界中跳脫出來。現在,研究人員提出了一種新的理論框架,用於構建能夠在任何幾何表面上學習模式的神經網絡。
  • 如何利用物理思想幫助機器「升維學習」?
    這些數據集中沒有內置的平面幾何形狀,超出了卷積神經網絡的能力範圍。2016年前後,出現了一種稱為幾何深度學習(geometric deep learning)的新學科,目的就是讓卷積神經網絡「離開平地」,擺脫只能處理二維數據的窘境。最近,研究人員提供了一個新的理論框架,由此構建的神經網絡可以學習任意幾何表面上的圖案模式。
  • 科學家愛因斯坦也曾炒股 愛因斯坦炒股啟示
    生活中的愛因斯坦,比較喜歡音樂,這個愛好是他中學時候就養成的,音樂對愛因斯坦科學靈感的培養和人格情操的陶冶,都起到了良好的推動作用。 現實生活中的愛因斯坦是不太注重金錢的,用中國古人的話來說,他認為金錢不過是身外之物。他把畢生的精力都奉獻給了物理研究和教學等工作,這一精神不能不值得後人學習。
  • 學好三角形——學習平面幾何的基礎
    三角形是最簡單的平面幾何圖形,是由三條線段首位相接組成的閉合圖形。三角形有三個內角,按照內角的角度大小,可將三角形分為銳角三角形、直角三角形和鈍角三角形。三角形中有多性質,例如內角和等於180°、兩邊之和大於第三邊、兩邊之差小於第三邊。
  • 廣義相對論、時間和第四維度——最簡單的解釋
    現在,把時間想像成一個更高維度的概念。你不能從視覺上感知它,因為你還沒有發育出這樣做的感覺器官。所以,如果你能用一個類比來理解這個概念,那將是對你自己的一種幫助。想像你是生活在二維平面紙上的螞蟻。你可以在X和Y空間維度中移動。你可以穿越歐幾裡得宇宙的長度和寬度,但遺憾的是,不能穿越深度或高度。那是因為你還沒有長出感覺器官或智力來感知第三維度。
  • 黎曼幾何上是無懈可擊?
    二維空間沒有深度,但他有長度和寬度,二維空間就是一個平面,我們都知道兩條直線的交點將形成一個平面,如果我們在紙上畫一個矩形,那麼這個矩形就是一個二維空間。在理論上中,二維空間無法理解三維空間。當一個二維生物看到一個三維物體時,他只會看到一個橫截面,如下圖所示,當一個二維生物看著一個球體時,他只能看到一個橫截面的圓,因為他看不到深度,而只能看到長度和寬度。
  • 為了愛因斯坦,我們是否要繼續引入更高維度
    為了愛因斯坦,我們是否要繼續引入更高維度 2020-10-18 12:49:00 來源 : 天文在線 看起來2D薄膜在球的重量下彎曲:你在圖中看到的曲率就是黎曼曲率。這是引力場的「決定性特徵」,因為如果沒有曲率,二維薄膜就會是平坦的。如果沒有這個曲率,就不會有任何斜率,那麼光就不會彎曲,物體就不會下落。
  • 宇宙其他的地方存在四維或者更高維度的空間
    如果兩條直線的角度小於直角,那麼沿著第2條直線的運動也會有一部分是沿著第1條直線的,它們有一定的疊加,在這樣兩條直線決定了平面上的運動,它就是二維的運動,沿一條直線的運動擁有一個維度,而兩條直線所構成的平面上的運動就具有了兩個維度,二維的世界,也就是一個平面。
  • 專家深談:深度學習成功的啟示,以及,為什麼它不能解決全部AI問題?
    本文原標題為《深度學習在計算機視覺領域成功的啟示與開放問題討論》。大數據支撐的深度學習的復興固然是AI領域的裡程碑式進步,但並不意味著深度學習具有解決全部AI問題的潛力。本文首先探討了深度學習的成功帶給我們的一些啟示,然後對相關開放問題進行討論。所述僅為個人粗淺看法,不當之處請讀者斧正。
  • 黎曼幾何真的無懈可擊?
    它沒有大小,沒有空間、時間,沒有維度。零維度基礎之上則是一維空間,我們在這個點旁邊再畫一個點,兩點之間連成一條直線,這樣一維空間就誕生了,一維空間是只有長度的,沒有深度以及寬度。二維空間一維空間上面則是二維空間,那麼如何升級為二維空間呢?
  • 絕對讓你腦洞大開:利用空間維度提升人生
    如果從物理學的角度,毛澤東是一個生活在高維度的人,所以他才成就自己的高度。譬如他說:問蒼茫大地,誰主沉浮?他是站在高處看這個世界的。他說:鯤鵬展翅九萬裡,翻動扶搖羊角,背負青天朝下看,都是人間城廓。他是站在宇宙深處看這個世界的。譬如他說:風物長宜放眼量。他仿佛站在六維空間,看到了時間也是立體的,三維的時間與三維的空間交織在一起,讓他看到了時空交織交相輝映的未來。
  • 了解空間維度的幾何結構,對於理解宇宙來說是非常基礎的環節
    如果兩條直線的角度小於直角,那麼沿著第2條直線的運動也會有一部分是沿著第1條直線的,它們有一定的疊加,在這樣兩條直線決定了平面上的運動,它就是二維的運動,沿一條直線的運動擁有一個維度,而兩條直線所構成的平面上的運動就具有了兩個維度,二維的世界,也就是一個平面。
  • 維度奧秘在更高空間是沒有時間概念的
    我們都知道,零維就是空間上的一個點,一維是能測量長度的一根線,而二維即是一個平面,可以測量物體的長度和寬度。我們所生活的這個空間,便是三維空間,是立體的,理論上來說,將二維空間彎曲,就會得到三維空間,平面上距離很遠的兩個點,通過彎曲可以輕而易舉的重合,這也是著名的蟲洞理論。