【來源:網易科技】
一物理學理念正幫助計算機學習在比二維更高的維度中進行「觀察」。新的人工智慧技術不僅能夠在二維圖像中發現模式,還能夠在球體和其他曲面上發現模式,從而將人工智慧從「平面世界」中跳脫出來。
以下是翻譯內容
計算機現在能夠開車,能夠在西洋棋和圍棋等棋類遊戲中擊敗人類世界冠軍,甚至能夠創作散文。人工智慧的革命在很大程度上源於一種特殊的人工神經網絡,它的設計靈感來自於哺乳動物視覺皮層中相互連接的神經元層。令人驚訝的是,這些「卷積神經網絡」已被證明能夠熟練地學習二維數據中的模式——尤其是在識別數字圖像中的手寫文字和物體等計算機視覺任務中。
但是,當應用到沒有內置平面幾何的數據集時——例如,三維計算機動畫中使用的不規則形狀模型,或者自動駕駛汽車生成的、用來繪製周圍環境的點雲——這種強大的機器學習架構就不奏效。2016年,一門名為幾何深度學習的新學科應運而生,其目標是將卷積神經網絡從二維世界中跳脫出來。
現在,研究人員提出了一種新的理論框架,用於構建能夠在任何幾何表面上學習模式的神經網絡。這些網絡名為「規範等變神經網絡」,由塔科·科恩(Taco Cohen)、莫裡斯·韋勒(Maurice Weiler)、貝爾卡伊·基卡納格魯(Berkay Kicanaoglu)和馬克斯·韋林(Max Welling)在阿姆斯特丹大學和高通人工智慧研究機構共同開發而成。它們不僅可以發現二維像素陣列的模式,還可以發現球體和非對稱曲面物體上的模式。「這個框架是對曲面深度學習問題的一個明確解答。」韋林說道。
在從模擬全球氣候數據中學習模式方面,卷積神經網絡已經大大超過了它們的前輩。在改善觀察3D物體的無人機和自動駕駛車輛的視覺方面,以及在從心臟、大腦或其他器官的不規則曲面收集的數據中發現模式方面,這些算法也可能會被證明大有用處。
研究人員提出的將深度學習跳脫平面世界的解決方案也與物理學有著深刻的聯繫。描述世界的物理理論,如愛因斯坦的廣義相對論和粒子物理學標準模型,表現出一種被稱為「規範等變」的性質。這意味著,世界上物體的數量和它們之間的關係獨立於任意的參考系(或「量規」);無論觀察者是移動的還是靜止的,無論標尺上的數字相距多遠,它們都保持一致。在不同的測量儀表上進行的測量必須能夠相互轉換,以保持物體之間的基本關係。
例如,以碼為單位測量一個足球場的長度,然後再以米為單位進行測量。測出來的數字會改變,但這種改變是可預測的。同樣地,兩個攝影師從兩個不同的有利位置拍攝一個物體會產生不同的圖像,但那些圖像是可以相互關聯的。規範等變確保物理學家的現實模型保持一致,不管他們選擇什麼視角或者測量單位。規範等變卷積神經網絡對數據也做了同樣的假設。
「他們想要把這種物理學理念應用到神經網絡上,」 紐約大學物理學家凱爾·克蘭麥(Kyle Cranmer)說,「他們最終也想到了辦法。」
跳脫二維世界
倫敦帝國理工學院計算機科學家麥可·布朗斯坦(Michael Bronstein)在2015年創造了「幾何深度學習」一詞,來描述跳脫二維世界,設計能夠從非平面數據中學習模式的神經網絡的初期努力。這個術語——以及相關研究工作——很快就流行起來了。
布朗斯坦和他的合作者們知道,要超越歐幾裡得平面,首先需要他們對讓神經網絡在二維圖像識別中如此有效的基本計算過程之一進行重新構想。這個過程稱為「卷積」,它讓神經網絡的一層對小塊的輸入數據進行數學運算,然後將結果傳遞到神經網絡的下一層。
「粗略地說,你可以把卷積看作滑動窗口。」布朗斯坦解釋道。卷積神經網絡像過濾器一樣在數據上滑動許多這樣的「窗口」,每個窗口都被設計用來發現數據中的某種模式。對於貓的照片,受過訓練的卷積神經網絡會使用過濾器來發現原始輸入像素中的低級特徵,比如邊緣。這些特徵信息被傳遞到網絡中的其他層,然後這些層執行額外的卷積並提取更高層次的特徵,如眼睛、尾巴或三角形耳朵。接受過識別貓訓練的卷積神經網絡最終將使用這些分層卷積的結果來為整個圖像分配標籤,比如「貓」或「不是貓」。
但這種方法只適用於平面。「當你想要分析的表面變得彎曲時,你基本上就有麻煩了。」韋林說。
在曲面(幾何中稱為流形)上進行卷積運算的難度,無異於拿著一小塊半透明的圖表紙,放在地球儀上,試圖精確地描繪出格陵蘭島的海岸線。把圖表紙壓在格陵蘭島上面時,它肯定會起皺,這意味著當你再次把它放平時,你的繪畫就會變形。但是,讓圖表紙與地球的一點相切,一邊盯著紙看,一邊追蹤格陵蘭島的邊緣(一種被稱為墨卡託投影的技術),也會產生變形。如果流形不是一個像地球儀一樣整齊的球體,而是一個更複雜或不規則的東西,比如一個瓶子的三維形狀,或者一個褶曲的蛋白質,在上面進行卷積就更加困難了。
2015年,布羅斯特和他的同事找到了一個在非歐幾裡得平面上卷積的解決辦法:將「滑動窗口」重新構想成某種形狀更像圓形蜘蛛網而非圖表紙的東西,這樣你將其壓在地球儀(或者任何其它的曲面)上時就不會產生皺褶、拉伸或撕裂。
以這種方式改變滑動過濾器的屬性,使得卷積神經網絡更善於「理解」某些幾何關係。例如,該網絡可以自動識別出一個彎曲成兩個不同姿勢的3D圖形——比如一個站著的人和一個抬起一條腿的人——是同一物體的實例,而不是兩個完全不同的物體。這一變化也使得這種神經網絡在學習上大大提高了效率。標準的卷積神經網絡「使用了數以百萬計的形狀樣本,而且需要數周的訓練。」布朗斯坦說,「我們使用了大約100個不同的姿勢,訓練了大概半個小時。」
與此同時,塔科·科恩和他在阿姆斯特丹的同事們開始從相反的方向來解決同樣的問題。2015年,當時還是研究生的科恩並沒有在研究如何將深度學習跳脫出平面世界。相反,他感興趣的是他認為是一個實際的工程問題:數據效率,或者說如何使用更少的樣本訓練神經網絡,而不是像通常需要的那樣使用數千甚至數百萬的樣本。科恩說,「比如說,深度學習方法是非常緩慢的學習者。」如果你在訓練卷積神經網絡識別貓,這就沒有什麼問題了(鑑於網際網路上有無數的貓的圖片)。但是,如果你想讓這個網絡發現更重要的東西,比如肺組織圖像中的癌性結節,那麼找到足夠的訓練數據就不是那麼容易了——這些數據需要準確而且恰當的醫學標記,並且不存在隱私問題。訓練網絡所需的樣本越少越好。
科恩知道,提高神經網絡數據效率的一種方法是,預先對數據進行一定的假設——比如,肺腫瘤仍然是肺腫瘤,不管它在圖像中處於旋轉狀態,還是被反射出來。通常來說,卷積網絡必須使用許多相同模式的不同定向的示例進行訓練,從頭開始學習這些信息。2016年,科恩和韋林合著了一篇論文,定義如何將其中的一些假設作為幾何對稱編碼到神經網絡當中。這種方法非常有效,2018年科恩和瑪麗西婭·溫克爾斯(Marysia Winkels)進一步推廣了這種方法,證明了其在CT掃描圖中識別肺癌方面有著喜人的效果:他們的神經網絡僅使用用於訓練其他網絡的十分之一的數據,就能識別出這種疾病的視覺證據。
在此基礎上,阿姆斯特丹的研究人員繼續進行歸納。這就是他們如何實現規範等變的過程。
「等變」思維延伸
物理學和機器學習有一個基本的相似之處。正如科恩所說,「這兩個領域都與觀察和建立模型來預測未來觀察結果有關。」他指出,至關重要的是,這兩個領域都不是在尋找單個物體的模型——給予氫原子和顛倒的氫原子不同的描述,並不好——而是在尋找一般範疇的物體的模型。「當然,物理學在這方面是相當成功的。」
等變化(物理學家喜歡用「協方差」)是自愛因斯坦以來的物理學家用來歸納他們的模型的一種假設。 「這就意味著,你對一些物理現象的描述,應該與你使用什麼樣的『標尺』無關,也與你是什麼類型的觀察者無關。」 阿姆斯特丹大學理論物理學家米蘭達·鄭(Miranda Cheng)說。或者正如愛因斯坦本人在1916年所說的那樣:「自然的一般規律是由適用於所有坐標系的方程來表達的。」
通過利用了這一原理的一個簡單例子—— 「平移等變」——卷積網絡成為最成功的深度學習方法之一。發現圖像中的某個特徵(如垂直邊緣)的窗口過濾器會在像素平面上滑動(或「平移」),並對所有的這些垂直邊緣的位置進行編碼;然後,它會創建一個標記這些位置的「特徵圖譜」,並將其傳遞到網絡中的下一層。由於平移等變,創建特徵圖譜是可能的:神經網絡「假設」,相同的特徵可以出現在二維平面的任何地方,並且能夠將垂直邊緣識別為垂直邊緣,無論它在右上角還是左下角。
「等變神經網絡的關鍵在於,把這些明顯的對稱性放到網絡結構中。」韋勒說。
2018年,韋勒、科恩和他們的博士生導師馬克斯·韋林已經將這種理念擴展到了其它的等變種類。他們的「群等變」卷積神經網絡可以發現平面圖像中的旋轉或反射特徵,無需就那些定向的特徵的具體例子進行訓練;球形卷積神經網絡可以根據球體表面的數據創建特徵圖譜,而且不會將其扭曲為平面投影。
這些方法仍然不夠通用,無法處理具有凹凸不平、不規則結構的流形方面的數據——這些結構描述了幾乎所有物體的幾何結構,從土豆到蛋白質,再到人體,再到時空曲率。這些類型的流形不具有「全局」對稱性,因此神經網絡無法對其進行等變假設:它們上面的每個位置都是不同的。
挑戰在於,在平面上滑動平面過濾器可以改變過濾器的方向,具體取決於其選擇的特定路徑。不妨設想一個被設計來發現簡單的模式的過濾器:左側是一個黑色的斑點,右側是一個淺色的斑點。在平面上將它向上、向下、向左或向右滑動,它會始終保持右側朝上。但在球面上,這種情況會發生改變。如果你把過濾器在球體的赤道周圍移動180度,過濾器的方向將保持不變:左側是黑點,右側是淺色點。然而,如果你讓它先穿過球體的北極,再將它滑動到相同的位置,過濾器就顛倒了——右側是黑點,左側是淺色點。過濾器不會在數據中發現相同的模式,也不會編碼出相同的特徵圖譜。在一個更複雜的流形上移動過濾器,它可能會指向任意的不一致的方向。
幸運的是,物理學家們已經解決了同樣的問題,並找到了一個解決方案:規範等變。
韋林解釋說,關鍵是要忘記跟蹤過濾器在不同路徑上移動時的方向變化。相反,你可以只選擇一個過濾器方向,然後定義一種一致的方式來將所有其他的方向轉換成它。
問題是,雖然初始取向時可以使用任意的計量指標,但在將其他的指標轉換為那個參照系時,必須要保留基本模式——就像將光速單位從米/秒轉化為英裡/小時的時候,必須保留基本的物理量。韋林說,通過這種規範等變方法,「實際的數字會改變,但它們的變化是完全可預測的。」
科恩、韋勒和韋林在2019年將規範等變編碼到他們的卷積神經網絡當中。他們實現這一點的方式是:對神經網絡通過卷積在數據中「看到」的東西設置數學約束;只有規範等變模式通過神經網絡層傳遞。「基本上你可以賦予它任何的表面——從歐幾裡得平面到任意彎曲的物體,包括像克萊因瓶或四維時空這樣的奇特流形——不管在什麼表面上,都能很好地進行深度學習。」韋林說道。
工作原理
規範等變卷積神經網絡的理論是如此的泛化,以至於它自動地整合了以前的幾何深度學習方法的內在假設,如球面上的旋轉等變。就連布朗斯坦早期的方法——讓神經網絡識別彎曲成不同姿勢的單一3D形狀——也適用於它。「規範等變是一個非常廣泛的框架。它包含了我們在2015年所做的特殊設置。」布朗斯坦說。
從理論上講,規範等變卷積神經網絡可適用於任何維度的曲面,但科恩和他的合著者已經在全球氣候數據上進行了測試。這些數據必然有一個基本的三維球面結構。他們用他們的規範等變框架構建了一個卷積神經網絡,該卷積神經網絡被訓練來從氣候模擬數據中發現極端的天氣模式,如熱帶氣旋。2017年,政府和學術研究人員使用標準的卷積網絡來從數據中發現熱帶氣旋,準確率高達74%;去年,規範等變卷積神經網絡以97.9%的準確率發現這種氣旋。(它的準確率也超過了2018年專為球體設計的一種不太通用的幾何深度學習方法——該系統的準確率達94%。)
勞倫斯伯克利國家實驗室使用深度學習技術的氣候科學家馬約爾·穆迪根達(Mayur Mudigonda)表示,他將繼續關注規範等變卷積神經網絡。「人類視覺智能的這一方面」——不管模式是什麼定向,都能準確識別出來——「是我們想要給氣候社區帶來的東西。」高通公司最近聘請了科恩和韋林,收購了其旨在整合他們圍繞等變神經網絡的早期研究的初創公司。高通現在正計劃將規範等變卷積神經網絡的理論應用於開發更先進的計算機視覺應用,比如使得無人機能夠實時進行360度全景「觀察」。(這種魚眼式視覺可以很自然地映射到一個球面上,就像全球氣候數據一樣。)
與此同時,規範等變卷積神經網絡在像克蘭默這樣的物理學家當中越來越受歡迎,他們計劃將其用於亞原子粒子相互作用模擬數據的研究。克蘭默說:「我們正在分析與強核力有關的數據,試圖了解質子內部的情況。數據是四維的,所以對於有這種規範等變的神經網絡,我們有一個再適合不過的用例。」
現在研究規範等變神經網絡的前物理學家裡西·孔多爾(Risi Kondor)表示,規範等變卷積神經網絡的潛在科學應用可能比它們在人工智慧中的應用更加重要。
他說,「如果你是在識別YouTube上的貓,卻發現自己不太擅長識別上下顛倒的貓,這不是很好,但也許你還能接受。」但對物理學家來說,確保神經網絡不會因特定的方向而誤認力場或粒子軌跡是至關重要的。「這不僅僅是一個便利性的問題,」孔多爾指出,「重要的是要尊重基本的對稱性。」
然而,雖然物理學家的數學有助於啟發規範等變卷積神經網絡,物理學家可能會發現它們的大量用途,但科恩指出,這些神經網絡本身不會發現任何新的物理現象。他說,「我們現在能夠設計可以處理非常奇特的數據類型的網絡,但你必須得先知道這些數據的結構」。換句話說,物理學家之所以能夠使用規範等變卷積神經網絡,是因為愛因斯坦已經證明了時空可以表示為四維彎曲流形。科恩的神經網絡無法自己「看到」這個結構。他說,「學習對稱性是我們不會做的一件事情,」儘管他希望將來能夠做到。
科恩不禁為自己曾經憑直覺感知到的跨學科聯繫感到高興,現在他已經用數學的嚴謹性證明了這一點。「我一直有這樣一種感覺,即機器學習和物理學正在做非常相似的事情。」他說,「這是我發現的一件非常了不起的事情:我們只是從這個工程問題著手,隨著我們開始改進我們的系統,我們逐漸發現了二者之間越來越多的聯繫。」