今年CVPR 最大的亮點之一,當屬「後浪」們在學術研究上的出色表現。
在一眾獲獎論文作者中,年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的「98後」後浪——林之秋。這位常春藤的大四學生以第一作者身份提交的論文《Visual Chirality》(《視覺手性》)榮獲CVPR 2020 最佳論文提名 (Best Paper Nomination)。
林之秋老師發來賀函
實際上,在獲獎之前,林之秋就已經在學校樹立了非常強悍的學霸形象。進入康奈爾大學的第一年,他所選的五門高年級課程就全部拿到A+。隨後在多項專業課,例如多元微積分、線性代數、人工智慧、高等抽象代數、計算機作業系統等都取得了第一名。
與此同時他還同時選修了計算機和數學兩個專業,而且僅用兩年時間就全部修完本科課程。大二開始,他就開始選修博士課程,同時開始跟隨計算機系的教授從事科研工作。
因為成績極為優異,大一階段的林之秋就已經受計算機系裡邀請,以助教身份給高年級同學講課,還為康奈爾科技學院(Cornell Tech)的同學編寫碩士生的預修課程。到了大三,林之秋已經當上了機器學習(Machine Learning)高階課程的助教,甚至給博士生的期末試卷打分。
大學畢業,他的成績在學院數千名學生中名列前三,被授予學院最高榮譽,並受院長邀請,代表學院在畢業典禮上舉旗。
今年在 CVPR2020 上以一作身份拿下最佳論文提名,算是給他出彩的大學生涯又加上了濃墨重彩的一筆。
而據作者本人回憶,這篇論文背後其實花費了他長達兩年的時間,最主要的原因就在於「鏡像翻轉」這項研究是一個全新的課題。「現在主流學術界往往聚焦在幾個比較成熟的,且神經網絡已經做得比較好的任務上。有的時候你只要在已有的基礎上做些小的改進,就能有成果發表。但我們的課題卻是完完全全的創新,之前也沒有學者從我們的角度切入過。」
由於這是他們團隊首次挑戰常規神經網絡訓練中圖片」翻轉不變性「(flip-invariant) 的這一假設,在研究初期自然遭到了不少質疑,據林之秋介紹,這一課題還曾在另一個會議上被一個草率的審稿人以「不夠有新意」為理由拒稿。
而本次在 CVPR 2020 上拿下最佳論文提名,算是向那些質疑的聲音做了一次有力的回應。
文章連結:https://arxiv.org/abs/2006.09512
文章網站:visual-chirality.io
代碼連結:https://github.com/linzhiqiu/digital_chirality
下面,我們就來欣賞論文團隊對這項創新工作的解讀:
1
簡介
神經網絡訓練需要大量標註數據,但數據又永遠是有限的。為了用有限的標註數據來擬合函數,人們使用數據增強(data augmentation)的方法來低成本地獲得更多的標記數據。
而鏡像翻轉則是最常用的圖像數據增強方法之一。只需要將所有圖片都進行一次鏡像翻轉,我們就相當於免費得到了雙倍的數據。
但事情真的這麼簡單麼?當我們翻轉了數據集裡所有的圖片時,神經網絡所擬合的函數還能代表原先的圖像分布麼?來自康奈爾大學研究員的「視覺手性(Visual Chirality)」這篇論文首次討論了這一話題。
為了理解這一鏡像翻轉話題,我們先從一個小測試開始:
你能判斷以下三張圖片哪張被鏡像翻轉(水平翻轉)了嗎?
以下為答案:
圖一:鏡像翻轉(線索:文字)。我們可以很容易看出來文字被翻轉過了。
圖二:沒有翻轉(線索:紐扣)。男士襯衫的紐扣一般位於身體右側。
圖三:鏡像翻轉(線索:吉他)。吉他手的主手應當在吉他右側。
對於大部分的網際網路圖片來說(例如圖二圖三),鏡像翻轉對於人類而言並沒有多少區別,因而難以判斷。然而,神經網絡卻可以通過自監督訓練的方法在這個任務上達到非常高的精度,並能指出圖片中哪些區域可以被用於識別鏡像翻轉(以上三張圖片利用了類激活映射(CAM)方法進行了高亮)。
康奈爾的研究人員將這一視覺現象定義為「視覺手性」(Visual Chirality)。
在化學等學科上,手性(Chirality)的定義為「一個物體無法與其鏡像相重合」。這種不對稱性在自然界大量存在,並在不同領域有著廣泛的應用。
圖註:手具有手性(Chiral),因為鏡像翻轉後無法與原圖重合。而杯子是軸心對稱,所以不具備手性。
手性(Chirality)代表著單個圖片的翻轉不對稱性,而視覺手性(Visual Chirality)則是針對圖像分布(Image Distribution)所定義的翻轉不對稱性。
假設一個圖像分布中包含了右手和左手的照片(左右手的圖片出現概率一致),那麼此時,儘管每張圖片都具有手性,這個圖像分布卻不具備視覺手性。這是由於左手鏡像翻轉後就和右手長的一樣了。反之,假設一個圖像分布中只存在右手不存在左手,那麼這個分布就具備視覺手性(或稱翻轉不對稱性),因為我們知道一張左手的照片必然為鏡像翻轉。
用統計學的術語來定義的話,假設有圖像分布D,而其中一個圖像是x,那麼其在分布中出現概率是D(x)。我們將鏡像翻轉的操作稱為T,而翻轉圖片x我們可以得到T(x)。
那麼圖像分布D具備視覺手性意味著:D中存在圖片x,滿足D(x)≠D(T(x))的條件。
如下圖所示,假設我們有一個一維的分布(橫軸上每個點都為一個元素),那麼藍色實線所代表的分布則具備視覺手性,因為和分別與和的出現概率不一致:
當一個圖像分布具備視覺手性時,使用鏡像翻轉作為數據增強方法將不可避免的改變一個數據集所代表的分布。換句話說,只有當一個圖像分布不具備視覺手性的時候,我們才能在不改變原先圖像分布的前提下,使用鏡像翻轉來增強數據集。
然而,視覺手性是大部分視覺領域都擁有的屬性。正如此篇文章作者,谷歌AI科學家Noah Snavely教授所說:
「在計算機視覺的研究中,我們常把這個世界視為」翻轉不變「的,鏡像翻轉因而是一個常規的數據增強方法。然而,當你翻轉圖片後,文字將被顛倒,左手變為右手,而螺旋義大利麵也將朝相反方向旋轉。」
為了挑戰人們先前在計算機視覺中對於「翻轉不變性」的假設,「視覺手性」這篇文章通過自監督訓練在幾個不同視覺領域驗證了「視覺手性」的存在。
2
訓練方法
「視覺手性」這篇文章利用了自監督學習(self-supervised learning)方法來訓練卷積神經網絡。對於任何一個數據集,只需要將其原有的圖片標記為「無翻轉」,並將鏡像翻轉過的圖片標記為「有翻轉」,即可訓練神經網絡識別鏡像翻轉這一二分類任務(binary classification)。同時我們可以根據神經網絡在驗證集(validation set)的表現上來評估這一圖像分布是否具備視覺手性:如果驗證集上的精度要顯著大於50%,我們便有充足的證據來證明視覺手性的存在。
作者在這篇文章中利用了ResNet-50作為基本的網絡結構,並使用SGD方法來訓練網絡。基於先前自監督學習方法的啟發,作者將同一張圖片的原圖和翻轉圖放到了SGD的同一batch裡(shared-batch training),加速了網絡的訓練。
為了了解神經網絡學到了哪些視覺手性線索,作者利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對於視覺手性敏感的區域進行了高亮。同時因為能造成視覺手性的現象有很多,作者推出了一個簡單的基於類激活映射的聚類方法:手性特徵聚類(Chiral Feature Clustering)。
3
手性特徵聚類方法
類激活映射方法本質上是對於神經網絡最後一層卷積層輸出的特徵圖(feature map)的加權線性和(linear weighted sum)。當我們假設神經網絡是利用區域特徵(local feature)來判斷圖像是否為鏡像翻轉時,我們可以將類激活映射(CAM)最強的區域視為神經網絡最為關注的區域特徵。只需要取最後一層卷積層輸出的特徵圖上這一區域的特徵,便可以利用傳統的聚類方法例如K-means clustering進行自動分類。
ResNet-50最後一層卷積輸出的特徵圖為一個(16x16x2048)的三維矢量f,而類激活映射所得到的熱圖(heatmap)為(16x16)的二維矢量A。假設熱圖上數值最大的點為(x*,y*),那麼我們用來聚類的區域特徵即為f(x*,y*)。
作者在多個不同圖像分布上利用手性特徵聚類方法對視覺手性現象進行了歸因和討論。
4
網際網路圖片集
在網際網路圖片集上,神經網絡在鏡像翻轉識別上取得了高達60%-80%的精度。
作者著重分析了Instagram圖片上的視覺手性現象。在不用隨機剪裁(random cropping)時,神經網絡在測試集上取得了高達92%的精度。然而因為有JPEG壓縮失真的可能性存在(JPEG edge artifact一般出現於圖片的邊緣),作者同樣使用隨機剪裁進行了訓練,並仍舊取得了高達80%的精度。考慮到大量Instagram圖片有配文字,而文字是最明顯的視覺手性現象,作者用文字識別器濾除了Instagram中含有文字的圖片重新進行了訓練,但仍舊在測試集上取得了74%的高精度。值得一提的是這些訓練出來的模型具有一定程度的泛化能力,可以不經訓練,在其他的網際網路圖片集(Flickr F100M)上取得高於50%的精度。
作者在Instagram圖片集上進行了手性特徵聚類,並挑選了一系列與我們生活相關的典型視覺手性現象進行討論。
1、手機
對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因為手機的攝像頭一般固定在手機背面的一側(因品牌而異),同時由於多數人是右撇子,一般都以右手持手機進行自拍。
2、吉他
幾乎大多數的吉他手都以右手撥弦,左手持把。
3、手錶
手錶一般都被帶在人們的左手側。
4、男士襯衫領子
男士襯衫的扣子一般處於右側。
5、上衣口袋
正裝上衣的口袋幾乎無一例外處於身體左側,為了更好地服務於佔大多數的右撇子。
6、人臉
更令人吃驚的是,類激活映射方法在大量的人臉上出現了較強的反應,說明人臉中視覺手性的存在。多數情況下人臉通常被認為是對稱的:此屆CVPR 2020另一篇best student paper(Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild)更是將人臉視為了軸心對稱的物體,並以此為線索來進行3D重建。
需要強調的一點是,這些視覺手性現象在每張圖片中看似孤立,但神經網絡仍有可能會利用多種不同的線索來對圖片是否翻轉進行判斷。
為了深入了解人臉的視覺手性現象,作者在人臉數據集上進行了孤立訓練。
作者在Flickr-Faces-HQ (FFHQ)人臉數據集上進行了訓練,並在測試集上取得了高達81%的精度,並利用手性特徵聚類對人臉中的視覺手性現象進行了初步的探討:
1)劉海分界處
人們一般用右手來分理劉海,這會導致劉海的朝向向一側偏移,並出現視覺手性現象。
2)眼睛
人們在看向物體時傾向於用一隻主視眼進行瞄準,這樣會導致人們的目光在進行拍攝時出現偏移。多數人的主視眼為右眼,而這一現象可能是導致視覺手性現象的成因。
3)鬍子
與頭髮一樣,可能與人們習慣於用右手理鬍子有關。
作者提到,文中對以上的視覺手性現象的討論均為初步的分析,而人臉中仍有大量的視覺手性線索值得被發掘。
5
數字圖像處理
作者對數字圖像處理過程,例如去馬賽克(最常見為Bayer Demosaicing)和圖片壓縮(最常見為JPEG Compression)過程中產生的視覺手性現象進行了分析。舉個例子,當作者首次利用神經網絡在Instagram數據集上進行自監督訓練時,發現沒有使用隨機剪裁(random cropping)的神經網絡儘管精度更高(在測試集上高達92%),但在部分圖片上,類激活映射所得到的熱圖更著重關注圖片的邊緣部分,如左下圖所示:
而在使用隨機剪裁之後,我們得到的新的熱圖則更關注來自於圖片中物體本身的線索(例如右圖的襯衫領子)。作者推斷這是由於Instagram的圖片均為JPEG格式,經過了JPEG圖像壓縮這一數字圖像處理方式。JPEG壓縮的算法是在圖片上對於每16乘16的像素格進行分別處理的,而對於不能被16整除的圖片,其邊緣會用統一方式進行處理(例如重複邊緣像素)。這會導致JPEG壓縮的圖片的邊緣失真(edge artifact),從而導致了視覺手性現象
作者通過概率論與群論(group theory)對數字圖像處理過程產生的視覺手性現象進行了數學論證,並通過神經網絡實驗驗證了這一現象在網際網路圖片中廣泛存在。而此類的線索往往不能被肉眼可見,卻在圖片中存在固定的模式,因而為圖像識偽的應用創造了可能性。
由於文中的證明和實驗過程較為複雜,此處我們先給出數學定義和最重要的幾點結論。
1、定義
D為數據集所來源於的圖像分布。
T為一個圖像變換函數,例如鏡像翻轉。需要注意的是論文中的證明不僅限於鏡像翻轉,也可以被用於任何具備結合律(associativitive)和可逆性(invertible)的變換。
J為一個圖像處理函數。例如去馬賽克以及JPEG圖片壓縮。
為經過J處理後所得到的的新圖像分布。
我們沿用之前對視覺手性的定義。
對於任意圖片x,如果D(x)= D(T(x)),那麼D不具備視覺手性。
對於任何經過數字圖像處理的圖片y,如果,那麼同樣不具備視覺手性。
文中最重要的結論是:
當圖像變換函數T和圖像處理函數J具備交換律(commutative property)時,如果原先的圖像分布D沒有視覺手性,經過數字圖像處理後的分布也不具備視覺手性。換句話說,我們可以通過檢查T和J的交換律,來判斷數字圖像處理能否造成視覺手性現象。
作者在論文中主要涉及了兩種最常見的圖像處理方式:
去馬賽克(Demosaicing):數字相機的感光元件一般只能在每個像素格上捕捉RGB中的其中一種顏色,而其中最常用的為貝爾濾色鏡(Bayer Color Filter Array),如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過程。
JPEG壓縮算法(JPEG Compression):JPEG是一種有損的圖像壓縮方式,被廣泛應用在如今大量的網際網路圖片上。一般以每16乘16的像素格為單位通過色彩空間變換,縮減像素採樣,離散餘弦變換等步驟來進行圖片編碼壓縮。
2、結論
去馬賽克或JPEG壓縮算法單獨使用時,會在特定的圖片大小產生視覺手性現象。對於去馬賽克,由于貝爾濾色鏡為2乘2的像素格,且濾色鏡本身不對稱(參考上圖綠紅藍綠的排序),任何能被2整除的圖片寬度均會導致視覺手性。對於JPEG壓縮,任何不被16整除的圖片寬度均會導致視覺手性。這意味著,當去馬賽克和JPEG壓縮被共同使用時,任意寬度的圖片都將產生視覺手性,因為同時滿足不被2整除和能被16整除的數字不存在。
當使用隨機剪裁(random cropping)時,去馬賽克或JPEG壓縮單獨使用並不產生視覺手性現象。
當使用隨機剪裁(random cropping)時,去馬賽克和JPEG壓縮同時使用將會產生視覺手性現象。這意味著網際網路圖片中可能存在大量有規律的,肉眼不可見的視覺手性線索,而人們將能夠利用這類線索來進行圖片識偽。
3、證明
那下面我們進入證明部分(讀者需要對群論(Group Theory)有一定基礎):
文中最重要的證明為附加材料中的命題3:
命題3:當原圖像分布D不具備視覺手性時,如果圖像處理函數J與圖像變換函數T具備交換律,則經J處理後的圖像分布也不具備視覺手性。
證明:
由於T具備可逆性和分配律,T可以將原分布中的圖片分為一個個不相交的循環群(disjoint cyclic groups)。
即為一個循環群,而這個循環群的單位元(identity element)可以選這個集合裡面任意一個元素。這些循環群的群運算(group operation)可以被定義如下:
每個循環群的階(order of group)由T以及其中的元素決定。舉個例子,如果T為鏡像翻轉,那麼對於一張對稱的照片,其所在群的階為1。對於不對稱的一張照片,其所在群的階為2。
經過圖像處理後,每個循環群將變化為:
命題3裡,我們假設T和J具備交換律,那麼我們可以將上面的公式改寫,並得到:
原分布D不具備視覺手性意味著:每個循環群中的元素都有相同的概率出現。因此,由於經過J圖像處理後循環群變為了,我們只需要證明以下運算為同態(homomorphism):
因為對於同態來說,根據第一同構基本定理(First Isomorphism Theorm)可以推理出每個輸出對應著相同數量的輸入。而因為每個循環群中單個輸入在原分布D上有著相同的概率,意味著每個輸出也具備相同的概率,也意味著不具備視覺手性。
證明同態的步驟如下:
以上為命題3的證明。
通過命題3,我們知道了J和T的交換律與處理後圖像分布的視覺手性的關係。那麼,只需要通過檢查交換律,我們便可以判斷圖像處理是否可能產生新的視覺手性。檢查的方式也很簡單,對於任意圖片x,我們只需要計算其交換殘差(commutative residual)是否為0:
下圖形象的解釋了交換殘差的計算過程:
文中使用去馬賽克、JPEG壓縮、以及兩者結合這三種圖像處理方法,對於鏡像翻轉這一圖片變換方式分別計算了交換殘差。
當去馬賽克處理的圖像寬度為奇數時,處理後的圖像分布可能具備視覺手性;反之如果為偶數,則不具備視覺手性。當JPEG壓縮的圖片不為16整除時,處理後的圖像分布可能具備視覺手性,反之則不具備。當兩者結合後,處理後的圖片一定具備視覺手性:
作者為了驗證這些結論,在原本不具備視覺手性的人工數據集(高斯分布生成的隨機圖片)上,對不同寬度的圖片分別進行了這三種處理,並使用神經網絡進行了自監督學習。實驗結果符合這一測試的預期。因為大量網際網路圖片都經過了去馬賽克和JPEG壓縮,這一結論意味著數字圖像處理所帶來的視覺手性現象在網際網路圖片中廣泛存在。
當加入隨機剪裁(random cropping)後,我們還能得到這一結論麼?作者的答覆是肯定的。
為了理解隨機剪裁對於視覺手性的影響,作者提到了兩個關鍵點。
第一點:命題三中只討論了單種J的情況。而隨機剪裁可以被視為許多種J(例如是向右平移一格並剪裁,是向右平移兩個並剪裁)的結合,每一種有相同概率出現。
第二點:命題三中並沒有討論T和J不具備交換律的情況。例如當J是向將圖片右平移十個像素並進行一次中心剪裁時,T和J無法具備交換律。在這種情況下,新的圖像分布並不一定具備視覺手性。
對於第一點來說,假設我們有多種不同的J(例如,,),而他們分別與T具備交換律時,我們可以用以下公式表達新的圖像分布:
我們可以很容易看出,當每一個單獨的J都和T具備交換律時,我們可以分別應用命題三,來證明每一個J產生的新圖像分布不具備視覺手性。而當我們將這些不具備視覺手性的新圖像分布加權求和的時候(公式20),我們得到的新圖像分布仍舊不具備視覺手性。
對於第二點來說,即便每個單獨的J都不和T具備交換律時,我們仍可以找到新的圖像分布不具備視覺手性的情況。為了理解這一點,作者引入了一個新的概念」排列交換律」(Permuted Commutativity),如下圖所示:
在這個例子中,作者假設,,)單獨並不和T具備交換律,但在一種打亂的排列下具備交換性,如圖中不同顏色的箭頭所示。這種排列帶來的交換律的關係可以用以下公式表達(a和b為排列中的序號)。
在這個情況下,每一條箭頭都能滿足命題三中的條件,因此他們的加權和仍舊不具備視覺手性。
作者將這種具備」排列交換律「的情況形象得稱為」平移交換律「(Glide Commutativity),因為這類視覺現象在自然界廣泛存在。例如人類的足跡,經過平移之後仍舊是對稱的:
那麼如何檢驗這種」平移交換律「的存在呢?作者針對隨機剪裁提出了一個簡單的平移交換律測試(Glide Commutativity Test):
假設一種平移(例如左移五個像素)為Φ,測試步驟如下:
首先將任意圖片x進行填充,並確保邊緣足夠大。
將填充後的圖片進行Φ平移。
通過先後運算T和J,得到兩種圖片: 和
將這兩個圖片用T(-Φ)平移回原處。
將這兩個圖片多餘的填充像素剪裁掉。
而平移交換律測試只需要對任意兩種平移方式(和)檢查以下殘差是否為0:
作者對去馬賽克,JPEG壓縮,以及兩者結合這三種圖像處理方式進行了測試。測試結果為:當去馬賽克和JPEG壓縮單獨使用時,經過隨機剪裁後的分布具備平移交換律(如下圖1和2中的黑色格子),所以一定不具備視覺手性。而當兩者結合時,平移交換律就消失了,同時可能產生視覺手性。
作者同樣利用人造數據集進行了神經網絡訓練,並驗證了這一測試的結果。這意味著對於大量的網際網路圖片,由於它們都經過了去馬賽克和JPEG壓縮,即便我們使用了隨機剪裁,仍然有可能觀察到視覺手性。也就是說,數字圖像處理所導致的視覺手性現象可能大量存在於網際網路圖片之中,並且這類線索可能存在於任意圖片區域。這類線索在網際網路圖片中可能肉眼不可見,卻能被神經網絡捕捉到。這也為圖片識偽(image forensic)提供了新的可能性。
7
總結
「視覺手性」這篇文章首次挑戰了神經網絡訓練中對於圖片」翻轉不變性「的假設,並在多種不同的視覺分布上發現了」視覺手性「的線索。這篇文章對於未來的數據增強和圖片識偽方法將有很大的指導意義。
招 聘
AI 科技評論希望能夠招聘 科技編輯/記者
辦公地點:北京/深圳
職務:以跟蹤學術熱點、人物專訪為主
工作內容:
1、關注學術領域熱點事件,並及時跟蹤報導;
2、採訪人工智慧領域學者或研發人員;
3、參加各種人工智慧學術會議,並做會議內容報導。
要求:
1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;
2、有一定的理工科背景,對人工智慧技術有所了解者更佳;
3、英語能力強(工作內容涉及大量英文資料);
4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。