21歲華人本科生,憑什麼拿下CVPR 2020最佳論文提名?

2021-01-21 量子位

金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

在訓練神經網絡的時候,經常會出現「缺數據」的情況。

這時候,就需要「數據增強」來獲取更多數據。而近幾年,鏡像反轉成了最為常用的方法之一。

轉一次,獲得2倍數據,真香!

然而,事情卻沒有中的那麼簡單——當翻轉了數據集裡所有的圖片時,神經網絡所擬合的函數,還能代表原先的圖像分布麼?

針對這一問題,來自康奈爾大學的研究員,首次挑戰了常規神經網絡訓練中,圖片「翻轉不變性」(flip-invariant) 的這一假設。

研究的題目叫做視覺手性(Visual Chirality),並在CVPR 2020中獲得了最佳論文提名。

註:手性的定義為「一個物體無法與其鏡像相重合」。「視覺手性」一詞啟發自手性,意指「計算機視覺領域中圖像分布與其鏡像分布的區別」。

而該研究的一作,是此屆CVPR大會上年紀最小的獲獎者,年僅21歲的華人科研新秀——林之秋。

這項研究在多種領域(人臉,網際網路圖片,數字處理圖像)上利用卷積神經網絡,發現了許多常人難以捕捉的「視覺手性」線索。

通過自監督訓練,在多項數據集上達到了60%,甚至到90%的精度。

鏡像翻轉的圖像,能不變?

為了理解這一鏡像翻轉話題,我們先來看下這樣的一個例子:

在上面這張圖中,你能判斷出哪些圖像被翻轉了嗎?答案如下:

圖一:鏡像翻轉(線索:文字)。我們可以很容易看出來文字被翻轉過了。圖二:沒有翻轉(線索:紐扣)。男士襯衫的紐扣一般位於身體右側。圖三:鏡像翻轉(線索:吉他)。吉他手的主手應當在吉他右側。

鏡像翻轉對於人類而言並沒有多少區別(如圖二和圖三),因而難以判斷。

然而,神經網絡卻可以通過自監督訓練的方法在這個任務上達到非常高的精度,並能指出圖片中哪些區域可以被用於識別鏡像翻轉。

手性代表著單個圖片的翻轉不對稱性,而視覺手性(Visual Chirality)則是針對圖像分布所定義的翻轉不對稱性。

當一個圖像分布具備視覺手性時,使用鏡像翻轉作為數據增強方法,將不可避免的改變一個數據集所代表的分布。

換句話說,只有當一個圖像分布不具備視覺手性的時候,才能在不改變原先圖像分布的前提下,使用鏡像翻轉來增強數據集。

然而,視覺手性是大部分視覺領域都擁有的屬性。正如此篇文章作者,谷歌AI科學家Noah Snavely教授所說:

在計算機視覺的研究中,我們常把這個世界視為」翻轉不變「的,鏡像翻轉因而是一個常規的數據增強方法。然而,當你翻轉圖片後,文字將被顛倒,左手變為右手,而螺旋義大利麵也將朝相反方向旋轉。

那麼,這項研究又是如何挑戰了,人們先前在計算機視覺中,對於「翻轉不變性」假設的呢?

實驗過程

這項研究利用了自監督學習方法來訓練卷積神經網絡。

對於任何一個數據集,只需要將其原有的圖片標記為「無翻轉」,並將鏡像翻轉過的圖片標記為「有翻轉」,即可訓練神經網絡識別鏡像翻轉這個二分類任務(binary classification)。

同時,可以根據神經網絡在驗證集的表現,來評估這一圖像分布是否具備視覺手性:

如果驗證集上的精度要顯著大於50%,便有充足的證據來證明視覺手性的存在。

這項研究利用了ResNet-50作為基本的網絡結構,並使用SGD方法來訓練網絡。

為了了解神經網絡學到了哪些視覺手性線索,研究人員利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對於視覺手性敏感的區域進行了高亮。

同時因為能造成視覺手性的現象有很多,研究人員還推出了一個簡單的基於類激活映射的聚類方法——手性特徵聚類(Chiral Feature Clustering)。

在網際網路圖片集上,神經網絡在鏡像翻轉識別上取得了高達60%-80%的精度。

研究人員在Instagram圖片集上進行了手性特徵聚類,並挑選了一系列與人們生活相關的典型視覺手性現象進行討論。

手機:對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因為手機的攝像頭一般固定在手機背面的一側(因品牌而異),同時由於多數人是右撇子,一般都以右手持手機進行自拍。吉他:幾乎大多數的吉他手都以右手撥弦,左手持把。手錶:手錶一般都在人們的右手側。為了深入了解人臉的視覺手性現象,研究人員在人臉數據集上進行了孤立訓練。

在Flickr-Faces-HQ (FFHQ)人臉數據集上進行了訓練,並在測試集上取得了高達81%的精度,還利用手性特徵聚類對人臉中的視覺手性現象進行了初步的探討:

劉海分界處:人們一般用右手來分理劉海,這會導致劉海的朝向向一側偏移,並出現視覺手性現象。眼睛:人們在看向物體時傾向於用一隻主視眼進行瞄準,這樣會導致人們的目光在進行拍攝時出現偏移。多數人的主視眼為右眼,而這一現象可能是導致視覺手性現象的成因。鬍子:與頭髮一樣,可能與人們習慣於用右手理鬍子有關。文中對以上的視覺手性現象的討論均為初步的分析,而人臉中有大量的視覺手性線索值得被發掘。

除此之外,研究人員還對數字圖像處理過程(例如去馬賽克和圖片壓縮)中產生的視覺手性現象進行了分析。

舉個例子,當研究人員首次利用神經網絡,在Instagram數據集上進行自監督訓練時,發現沒有使用隨機剪裁(random cropping)的神經網絡。

但在部分圖片上,類激活映射所得到的熱圖更著重關注圖片的邊緣部分,如下圖所示:

而在使用隨機剪裁之後,研究人員得到的新的熱圖,則更關注來自於圖片中物體本身的線索。

研究人員提出:當數字圖像處理過程和鏡像翻轉不具備「交換律」時,視覺手性將會憑空產生在一個圖像分布上。

作者通過概率論與群論(group theory),對此假設進行了嚴謹的數學論證,並通過神經網絡實驗驗證了這一現象在網際網路圖片中廣泛存在。

而此類的線索往往不能被肉眼可見,卻在圖片中存在固定的模式,因而為圖像識偽的應用創造了可能性。

98年華人科學新秀

這項研究的第一作者,是98年生的華人科學新秀——林之秋。

林之秋17歲便考入美國「常春藤」盟校——康奈爾大學,而這也是他「開掛人生」的開始。

林之秋僅用兩年時間就全部修完計算機和數學兩個專業的本科課程,並從大二開始選修博士課程,同時跟隨計算機系的教授從事科研工作。

他在多項專業課上,例如多元微積分、線性代數、高等抽象代數、人工智慧、計算機作業系統等都取得過第一名。

由於成績極為優異,自大二起林之秋就接受計算機系裡邀請,以助教身份給高年級同學講課,為康奈爾科技學院編寫碩士生的預修課程,甚至在高階機器學習課上給博士生的試卷打分。

而這篇「CVPR 2020最佳論文提名」的研究,是林之秋從大二就開始著手準備的項目,這也顯示了他「超級大學霸」的真實實力。

如今,本科畢業的林之秋,總成績在學院數千名學生中名列前三,並受院長邀請在畢業典禮上代表學院舉旗。之後,他即將前往卡內基梅隆機器人學院,攻讀計算機視覺博士學位。

在此,也預祝林之秋同學,能夠在科研的道路上,繼續乘風破浪!

傳送門

文章連結:https://arxiv.org/abs/2006.09512

文章網站:http://visual-chirality.io

代碼連結:https://github.com/linzhiqiu/digital_chirality

相關焦點

  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    大數據文摘出品史上最難的的CVPR2020終於來了!由於疫情影響,今年原定於6.14開始的線下討論會改成位於西雅圖的線上會議。在剛剛結束的CVPR 2020 開幕式上,悉數公布了本屆CVPR最佳論文、最佳學生論文等獎項。值得一提的是,兩個獎項的論文一作均為華人。
  • CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多
    最佳論文、最佳學生論文,每年兩個最受矚目獎項論文一作都是華人,吳尚哲和Zhiqin Chen。經典論文獎,同樣被華人一作的論文拿下。最佳論文獎最佳論文(Best Paper Award),毋庸置疑,是每屆大會接收所有論文中的「最頂級者」。
  • 98後常春藤學霸林之秋,一作拿下CVPR最佳論文提名,首次挑戰圖片...
    在一眾獲獎論文作者中,年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的「98後」後浪——林之秋。這位常春藤的大四學生以第一作者身份提交的論文《Visual Chirality》(《視覺手性》)榮獲CVPR 2020 最佳論文提名 (Best Paper Nomination)。
  • 北大圖靈班本科生吳克文獲STOC 2020最佳論文獎
    機器之心報導參與:澤南今天,北京大學前沿計算研究中心官方公眾號報導稱,在全球計算機理論頂會 STOC 2020 上,北大本科生吳克文有兩篇論文發表,其中一篇獲得了最佳論文獎。根據北京大學前沿計算研究中心官方公眾號的報導,6 月 25 日,ACM 計算理論年會 STOC 2020 上傳來一條好消息:北京大學信息科學技術學院 16 級圖靈班學生吳克文參與的論文《Improved bounds for the sunflower lemma》榮獲會議最佳論文獎。
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    作者 | 陳大鑫今日上午, EMNLP 2020各項大獎出爐!其中最佳論文獎由加州大學伯克利分校的David Gaddy、Dan Klein兩人獲得,愛丁堡大學華人博士生 Yanpeng Zhao 獲得了最佳論文榮譽提名獎(共4篇)。另外,本屆大會的最佳 Demo 獎由大家所熟知的 Hugging Face 團隊摘得。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。  不久之前,谷歌發布了 2017 版學術指標。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。
  • 趙婷:她會是提名奧斯卡最佳導演的第一位華人女性嗎?
    第77屆威尼斯國際電影節於上周末閉幕,由38歲的中國導演趙婷執導、奧斯卡最佳女主角弗蘭西斯·麥克多蒙德主演的電影《無依之地》拿下最佳影片金獅獎,同時該片也拿下了本屆威尼斯電影節官方場刊的最高分。漫威首次選用華人女導演執導新片。
  • 【CVPR2018最佳論文重磅出爐】斯坦福伯克利折桂,何愷明獲TPAMI年輕研究員獎
    最佳論文最佳論文題目:Taskonomy: Disentangling Task Transfer Learning論文地址:https://arxiv.org/pdf/1804.08328.pdf作者來自史丹福大學和加州大學伯克利分校,包括計算機視覺領域的著名教授Jitendra
  • 中國本科生獲STOC最佳論文獎!北大圖靈班,正在頻頻交出答卷
    最新消息,一位江蘇常州的小哥哥一口氣中了2篇論文,還拿下了最佳論文獎。而且他還是名本科生,首位拿下STOC最佳論文獎的中國本科生。沒錯,就是那個理論計算機領域頂級會議,難度和含金量都穩居第一梯隊的STOC。他叫吳克文,畢業於江蘇省常州高級中學,2016年被北京大學錄取,2017年成為北大圖靈班首屆學生,現在即將成為北大圖靈班首屆畢業生。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    雷鋒網(公眾號:雷鋒網) AI 科技評論對6篇獲獎論文做了簡要介紹如下。CVPR最佳論文本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。CVPR最佳論文提名「Annotating Object Instance with a Polygon-RNN」論文作者:多倫多大學計算機學院Llu´ıs Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
  • CVPR 2020商湯斬獲3冠!62篇論文入選,算法工廠憑什麼領跑行業?
    魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI「視覺實力秀」,CVPR 2020 正在線上舉辦中。本屆 CVPR 號稱十年來最難的一屆,共接收 6656 篇論文,中選 1470 篇,錄用率僅為 22%,為十年來最低的一次。不過,中國軍團依然表現亮眼。學術界清華領銜,商湯則以62 篇論文入選的成績,領跑產業界。
  • ACCV 2020最佳論文等三項大獎出爐!華為諾亞獲最佳學生論文獎
    ACCV 2020 共錄用論文 255 篇,官方提供所有論文開放下載。官網連結:http://accv2020.kyoto/截止目前,大會已經公布了最佳論文獎、最佳學生論文獎、最佳應用論文獎等三項大獎,其中帝國理工和華為諾亞方舟合作獲得了最佳學生論文獎。以下AI科技評論就帶大家讓我們一起來看看這三項大獎吧 !
  • 印度天才學霸16歲獲奧賽金牌,21歲證明出拉姆齊數最佳結果
    【新智元導讀】剛滿21歲的印度學生Ashwin Sah提出了「五月證明」,這為組合數學中最重要的問題之一提供了最佳結果。這個成就在天才聚集的麻省理工學院也是極其突出的,加州理工學院的戴維·康隆(David Conlon)表示,Sah的貢獻使他已經有資格擔任教職,即使他還是一名本科生。本科生當教授?
  • CVPR2019開幕與頒獎儀式:最佳論文完成不可能的任務,上萬參會者...
    其實中國參會者的數字比雷鋒網 AI 科技評論預計的要少(個人感受是現場有 1/4 到 1/3 都是中國人),我猜測可能是因為有許多華人學者就是在美國、加拿大學習和工作的,這些數字無法直接體現出來;以及,來參會的韓國和日本學者、學生原來也不少啊。
  • 《原神》拿下谷歌&蘋果雙平臺2020年度最佳遊戲 大滿貫豐收!
    本文來自丨好遊快爆爆有料·呆毛哥此前我們報導了谷歌商店「年度最受歡迎遊戲」票選提名,《原神》入圍。12月1日,谷歌各區的年度獎項陸續公布,《原神》在美國、日本、中國香港等區都拿下了年度最佳遊戲。而12月2日,蘋果也公布了2020年度精選和遊戲,他們將年度iPhone遊戲頒給了《原神》,至此手遊雙平臺《原神》都拿下了最佳年度遊戲,恭喜米哈遊。
  • GPT-3獲NeurIPS最佳論文獎,華人學者獲經典論文獎
    包括GPT-3在內的三篇獲得最佳論文獎,一篇2011年論文獲得時間檢驗獎。最佳論文獎該論文的第一作者是當時還在威斯康星大學麥迪遜分校就讀博士的華人學者Feng Niu,他也是關於NeurIPS 2020今年NeurIPS共收到9454篇論文投稿,1900篇被接收,論文接收率僅為20.09%。
  • 2019 ACM博士論文獎公布,MIT學霸吳佳俊獲榮譽提名
    今日,2019 ACM 最佳博士論文獎公布,畢業於特拉維夫大學的 Dor Minzer 獲得該獎項。此外,來自微軟的 Jakub Tarnawski 和出身清華姚班的吳佳俊獲得榮譽提名獎。個人主頁:https://sites.google.com/view/dorminzer/home2019 ACM 最佳博士論文榮譽提名獎
  • 大三生獲最佳短論文獎,清華狂攬信息檢索頂會SIGIR2020多個獎項
    昨日,大會公布了最佳論文等獎項。來自清華大學的研究人員獲得最佳論文榮譽提名獎、最佳短論文獎獎項。ACM SIGIR 是信息檢索領域的頂級學術會議,今年是第 43 屆。據統計,SIGIR 2020 會議共收到投稿 1180 篇,接收 340 篇,接收率為 28.8%。
  • 信息科學技術學院本科生獲IEEE通信國際會議最佳論文獎
    北京大學信息科學技術學院2011級本科生廖昀、博士研究生王天宇、副教授邊凱歸、「百人計劃」特聘研究員宋令陽和美國休斯頓大學電子與計算機工程系副教授韓竹合作完成的論文《全雙工認知無線電中的分布式動態頻譜接入協議》(Decentralized dynamic spectrum access in full-duplex cognitive