近13年來在 deep metric learning 領域的進展實際並不存在?

2021-01-10 箱子的未知世界

Facebook AI 和 Cornell Tech 的研究人員近期發表研究論文預覽文稿,聲稱近十三年 (deep) metric learning 領域的研究進展(ArcFace, SoftTriple, CosFace 等十種算法) 和十三年前的基線方法(Contrastive, Triplet) 比較並無實質提高。真是這樣的嗎?

一、Paper「水」基本上是熱點領域研究的普遍現象

AI是不是「水」了60年呢(尤其是AI處於兩次發展低谷期的時候)?但總地來看,AI與工業界有著強結合,還好吧。

但看看管理學、教育學的熱門研究領域,或是一些熱門的文科領域的學術論文,灌水的研究是多了去了(打個比方,關於《紅樓夢》中紅色衣服的主色調,都有論文進行研究,如果從大眾常識的角度來看是灌水無疑,但從紅學研究的角度上看或許未必)。

個人理解,深度度量學習(Deep Metric Learning, DML) 的研究,在機器學習中還是有用的。

我們知道,機器學習很多的算法越來越依賴於在輸入空間給定的好的度量。例如K-means、K近鄰方法、SVM等算法需要給定好的度量來反映數據間存在的一些重要關係。這個問題在無監督的方法(如聚類)中尤為明顯。

其實,本質上看,機器學習算法幾乎都是在優化目標函數,從而求解目標函數中的參數。在高維空間進行機器學習任務時,往往會遇到樣本稀疏、距離難計算等諸多的問題,因此很多降維方法都試圖將原空間投影到一個合適的低維空間中,接著在低維空間進行學習任務從而產生較好的性能。於是,就按照降維後的方式來進行距離的計算,這是度量學習的初衷。

從另一方面看,度量學習已經應用在計算機視覺中的圖像檢索和分類、人臉識別、人類活動識別和姿勢估計,文本分析和一些其他領域如音樂分析,自動化的項目調試,微陣列數據分析。

比如,DML一個經典的應用就是人臉識別——Google 的FaceNet模型使用Triplet-Loss刷新了當時人臉識別的記錄,近兩年基於Softmax改進的Angular-Softmax, Additive Margin Softmax等在人臉識別成功應用的損失函數,都引入了度量學習的思想。

所以說,近13年來,不管DML灌水的論文有多少,是不是有進展,對於這個領域的研究和探索是有必要的,也是符合科研規律的事情。這其中,關於度量學習方法論研究的論文,對度量學習的研究產生了很大影響(最高的google引用量上了5000次)。當然 ,DML對人臉識別的Loss函數改進的論文是比較多的。

二、metric learning研究的高級特徵很少,學術研究確實容易「水」

由於Metric Learning本身的高級特徵很少,加上現在AI的學術研究容易碰到一個普遍問題:學界往往缺乏足夠大的相關數據集,問題研究的技術門檻很高,這進一步增加了加大研究投入的難度。比如人臉識別這個方向,應用程度現在已經是非常高了(精度可以達到99%以上),大家都覺得沒有太大的發展和突破空間。

至於像動態人臉識別、側臉識別、1:n對比這些方向,由於數據集和研究方向偏難的原因,工業界比學術界的研究動力會稍微大一些。一位高校老師曾和我說,人臉識別的應用已經很廣泛了,「學術界沒什麼可做的」。

事實上,整個Metric Learning還是偏理論的,比如研究者會發現,DML的特徵原來是呈這种放射型分布的,而放射型分布就可以從幅度和角度兩個方向來嘗試改進分類函數,於是要麼改改幅度,要麼改改角度,前幾年確實水了一堆paper(想了解的同學可以去看看近幾年頂會上關於Metric Learning的paper清單)。

另一方面,在人臉識別目前應用場景已經很廣泛的大環境下,無論是學術界還是工業界,感覺突破空間不大,學術界應該到了一個瓶頸,也因此都不太願意進行過高的研發投入。

所以看到開頭的問題,我就在想:做科研的本質是什麼呢?

比較理想的回答是探索、研究和解決科學問題、產業技術問題和社會問題吧。

寫paper是探索問題的一種方式和路徑(但絕不是全部),paper對於問題的解決,可能有效,也有可能無效,甚至還有可能投入了大量的人力、物力、財力,最後打了水漂,只得到個「經驗 」和「教訓」。

包括,學界對科研的爭議和爭鳴,比如懷疑某個領域十幾年來沒有進展,這也是正常的科研過程吧,平常心就好。

相關焦點

  • Facebook 爆錘深度度量學習:該領域13年來並無進展!網友:滄海橫流...
    作者 | 蔣寶尚編輯 | 賈偉近日,Facebook AI 和 Cornell Tech 的研究人員近期發表研究論文預覽文稿,聲稱近十三年深度度量學習(deep metricmetric learning) 領域的目前研究進展和十三年前的基線方法(Contrastive, Triplet) 比較並無實質提高,近期發表論文中的性能提高主要來自於不公平的實驗比較, 洩露測試集標籤,以及不合理的評價指標。
  • 某些AI領域多年無實際進展
    他們通過對比81相關篇論文,並在對照條件下對數百個模型進行修剪後,明顯發現神經網絡剪枝這一領域並沒有標準化的基準和指標。換句話說,當前最新論文發表的技術很難進行量化,所以,很難確定該領域在過去的三十年中取得了多少進展。主要表現在:1、許多論文雖然聲明提高了技術水平,但忽略了與其他方法進行比較(這些方法也聲稱達到了SOTA)。
  • Multi-Label Classification with Deep Learning
    Neural network models for multi-label classification tasks can be easily defined and evaluated using the Keras deep learning library.
  • ​大牛的《深度學習》筆記,Deep Learning速成教程
    計算機和人工智慧的鼻祖,分別對應於其著名的「圖靈機」和「圖靈測試」)在 1950 年的論文裡,提出圖靈試驗的設想,即,隔牆對話,你將不知道與你談話的,是人還是電腦。這無疑給計算機,尤其是人工智慧,預設了一個很高的期望值。但是半個世紀過去了,人工智慧的進展,遠遠沒有達到圖靈試驗的標準。這不僅讓多年翹首以待的人們,心灰意冷,認為人工智慧是忽悠,相關領域是「偽科學」。
  • 代碼+實戰:TensorFlow Estimator of Deep CTR——DeepFM/NFM/AFM/...
    深度學習在 ctr 預估領域的應用越來越多,新的模型不斷冒出。從 ctr 預估問題看看 f(x) 設計—DNN 篇整理了各模型之間的聯繫之後,一直在琢磨這些東西如何在工業界落地。經過幾個月的調研,發現目前存在的一些問題:開源的實現基本都是學術界的人在搞,距離工業應用還有較大的鴻溝模型實現大量調用底層 API,各版本實現千差萬別,代碼臃腫難懂,遷移成本較高單機,放到工業場景下跑不動針對存在的問題做了一些探索,摸索出一套可行方案,有以下特性:讀數據採用 Dataset API,支持 parallel and prefetch 讀取通過
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • 小樣本學習(Few-shot Learning)綜述
    本文先介紹Few-shot Learning定義;由於最近幾年Few-shot Learning在圖像領域的進展領先於在自然語言處理領域,所以第二部分結合其在圖像處理領域的研究進展,詳細介紹Few-shot Learning的三類典型方法及每種方法的代表性模型;接下來介紹在自然語言處理領域的研究進展以及我們對 metric-based 的方法進行系統總結後提出的 few-shot learning
  • 全面回顧2020年圖機器學習進展,12位大神論道、寄望2021年大爆發!
    目前,我們還不確定下一代圖機器學習算法應該是怎樣的,但是我們相信該領域的進步有賴於大家擺脫在 2020 年及以前佔據主導地位的消息傳遞機制。在 2021 年,我們希望圖機器學習技術能夠走進更具影響力和挑戰性的應用領域。近年來,有太多研究工作都著眼於簡單、同質化的節點分類任務。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    2016年Google與facebook兩個大拿在圍棋領域基於深度學習都發表了文章,其中facebook文章如下:《BETTER COMPUTER GO PLAYER WITH NEURAL NET- WORKAND LONG-TERM PREDICTION》 ;Google文章如下:《Mastering the game of Go with deep neural networks and tree
  • 清華大學董胤蓬:Adversarial Robustness of Deep Learning
    這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。
  • Science:AI領域那麼多引人注目的「進展」,竟是無用功
    選自Science作者:Matthew Hutson機器之心編譯參與:魔王近日,一篇 Science 社論文章梳理了近年來 AI 各子領域的進展,發現看似紅紅火火的領域實際上毫無進展但是一些改進來自於微調,而不是其創造者所說的核心創新,甚至有些改進根本不存在,MIT 計算科學與人工智慧實驗室博士 Davis Blalock 如是說。Blalock 及其同事對比了數十種神經網絡改進方法,發現「看完五十篇論文,愈發不明白當前最優性能是什麼樣了」。他們一共評估了 81 種剪枝算法,即通過修剪不必要的連接提高神經網絡效率的方法。
  • Scientometrics 論文發表
    Scientometrics, 1-12. doi:10.1007/s11192-016-1896-3論文已在Scientometrics雜誌發表,目前是Online First狀態。該論文通過檢索大型學術英語語料庫,研究了不同學科學術英語中形容詞和副詞的使用情況。
  • 【NIPS2017最新Tutorial】幾何深度學習(Geometric Deep Learning )講解(附slide下載)
    NIPS是人工智慧和機器學習領域的頂會,來自世界範圍內優秀的科學家、研究人員和從業者都將匯聚一堂,相互切磋工作,將在未來的五天裡共同討論和分享人工智慧的前沿想法和未來發展。每年 NIPS 的會議上,都會有非常重量級的 tutorial 和工作發表。
  • 【徵稿】Evolutionary Transfer Learning and Transfer Optimisation
    Transfer learning is now a hot topic in data mining and machine learning, which has attracted increasing attention from many disciplines.
  • 2012年至今,細數深度學習領域這些年取得的經典成果
    那麼, 自2006年Hinton發表經典論文以來,深度學習領域又取得了哪些突破性成果呢?Google Brain前員工Denny Britz 在本文中進行了回顧整理,按時間順序介紹了從2012年到2020年深度學習領域的數項關鍵性科研成就,包括運用AlexNet和Dropout處理ImageNet(2012年)、使用深度強化學習玩Atari遊戲(2013年)、應用注意力機制的編碼器-解碼器網絡(2014年)、生成對抗網絡(2014-2015年)、
  • Machine Learning: 一部氣勢恢宏的人工智慧發展史
    以後如果響鈴但是不給食物,狗也會流口水。1950年,阿蘭·圖靈創造了圖靈測試來判定計算機是否智能。圖靈測試認為,如果一臺機器能夠與人類展開對話(通過電傳設備)而不能被辨別出其機器身份,那麼稱這臺機器具有智能。這一簡化使得圖靈能夠令人信服地說明「思考的機器」是可能的。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    learning)方法在人工智慧方面取得了矚目的成就,從 Atari 遊戲、到圍棋、再到無限制撲克等領域,AI 的表現都大大超越了專業選手,這一進展引起了眾多認知科學家的關注。第一代 Deep RL:強大但緩慢在過去的幾年裡,人工智慧研究取得了革命性的進展。神經網絡和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。