Facebook AI 和 Cornell Tech 的研究人員近期發表研究論文預覽文稿,聲稱近十三年 (deep) metric learning 領域的研究進展(ArcFace, SoftTriple, CosFace 等十種算法) 和十三年前的基線方法(Contrastive, Triplet) 比較並無實質提高。真是這樣的嗎?
一、Paper「水」基本上是熱點領域研究的普遍現象
AI是不是「水」了60年呢(尤其是AI處於兩次發展低谷期的時候)?但總地來看,AI與工業界有著強結合,還好吧。
但看看管理學、教育學的熱門研究領域,或是一些熱門的文科領域的學術論文,灌水的研究是多了去了(打個比方,關於《紅樓夢》中紅色衣服的主色調,都有論文進行研究,如果從大眾常識的角度來看是灌水無疑,但從紅學研究的角度上看或許未必)。
個人理解,深度度量學習(Deep Metric Learning, DML) 的研究,在機器學習中還是有用的。
我們知道,機器學習很多的算法越來越依賴於在輸入空間給定的好的度量。例如K-means、K近鄰方法、SVM等算法需要給定好的度量來反映數據間存在的一些重要關係。這個問題在無監督的方法(如聚類)中尤為明顯。
其實,本質上看,機器學習算法幾乎都是在優化目標函數,從而求解目標函數中的參數。在高維空間進行機器學習任務時,往往會遇到樣本稀疏、距離難計算等諸多的問題,因此很多降維方法都試圖將原空間投影到一個合適的低維空間中,接著在低維空間進行學習任務從而產生較好的性能。於是,就按照降維後的方式來進行距離的計算,這是度量學習的初衷。
從另一方面看,度量學習已經應用在計算機視覺中的圖像檢索和分類、人臉識別、人類活動識別和姿勢估計,文本分析和一些其他領域如音樂分析,自動化的項目調試,微陣列數據分析。
比如,DML一個經典的應用就是人臉識別——Google 的FaceNet模型使用Triplet-Loss刷新了當時人臉識別的記錄,近兩年基於Softmax改進的Angular-Softmax, Additive Margin Softmax等在人臉識別成功應用的損失函數,都引入了度量學習的思想。
所以說,近13年來,不管DML灌水的論文有多少,是不是有進展,對於這個領域的研究和探索是有必要的,也是符合科研規律的事情。這其中,關於度量學習方法論研究的論文,對度量學習的研究產生了很大影響(最高的google引用量上了5000次)。當然 ,DML對人臉識別的Loss函數改進的論文是比較多的。
二、metric learning研究的高級特徵很少,學術研究確實容易「水」
由於Metric Learning本身的高級特徵很少,加上現在AI的學術研究容易碰到一個普遍問題:學界往往缺乏足夠大的相關數據集,問題研究的技術門檻很高,這進一步增加了加大研究投入的難度。比如人臉識別這個方向,應用程度現在已經是非常高了(精度可以達到99%以上),大家都覺得沒有太大的發展和突破空間。
至於像動態人臉識別、側臉識別、1:n對比這些方向,由於數據集和研究方向偏難的原因,工業界比學術界的研究動力會稍微大一些。一位高校老師曾和我說,人臉識別的應用已經很廣泛了,「學術界沒什麼可做的」。
事實上,整個Metric Learning還是偏理論的,比如研究者會發現,DML的特徵原來是呈這种放射型分布的,而放射型分布就可以從幅度和角度兩個方向來嘗試改進分類函數,於是要麼改改幅度,要麼改改角度,前幾年確實水了一堆paper(想了解的同學可以去看看近幾年頂會上關於Metric Learning的paper清單)。
另一方面,在人臉識別目前應用場景已經很廣泛的大環境下,無論是學術界還是工業界,感覺突破空間不大,學術界應該到了一個瓶頸,也因此都不太願意進行過高的研發投入。
所以看到開頭的問題,我就在想:做科研的本質是什麼呢?
比較理想的回答是探索、研究和解決科學問題、產業技術問題和社會問題吧。
寫paper是探索問題的一種方式和路徑(但絕不是全部),paper對於問題的解決,可能有效,也有可能無效,甚至還有可能投入了大量的人力、物力、財力,最後打了水漂,只得到個「經驗 」和「教訓」。
包括,學界對科研的爭議和爭鳴,比如懷疑某個領域十幾年來沒有進展,這也是正常的科研過程吧,平常心就好。