歷史需要重寫?AlexNet之前,早有算法完成計算機視覺四大挑戰

2020-11-23 騰訊網

機器之心報導

機器之心編輯部

2012 年,深度學習三巨頭之一、圖靈獎得主 Geoffrey Hinton 的學生 Alex Krizhevsky 提出了 AlexNet,並在當年度的 ILSVRC(ImageNet 大規模視覺挑戰賽)以顯著的優勢獲得當屆冠軍,成績遠超第二名。這一成績引起了學界和業界的極大關注,計算機視覺也開始逐漸進入深度學習主導的時代。但這樣一個劃時代的研究最近也受到了質疑。

近日,有網友在 reddit 上聲稱,Jurgen Schmidhuber 團隊的 Dan Ciresan 提出的 DanNet(也是一種基於 CUDA 的卷積神經網絡)先於 AlexNet 完成了四項圖像識別挑戰。

DanNet 早於 AlexNet 的有力證據

發帖者在 reddit 中展示了如下一些證據:

1. 發帖者從 Jurgen 發表的《Deep Learning: Our Miraculous Year 1990-1991》第 19 章節的參考文獻中看出了端倪;

2. 發帖者表示,在 AlexNet(2012 年 ImageNet 競賽冠軍)之前,Jurgen 團隊的羅馬尼亞博士後 Dan Ciresan 就已在 2011 年 5 月 15 日和 2012 年 9 月 10 日之間贏得了四項重要的計算機視覺競賽,所採用的 CUDA CNN 姑且稱為 DanNet;

圖中紅框標註的 IDSIA 即 Dan Ciresan 等人所在的團隊,他們在 2011 年 5 月 15 日和 2012 年 9 月 10 日期間贏得了中文書寫、交通標識、腦區域分割和癌症檢測四項重要的計算機視覺競賽。

3. 發帖者曾看到有新聞報導稱,AlexNet 在 2012 年開啟了深度學習革命,但事實上根據 Jurgen 的文章,DanNet 在 2011 年就成為首個贏得 superhuman 視覺模式識別競賽的方法,並且還採用比 AlexNet 更大的圖像贏得了醫療成像競賽;

Dan Ciresan 參與首次贏得了 superhuman 視覺模式識別競賽。

Dan Ciresan 參與贏得了乳腺癌組織學圖像的有絲分裂檢測競賽。

4. DanNet 被引最多的論文《Multi-column Deep Neural Networks for Image Classification》(CVPR,2012 年 7 月)要比介紹 AlexNet 的論文《ImageNet Classification with Deep Convolutional Neural Networks》(NIPS,2012 年 12 月)早了 5 個月,但關於 DanNet 更早的論文出現在 IJCAI 2011 和 IJCNN 2011 會議上;

Dan Ciresan 的論文。

Alex Krizhevsky 的論文。

5. 公平地說,AlexNet 引用了 DanNet,並承認兩者相似,但 AlexNet 並沒有提到 DanNet 曾早於它贏得了四項計算機視覺挑戰;

6. ResNet 在 2015 年的 ImageNet 競賽中擊敗了 AlexNet,但 ResNet 實際上是更為早期的 Highway networks 的一個特例,後者也是 Jurgen 實驗室最早提出的,在「第一個超過 100 層的可行前向傳播網絡」中,Jurgen 把他們的先行性研究歸功於自己的學生 Rupesh Kumar Srivastava 和 Klaus Greff。

Jurgen 認為微軟的 ResNet 是其團隊提出 Highway Nets 的一種特例。

7. 在 Jurgen 文章的第五章節中,他詳述了「GAN 的起源」,而在第四章節中,他介紹了 2009 年獲得成功的 LSTM。上述內容大家已經耳熟能詳,不過大多數人可能還不知道 Jurgen 團隊還是第一個在 CUDA 上搞 CNN 並取得成功的。

以上就是發帖者認為 DanNet 先於 AlexNet 出現的一些文獻證據。

世間欠 Schmidhuber 一個圖靈獎?

那麼這樣看來,當今深度學習的很多概念,都是 30 年前 LSTM 之父 Jürgen 玩過的?Reddit 上熱鬧的討論,源自於今年 10 月,Jürgen Schmidhuber 專門對此發表的一篇文章,其詳細論述了近 30 年前(1990-1991 年間)他和團隊所進行的很多研究。據他本人稱,其中的研究思想為當今的許多深度學習前沿研究奠定了基礎,包括 LSTM、元學習、遺忘門機制、注意力和強化學習等。

人們對於 Jürgen Schmidhuber 的印象通常是「LSTM 之父」,他來自德國,現任瑞士 Dalle Molle 人工智慧研究所負責人,是人工智慧領域的著名學者。在 LSTM 之外,他還一直認為近年來發展很快的 GAN 模型是其早在 1992 年提出的 PM 模型的變體。除此之外,他還在語音識別等方向上有著不小的貢獻。

在今年 3 月,計算機領域最高榮譽圖靈獎頒發給深度學習三巨頭 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 之後,有關「學界欠 Jürgen 一座圖靈獎」的討論一時變得熱鬧起來。

人工智慧著名學者,南京大學人工智慧學院院長周志華也曾表示:「要論對深度學習的貢獻,Hinton 無疑居首,LeCun 和 Schmidhuber 貢獻都很大。但 HLB 總捆綁在一起,而 S 跟 HLB 都不對勁……獲獎需有提名有投票,人緣也重要……不過沒關係,有 LSTM 這樣教科書級的貢獻足以淡定。」

Jürgen 本人對於自身學術地位「遭受不公待遇」一直頗有微詞,他近年來總是在各個場合宣揚自己的創造性研究,甚至不惜與其他著名學者公開對質(你或許會對 Jürgen 在人工智慧頂會 NIPS 2016 現場大戰「GAN 之父」Ian Goodfellow 的事件記憶猶新)。因此,人們對於 Jürgen 的看法也呈現兩極分化的情形。

今天的討論也沒有例外,在 DanNet 超前於 AlexNet 討論剛剛開始的時候,佔上風的觀點是這樣的:

好了好了,Jürgen 就是我們的造物主。

但總的來說,對於個人性格的調侃還是要讓位於理性,人們最終還是認為 Jürgen Schmidhuber 確實吃了名聲的虧。

正視他的貢獻吧,網友說道:

雖然我們都在幸災樂禍,但 Jürgen 的確配得上獲得圖靈獎。在 LSTM 之外,他的很多研究都令人印象深刻。

在計算機科學領域裡,有很多個性乖張的學者,特立獨行總是不受歡迎的。但我總是奇怪人們會拿這個理由來評判他們的學術貢獻。

我認為目前以北美為中心的 CS 學術體系完全壓制了全球其他研究機構類似的貢獻。

參考連結:https://www.reddit.com/r/MachineLearning/comments/dwnuwh/d_dannet_the_cuda_cnn_of_dan_ciresan_in_jurgen/

機器之心「SOTA模型」22大領域、127個任務,機器學習 SOTA 研究一網打盡。

相關焦點

  • 臉書開源Detectron計算機視覺算法
    【網易智能訊 1月26日消息】Facebook本周宣布Detectron開放原始碼正式向大眾公開,該項目也是Facebook基於深度學習框架進行設計的關於計算機視覺對象檢測算法平臺。該公司表示,開放該項目的動機是加速計算機視覺研究,並且Facebook公司內部團隊正在使用該代碼進行各種應用測試,其中就包括針對增強現實技術的研究。
  • 加速AR對象分類,Facebook開源計算機視覺算法Detectron
    >)Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron。Facebook表示,開源項目是為了加速計算機視覺的研究。目前Facebook內部團隊正把Detectron平臺用於一系列的研究,比如增強現實。在2017年9月30日的一篇文章中,映維網曾介紹過實時對象分類是AR面臨的一大挑戰:令計算機視覺能夠理解「杯子」,而不僅僅只是看到一個形狀,這是一個非常重要的問題。
  • 加速AR對象分類 Facebook開源計算機視覺算法Detectron
    Facebook今天正式開源基於深度學習框架的計算機視覺對象檢測算法平臺Detectron。Facebook表示,開源項目是為了加速計算機視覺的研究。目前Facebook內部團隊正把Detectron平臺用於一系列的研究,比如增強現實。
  • 為提升AR對象分類,Facebook開源Detectron計算機視覺算法
    Facebook本周宣布開放Detectron,即該公司基於深度學習框架的計算機視覺對象檢測算法平臺。該公司表示,開放項目的動機在於加速計算機視覺研究,Facebook團隊正在使用該平臺開發各種應用,包括增強現實技術。
  • 一文帶你讀懂計算機視覺
    有好幾種算法可以做到這一點。https://github.com/nodefluxio/face-detector-benchmark 提供了這些方法在速度上的基準,並且易於重用實現代碼。計算機視覺是高度計算密集型的(在多個gpu上進行數周的訓練)並且需要大量數據。為了解決這個問題,我們已經討論過為人臉計算出通用的嵌入embeddings。另一種方法是採用現有網絡並在其他數據集上重新訓練,訓練時僅僅訓練其中的幾層。
  • 視覺感知-從人類視覺到計算機視覺
    但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。實驗表明,視覺皮層細胞對邊緣的方向敏感,但對邊緣的位置不敏感。他們得出結論,視覺皮層中有3種類型的細胞:簡單,複雜和超複雜。視覺處理從簡單的單元格開始,這意味著它從學習簡單的事物(即邊和角)開始。這為現代計算機視覺奠定了基礎。
  • 人工智慧---計算機的視覺與語音技術
    剛出生的嬰兒只需要幾天的時間就能學會模仿父母的表情,人們能從複雜結構的圖片中找到關注重點、在昏暗的環境下認出熟人。隨著人工智慧的發展,機器也試圖在這項能力上匹敵甚至超越人類。計算機視覺的歷史可以追溯到1966年,人工智慧學家Minsky在給學生布置的作業中,要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什麼,這也被認為是計算機視覺最早的任務描述。
  • 計算機視覺已橫跨感知與認知智能
    現階段有較好商業化進展的主要為語義感知中的分類任務   與人類實時選擇性處理視覺信息不同(如人在駕駛時不需在意公路邊草地的紋理或形狀,也不用知道每輛車的確切形狀),計算機仍難以從實際需求出發自主選擇性輸入並計算影像信息,通常需要人類對具體任務進行分解並使用與之匹配的計算方法,建立完整理想的智能視覺系統仍有很大挑戰。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    早就是優勢,學習切忌單打獨鬥,這裡有教程資料、練習作業、答疑解惑等,優質學習圈幫你少走彎路,快速入門!單目微運動生成深度圖計算機視覺方向簡介 | 深度相機室內實時稠密三維重建計算機視覺方向簡介 | 深度圖補全計算機視覺方向簡介 | 人體骨骼關鍵點檢測綜述計算機視覺方向簡介 | 人臉識別中的活體檢測算法綜述計算機視覺方向簡介 | 目標檢測最新進展總結與展望計算機視覺方向簡介 |
  • 計算機視覺中,有哪些比較好的目標跟蹤算法?(上)
    《計算機視覺中,目前有哪些經典的目標跟蹤算法?》相信很多來這裡的人和我第一次到這裡一樣,都是想找一種比較好的目標跟蹤算法,或者想對目標跟蹤這個領域有比較深入的了解,雖然這個問題是經典目標跟蹤算法,但事實上,可能我們並不需要那些曾經輝煌但已被拍在沙灘上的tracker(目標跟蹤算法),而是那些即將成為經典的,或者就目前來說最好用、速度和性能都看的過去tracker。
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的「智力」
    但是現在,AlphaGo 已經擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類競賽者,而大多數計算機視覺軟體最多只能完成 3 歲兒童的任務……理論與實踐不斷證明,人類視覺神經非常複雜,計算機視覺實現並非易事。計算機視覺研究從上世紀 50 年代興起之後,也歷經了狂歡、冷靜,又重新燃起希望的階段。
  • 計算機視覺和圖像處理之間有什麼區別?
    整個過程是一個非常複雜的現象,並且使機器在人類層面上解釋這一點一直是一個挑戰。現代機器視覺系統背後的的核心動機在於模擬人類視覺,用於識別圖案,面部以及將將2D圖像轉化為3D模型等。在概念層面,圖像處理和計算機視覺之間存在很多重疊,並且經常被誤解的術語可以互換使用。
  • 理論計算機有哪些特別的算法,它們的算法複雜性很高嗎?
    算法算法的出現遠遠早於計算機的出現,比如我們在小學時學過的通過列豎式的方法來計算兩個整數乘積,再比如,用著名的歐幾裡得的輾轉相除法來求兩個整數的最大公約數。很多好的算法,比如快速排序算法、高斯消元法快速傅立葉變換等,是計算機如今能在生產和生活中有如此廣泛應用的基礎。雖然算法因問題而異,但一些設計算法的方法,總會在不同的場景出現。
  • 移動機器人的幾種視覺算法 | 雷鋒網公開課
    移動機器人的視覺算法種類Q:實現定位導航、路徑規劃以及避障,那麼這些過程中需要哪些算法的支持?談起移動機器人,很多人想到的需求可能是這樣的:「嘿,你能不能去那邊幫我拿一杯熱拿鐵過來。」這個聽上去對普通人很簡單的任務,在機器人的世界裡,卻充滿了各種挑戰。
  • 計算機視覺系統怎樣剖析「看到」的一切?
    本文將引導你完成搭建計算機視覺系統的一些主要步驟。計算機視覺系統的標準工作流程是:· 一組圖像進入系統。· 為了對這些圖像進行預處理並提取特徵,使用特徵提取器。圖像進入系統在嘗試實現計算機視覺系統時,需要考慮兩個主要組件:圖像採集硬體和圖像處理軟體。構建計算機視覺系統要滿足的一個主要要求是測試其魯棒性。實際上,系統應該能夠適應環境變化(例如光源、方向、縮放比例的變化),並能夠重複執行其設計任務。
  • 港科大教授權龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018
    相信到時候將有上萬人參加,我們需要擔憂的是哪裡能找到可容納這麼多人的場地。什麼是計算機視覺?計算機視覺的本質是對圖像進行理解。「理解」這個詞沒有準確的定義,事實上計算機無法做到「理解」,只能做到認知。計算機視覺的終極目的就是達到認知。我們研究計算機視覺的目的是得到視覺特徵,有了視覺特徵才能開展一系列的工作。
  • 從製造到零售,聯想計算機視覺技術持續推動行業智能廣泛落地
    這其中的一個重要方面,就是將更多的勞動者從單調、繁重、且低收入的重複勞動中解放出來,讓他們投入到更需要人工、並能創造更大價值的崗位上。製造業中的質量檢測環節就是一個典型例子。以筆記本電腦屏幕缺陷檢測為例,傳統方案使用人工肉眼檢測,不僅耗時長、成本高、經驗難以積累,還會給工人造成極大的疲勞,長期甚至會有致病風險。因此,現在企業開始越來越多地採用人工智慧來解決這個問題。
  • AR算法原理及深度學習在計算機視覺中的應用
    那麼,AR識別技術背後的算法原理是什麼,以及計算機視覺與深度學習在AR中的應用熱點趨勢有哪些?本次分享會從圖像特徵提取、特徵匹配與圖像變換、深度學習算法等方面給你進行深入淺出的技術展現,讓AR識別技術不再成為難以逾越的技術壁壘。
  • SLAM算法解析:抓住視覺SLAM難點,了解技術發展大趨勢
    在無人駕駛方面,可以使用 SLAM 技術提供視覺裡程計功能,然後跟其他的定位方式融合。機器人定位導航方面,SLAM 可以用於生成環境的地圖。基於這個地圖,機器人執行路徑規劃、自主探索、導航等任務。SLAM 技術的發展距今已有 30 餘年的歷史,涉及的技術領域眾多。由於本身包含許多步驟,每一個步驟均可以使用不同算法實現,SLAM 技術也是機器人和計算機視覺領域的熱門研究方向。
  • 在量子計算機到來之前,請準備好抗量子破解的密碼學
    不過,由於密碼系統更迭需要很長的時間,所以儘管看上去為時尚早,美國國家標準與技術局(NIST)卻已經從學術界和工業界徵集研究人員,希望在2022年之前準備好抗量子破解的密碼學(quantum-resistant cryptography)。