神經網絡技術解析:手寫數字識別項目解讀

2021-01-21 電子發燒友
打開APP
神經網絡技術解析:手寫數字識別項目解讀

澤南 張倩 發表於 2021-01-13 15:50:11

手寫數字識別是很多人入門神經網絡時用來練手的一個項目,但就是這麼簡單的一個項目,最近在 reddit 上又火了一把,因為在 MIT 計算機科學和人工智慧實驗室,有人挖到了一個「祖師爺」級別的視頻……

這段視頻錄製於 1993 年,主人公是圖靈獎得主 Yann LeCun(楊立昆)。彼時 LeCun 才 32 歲,剛剛進入貝爾實驗室工作,而視頻裡機器學習識別的第一段數字 201-949-4038,是 LeCun 在貝爾實驗室裡的電話號碼。   從這段視頻中我們可以看到,LeCun 在 90 年代初創造的文本識別系統已經達到了驚人的速度和準確率,這在當時的條件下是非常難能可貴的。

這段視頻由貝爾實驗室自適應系統研究部門主任 Larry Jackel 拍攝(Larry 當時是 LeCun 的 boss,現任英偉達自動駕駛顧問)。視頻中出鏡的還有實驗室負責人 Rich Howard(Larry 的 boss)和研究工程師 Donnie Henderson。Yann LeCun 本人表示:「Donnie Henderson 將整個演示系統整合在了一起…… 整套系統在算力為 20MFLOPS 的 DSP 版上運行。」

幾位工程師在視頻中洋溢的笑容也頗具感染力。

LeCun 表示,1993 年的文字識別系統已經用上了卷積神經網絡(CNN),自己在這套系統中編寫了一種網絡數據結構的編譯器,並生成了可編譯的 C 語言代碼,在原始碼中以權重和網表(netlist)代表文字。   這段視頻的驚豔之處還在於,它比經典手寫數字數據集 MNIST 的問世還要早 6 年。

其實,早在 1989 年,LeCun 就已經發表了「將反向傳播用於手寫郵政編碼識別」的相關研究,而且已經在美國的郵政系統中成功應用。隨後,這一系統的應用範圍擴展至銀行支票。90 年代末期,該系統已經處理了美國 10%-20%的支票識別。

1999 年,LeCun 等人聯合發表了「MNIST」手寫數字數據集。這一數據集包含數萬個樣本,被稱為「計算機視覺領域的 hello world 數據集」、「機器學習界的果蠅」,如今已經作為基準被使用了二十餘年。

在看了這段視頻之後,有研究者感嘆,「不要再抱怨 GPU 算力不夠了」。

深度學習先驅 Yann LeCun   說起 Yann LeCun,熟悉人工智慧領域的人肯定不會陌生,Yann LeCun 現在是紐約大學教授、美國工程院院士、Facebook 副總裁和首席 AI 科學家。   在深度學習還未流行的 20 世紀八九十年代,LeCun 與另兩位先驅者 Yoshua Bengio、Geoffrey Hinton 一道探索了深度學習領域的概念基礎,並通過實驗向人們展示了新方法的前景。此外,他們還貢獻了一系列工程進展,展示了深度神經網絡的實用優勢。   雖然在二十世紀八十年代,研究者就開始試用人工神經網絡幫助計算機識別模式、模擬人類智能,但直到二十一世紀的前幾年,這種方式仍未獲得廣泛認同,LeCun 等研究者試圖重燃 AI 社區對神經網絡興趣的努力曾經一直被人們質疑,但如今他們的想法帶來了重大的技術進步,他們的方法也已成為該領域的主導範式。   自 2012 年以來,深度學習方法促進計算機視覺、語音識別、自然語言處理和機器人技術等應用領域取得極大突破。   在 2019 年,美國計算機協會 ACM 公布了上一年度的圖靈獎,Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 三位深度學習巨頭同時獲獎。

從左至右:Yoshua Bengio、Geoffrey Hinton、Yann LeCun。   ACM 表示,Yann LeCun 主要作出了三大貢獻:

提出卷積神經網絡 改進反向傳播算法 拓寬神經網絡的視角

20 世紀 80 年代後期,LeCun 就職於多倫多大學和貝爾實驗室,也是在這一時期,他利用手寫數字圖像訓練了第一個卷積神經網絡系統。如今,卷積神經網絡已成為計算機視覺、語音識別、語音合成、圖像合成和自然語言處理領域的行業標準。卷積神經網絡有著廣泛的應用,如自動駕駛、醫學圖像分析、語音助手和信息過濾等。   這可不是搞定 MNIST 那麼簡單   與我們通常為 MINIST 數據集構建文字識別系統不同,Yann LeCun 在 1993 年展示的技術可是用攝像頭直接拍攝的,還需要搞定文字縮放、位置等問題,後來也確實在郵政系統裡獲得了應用。   如此看來在當年就能實現這樣的效果確實不容易,更何況在 20 世紀 90 年代,研究者們是沒有 TensorFlow 可用的,全靠 C 語言手寫,這個問題求解的非機器學習部分與其說是困難,不如說是繁瑣。   在社交網絡中,人們對 LeCun 展示的算法除了感興趣,還有讚譽和膜拜,有人說道:「這並不是說他們在 1993 年就解決了 MNIST 上的問題,比那還要更進一步。」   在深度學習被 GPU 帶動開展大規模應用以前,人工智慧算法其實已經實現了相當的聰明程度。在 1993 年的文字識別之後,昨天,人們又挖出了 LeCun 參與的另一項研究:人臉檢測。

在 2003 年,一個視頻展示了 Rita Osadchy、Matt Miller 以及 Yann LeCun 等人在 NEC 實驗室的研究,使用卷積神經網絡進行人臉檢測研究。   雖然只是人臉檢測而不是人臉識別,但這種技術的意義不言而喻,如今自動駕駛汽車上的障礙物檢測方法使用的就是和它相同的技術。在推特上,LeCun 也點讚了這段視頻。

 

看來,如今我們在機器學習領域廣泛使用的方法,早在幾十年前就已完成了整體架構。   不過與此同時,也有網友發出了直擊靈魂的提問:「既然 LeCun 在 1993 年就可以讓 AI 這樣識別文字了,為啥直到今天大多數網站仍然認為文字驗證碼是識別機器人的好辦法?」  
編輯:hfy

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 什麼是人工智慧神經網絡? 神經網絡是怎麼應用到各領域的?|什麼|...
    歷史上,科學家還設計過多層的神經網絡,每一層都會對前一層傳來的結果進行再次加工,目的是模擬出一種「深思熟慮」的感覺,但最後發現結果準確度並沒有提高,有的時候還會陷入誤區,就像人容易朝著一個思路越陷越深,最後鑽牛角尖了一樣。隨著技術進步,讓這一問題得到改善。現在,最厲害的神經網絡技術不但已經非常接近人腦,還排除了很多人腦自身存在的低效的思維方式。
  • 用於英文字母識別的三種人工神經網絡的設計
    人工神經網絡已經被廣泛應用於模式識別、信號處理、專家系統、優化組合、智能控制等各個方面,其中採用人工神經網絡進行模式識別具有一些傳統技術所沒有的優點:良好的容錯能力[2j、分類能力、並行處理能力和自學習能力,並且其運行速度快,自適應性能好,具有較高的解析度。單層感知器、BP網絡和霍普菲爾德網絡均可以用於字符識別。
  • 科學家在試管中創建由DNA構成的人工神經網絡
    目前,科學家在實驗室裡研製一種完全由DNA製成的人工神經網絡,能夠模仿大腦工作形成自己的「記憶」。這種位於試管中的人工智慧系統通過識別手寫數字,可以解決典型的機器學習問題。科學家表示,這項工作是證實人工智慧植入人造有機電路的一個重要步驟。
  • 全棧AI工程師指南,DIY一個識別手寫數字的web應用
    model.evaluate(X_test, Y_test, verbose=) print('Test score:', score[]) print('Test accuracy:', score[1]) 步驟11 #保存神經網絡的結構與訓練好的參數
  • 科學家創建由DNA構成的人工神經網絡,能夠模仿大腦形成記憶
    他們的最終目標是對智能行為進行編程處理,例如:有能力進行計算和做出選擇,以及更多的活動,整個過程核心部分是用DNA製造的人工神經網絡。來自美國加州理工學院的專家們針對電子人工神經網絡進行挑戰性設計——識別人類筆跡。這是機器人視覺研究人員解決的首要任務之一,也是一種理想的方法來說明基於DNA的神經網絡能力。
  • 手把手跟我入門機器學習(1)——手寫體識別模型
    所以文檔後面介紹的都是關於 監督學習,因為手寫體識別需要有一些訓練集告訴我這些圖像實際上應該是什麼數字,不過監督學習的方法也有很多,主要有分類和回歸兩大類:回歸 (Regression): 例如經典的房價預測,這類問題得到的結果是連續的,例如房價是會連續變化的,有無限多種可能,不像手寫體識別那樣只有 0-9 這 10 種類別。這樣看來,接下來介紹的手寫體識別是一個 分類問題。
  • 3D 列印造出人工神經網絡,UCLA團隊實現全光學機器學習
    加州大學洛杉磯分校的電氣工程師 Aydogan Ozcan 希望改變這種情況,所以他的研究團隊同時使用了機器學習技術、光學工具和 3D 列印技術,開發出了可高速識別物體的識別系統。不像普通的計算機,這種系統不需要提供外接電源,只需要提供初始光源和一個簡單的探測器即可。
  • 3D列印出來的深度神經網絡,光速求解AI數學運算
    來自加州大學洛杉磯分校(UCLA)的研究人員利用 3D 列印技術列印出了固態的神經網絡,並且利用層級傳播的光衍射來執行計算,實現了手寫數字的圖像識別,相關成果已發表在《science》雜誌上。這一想法看似新奇,其實也很自然。神經網絡中執行的是線性運算,恰好和光衍射的線性相互作用對應,神經元的權重、激活值概念也能和光的振幅、相位對應(可調)。
  • 對人工神經網絡「開刀」,利用神經科學消融法檢測人工神經網絡
    當談及人工神經網絡,黑箱問題總會引起熱議,人們對黑箱問題的評價褒貶不一。有人認為黑盒是神經網絡的優勢,這代表神經網絡的自主學習性,代表其自動學習以及自動完善的特性。在他們發表在 arXiv 上的論文中,研究者在人工神經網絡中使用了名為「消融」(ablation)的技術,原本是應用於神經科學的一種技術,即在神經網絡中切除大腦的某些神經元來確定它們的功能。「我們的想法源自於神經科學領域的研究,該領域的主要目標是理解我們的大腦是如何工作的。」
  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • C#與人工智慧(第3講)創建神經網絡
    首先,按照《C#與人工智慧(第2講)創建WinForm程序》所述,創建一個Windows窗體應用項目。然後,滑鼠右擊解決方案面板裡的項目名稱WindowsFormsApp3。從彈出菜單裡,選擇「管理NuGet程序包」。
  • 孫啟超:卷積神經網絡在人臉識別技術中的應用 | AI研習社第51期猿...
    隨著 iPhone X 的發布,Face ID 人臉識別技術開始進入人們的日常生活中,當我們拿起手機並看著它的時候就可以實現手機解鎖的功能。而人臉識別中的關鍵技術就是卷積神經網絡。近日,在雷鋒網 AI 研習社公開課上,法國蒙彼利埃大學孫啟超就講述了卷積神經網絡的基本原理以及人臉識別技術是如何運行的。
  • 入門| Tensorflow實戰講解神經網絡搭建詳細過程
    【IT168 技術】之前我們講了神經網絡的起源、單層神經網絡、多層神經網絡的搭建過程、搭建時要注意到的具體問題、以及解決這些問題的具體方法。本文將通過一個經典的案例:MNIST手寫數字識別,以代碼的形式來為大家梳理一遍神經網絡的整個過程。
  • 拋棄手寫和輸入 塗書筆記識別精度有多高?
    3英語、日語、繁體和手寫識別測試英語、日語、繁體和手寫識別測試    當然我們對「塗書筆記」的期待有很多,比如對英文識別,手寫識別以及其他國家語言識別的效果如何呢無法識別日文    另外經過測試發現,像日文、韓文等還沒有加入識別功能,因此對於對於日韓愛好者來說錄入日韓文字還是手寫或者輸入吧。4原理解析 文字識別技術是如何實現的?
  • PyTorch可視化理解卷積神經網絡
    如今,機器已經能夠在理解、識別圖像中的特徵和對象等領域實現99%級別的準確率。生活中,我們每天都會運用到這一點,比如,智慧型手機拍照的時候能夠識別臉部、在類似於谷歌搜圖中搜索特定照片、從條形碼掃描文本或掃描書籍等。造就機器能夠獲得在這些視覺方面取得優異性能可能是源於一種特定類型的神經網絡——卷積神經網絡(CNN)。
  • 最聰明玻璃誕生:以光散射為核心算法,無需耗電,可識別數字
    它能夠實時區分手寫數字,也就是說,一塊小小的玻璃實現了傳統 AI 的相機、傳感器和深度神經網絡的功能整合。當數字變換時,系統能及時作出反饋。該研究來自威斯康星大學麥迪遜分校電子及計算機工程系副教授喻宗夫(ZongFu YU)團隊,研究以封面形式發表在 7 月 8 日的光學期刊 Photonics Research 上。
  • 基於英文字母識別的三種人工神經網絡的設計方案
    是在人類對其大腦神經網絡認識理解的基礎上人工構造的能夠實現某種功能的神經網絡。典型的前向網絡有單層感知器、BP網絡等,反饋網絡有霍普菲爾德網絡等[1]。 人工神經網絡已經被廣泛應用於模式識別、信號處理、專家系統、優化組合、智能控制等各個方面,其中採用人工神經網絡進行模式識別具有一些傳統技術所沒有的優點:良好的容錯能力[2j、分類能力、並行處理能力和自學習能力,並且其運行速度快,自適應性能好,具有較高的解析度。
  • 白皮書解讀 | SingularityNET:全球首個人工智慧+區塊鏈自治網絡
    今天我們進一步為大家帶來該項目的白皮書解讀,深入其中的技術細節。AI 和區塊鏈分屬於技術譜系的兩端:前者是在封閉的數據平臺上培育中心化的智能;後者則是在開放的數據環境下促進去中心化的應用。SingularityNET 的出現有望打破藩籬,合二為一。
  • 第11屆ICAART會議在捷克召開,學術權威解讀人工智慧前沿技術
    他以模擬和手寫識別、字跡識別、文檔分析、以及機器學習研究而聞名,前後一共撰寫了200多本出版物,並參與了許多手寫識別和文檔分析會議的組織工作。  Schomaker博士的演講主題是「大規模問題的連續學習—多腳本歷史手寫文檔集的情況。」以卷積神經網絡(CNN)為代表的深度學習技術,其最新進展在許多應用領域中令人印象深刻。這些方法是否也適用於罕見的腳本和手寫識別?
  • 一文詳解神經網絡 BP 算法原理及 Python 實現
    其中,停止條件可以是下面這三條 ● 權重的更新低於某個閾值的時候 ● 預測的錯誤率低於某個閾值 ● 達到預設一定的迭代次數 譬如說,手寫數字識別中,一張手寫數字1的圖片儲存了28*28 = 784個像素點,每個像素點儲存著灰度值(值域為[0,255]),那麼就意味著有784個神經元作為輸入層,而輸出層有10個神經元代表數字