第二彈!CS231n 2017中文字幕視頻:如何訓練機器進行視覺識別?

2020-12-08 雷鋒網

雷鋒網(公眾號:雷鋒網)CS231n 2017雙語字幕版獨家上線!Lecture 2 | Image Classification 更新了!

2017春季CS231n中文版終於上線,課程中文版已經在AI慕課學院(mooc.ai )發布( free free free ),11月10日正式開課,每周五更新,預計持續12周!

雷鋒網中文版課程連結:http://www.mooc.ai/course/26

什麼是CS231n 2017?

CS231n 的全稱是 CS231n: Convolutional Neural Networks for Visual Recognition,即面向視覺識別的卷積神經網絡。

該課程是史丹福大學計算機視覺實驗室推出的課程。需要注意的是,我們這次翻譯的是 2017 春季(4 月至 6 月)的最新版本。

雷鋒網引用課程主頁上的官方課程描述如下:

計算機視覺已經在我們的社會中無處不在,並廣泛運用在搜索、圖像理解、應用程式、測繪、醫藥、無人機和自動駕駛汽車等領域。這些應用程式的核心技術是視覺識別任務,如圖像分類、圖像定位和圖像檢測。近期,神經網絡(又名 「深度學習」)方法上的進展極大地提高了這些代表最先進水平的視覺識別系統性能。

本課程深入探討深度學習架構的細節問題,重點學習視覺識別任務(尤其是圖像分類任務)的端到端學習模型。在為期 10 周的課程中,學生將學習如何實現、訓練和調試自己的神經網絡,並建立起對計算機視覺領域前沿研究方向的詳細理解。最後的任務將涉及訓練一個有數百萬參數卷積神經網絡,並將其應用於最大的圖像分類資料庫(ImageNet)上。

我們將著重教授如何設置圖像識別問題,學習算法(例如反向傳播),用於訓練和微調(fine-tuning)網絡的工程實踐技巧,引導學生完成實踐作業和最終課程項目。本課程的大部分背景知識和素材都來源於 ImageNet Challenge 競賽。

Lecture 2 | Image Classification 圖像分類內容提要

Lecture 2 | Image Classification 由 Justin Johnson授課 ,帶著同學們一起討論了數據驅動方法、K-最近鄰算法、線性分類,深層次地了解算法是如何運行的,關注各類算法的技術細節。導師還布置了第一次課程作業,需要同學們在看完本期視頻後,學著完成 K-最近鄰分類器、線性分類器(SVM,Softmax)、兩層神經網絡、提取圖像特徵集,作業通過Python+Numpy完成。不會Python和Numpy的新手們,要儘快開始學習,他們特地寫了個教程教你入門上手。

聊完作業和工具,開始進入正題, Justin重點講了以下幾個問題:

Q1:我們怎麼研究圖像處理的任務?(計算機視覺中真正核心的任務)

Justin:簡而言之,就是通過數據。當你做圖像分類時,分類系統接收一些輸入圖像(比如阿貓阿狗),並且系統已經清楚了一些已經確定了的分類或者標籤,這裡有一些設定了好了的分類標籤數據集,那計算機的工作就是看圖片,並且給它分配其中一些固定的分類標籤。這對於人類來說,太簡單不過了,但是對於機器而言,真的是一個非常非常困難的問題。計算機呈現圖片的方式其實就是一大堆數字,所以圖像可能就是800*600的像素,像素會給出紅、綠、藍三個值。所以這是一個巨大的數字陣列。

Q2:哪些發展推動了圖像識別問題的實現?

Justin:數據驅動的方法。抓取大量圖片數據集,機器會搜集所有數據用某種方式總結然後生成一個模型,識別不同類的對象的核心要素,然後用模型來識別新的圖片。我們的接口需要寫兩個函數,一個是訓練函數(接收圖片和標籤,輸出模型),一個是預測函數(接收模型,對圖片種類預測),正是運用了這種方法,過去十幾二十年裡,圖像識別領域的進步非常之大。這種數據驅動類的算法比深度學習更廣義的一種理念。

Q3:訓練機器進行視覺識別的過程是什麼?

Justin:單純記錄所有的訓練數據,數據集會不斷尋找新的圖片,給出新的標籤。比如,CIFAR -10訓練數據集,其中就有5W訓練圖,1W測試圖。右欄Test images and nearest neighbors圖中,左側是測試圖,右側是訓練圖,訓練圖中會顯示與測試圖最接近的圖片。特殊情況下,我們如何來對比兩幅圖片呢?這就要選擇比較函數了。我們用了L1距離(又稱為「曼哈頓距離」),對單個像素進行比較,只取測試圖(左上角的像素)- 訓練圖(相應的左上角像素)的絕對值,就是兩幅圖的像素差別。可以發現兩幅圖中有456處不同。(這裡使用的是Numpy提供的向量運算,只需要一兩行Python代碼,用於最近鄰算法,就能實現)

Q4:在訓練集中,訓練和測試的過程可以多快呢?

Justin:所需的時間是,存儲數據的時間(恆定)+比較訓練圖和測試圖時間(慢)。一般來說,訓練過程在數據中心完成的(快),測試過程是在手機、瀏覽器其它低能耗的設備上完成的(慢),這種方式相當落後。為了讓速度加快,我們選擇卷積神經網絡和其他參數模型,讓測試過程加快。使用了最近鄰算法。

Q5: 我們想訓練圖像分類算法,具體怎麼操作?

Justin:我們常見的做法,是把數據分為三組,大部分數據作為訓練集,然後再建立一個驗證集和測試集,在訓練集上用不同的超參來訓練算法,在驗證集上進行評估,然以後再用超參,來選擇在驗證集上表現最好的,再把這組驗證集上表現最佳的分類器拿出來在測試集上跑一跑,這才是你要寫到論文中的數據。這個數據告訴你,你的算法在未見的新數據上表現如何。記得,要分隔驗證集和測試集,通常到最後一刻我們才會接觸到測試集。

Q6:線性分類是什麼?

Justin:線性分類是一種非常簡單的學習算法,可以幫助我們建立起整個神經網絡和卷積網絡。神經網絡就像玩樂高,你可以擁有不同種類的神經網絡組件,並且可以將這些組件組合,來構建不同的大型卷積網絡,它是我們在不同類型的深度學習應用程式中,看到的最基本的構建塊之一。卷積神經關注圖像,而循環神經關注語言,我們可以把這兩個網絡放在一起,再一起訓練,最終得到一個超級厲害的系統。深層神經網絡像樂高玩具,而線性分類器就像這個巨大網絡中的基礎模塊。這是線性分類器的基本工作原理。

以上是Lecture 2 | Image Classification的重點內容,當然導師還具體回答了同學們的提問,詳細解答了K-最近鄰算法、線性分類器的相關技術細節。

為了方便大家交流,AI研習社專門開闢了社區供大家交流。在社區中,目前支持大家提問/回答,以及發布文章,可以插入圖片、視頻、超連結、代碼塊、公式編輯器,歡迎大家在社區中進行更多形式的交流~社區地址:www.mooc.ai/bbs 

現在我們誠摯邀請正在學習CS231n課程的小夥伴來講解這門課的課後作業,這門課共有3個 Assignments 以及1個 Final Project ,你可以選擇其中一個或幾個來進行分享講解~詳情連結:http://cs231n.github.io/

目前雷鋒字幕組還有許多優秀AI課程仍在翻譯中,希望和我們一起翻譯學習進步,歡迎微信聯繫 julylihuaijiang,加入我們。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CS231n 2017 今天正式開課!雙語字幕版獨家上線!
    雷鋒網:CS231n 2017雙語字幕版獨家上線!今天正式開課!哈哈哈,距離斯坦福計算機視覺課程結束5個月,2017春季CS231n中文版終於上線了,課程中文版已經在AI慕課學院(mooc.ai )發布( free free free ),11月10日正式開課,預計持續12周!
  • 教程| 斯坦福CS231n 2017最新課程:李飛飛詳解深度學習的框架實現...
    作者:李飛飛等機器之心編譯參與:Smith、蔣思源史丹福大學的課程 CS231n (Convolutional Neural Networks for Visual Recognition) 作為深度學習和計算機視覺方面的重要基礎課程,在學界廣受推崇。
  • CS231n 課後作業第二講 : Assignment 2(含代碼實現)| 分享總結
    本文根據AI研習社公開課上的直播視頻內容整理而成,主要介紹CS231n 課後作業第二套Assignment 2的完成思路與重點部分代碼實現。如果你還沒開始聽CS231n,可直接點擊課程連結觀看回放視頻。王煦中,CS碩士,主要研究方向為自然語言處理與深度學習。知乎專欄喵神大人的深度工坊(http://t.cn/RTc9wfy)作者,日語及ACGN愛好者。
  • 視頻語音自動生成字幕怎麼做?分享一個視頻字幕生成器—繪影字幕
    很多人都對語音轉文字有所了解,其實視頻加字幕和語音轉文字,前期使用的技術手段是一樣的。都是通過機器對人聲進行識別,轉成文字。不過,生成字幕還需要對字幕切分和給字幕添加時間戳。所以視頻加字幕會在語音轉成文字的基礎上,機器精準切分時間軸,給文字加上時間戳生成字幕。
  • YouTube玩轉的自動字幕,為什麼被國內視頻網站「主動錯過」?
    據報導,在2017年初,以UGC起家的YouTube已經為10億條視頻提供了自動添加字幕的服務,使用者每天的播放次數超過 1500 萬次,而且目前已支持全球10種語言的自動字幕加載,以及支持包括簡體中文在內的上百種語言的機器翻譯。那麼這一自動字幕的功能為何沒有被我們國內的視頻網站「Copy」?也許你第一反應會想到技術原因。也是也不全是。
  • 怎樣自動翻譯英文視頻並添加字幕?
    YOUTUBE的實際掌控人GOOGLE已經在語音識別,機器翻譯領域深耕了多年,並且併購SayNow,還收購了SR Tech Group 的多項語音識別相關的專利。因此在語音識別這一塊做的相當不錯。目前支持英語、荷蘭語、法語、德語、義大利語、日語、韓語、葡萄牙語、俄語和西班牙語的自動語音識別。
  • 直播分享|手把手教你寫 2019 最新版 CS231n 作業
    AI 研習社譯製的雙語課程廣受好評相信每一個學習人工智慧的同學,都聽說過史丹福大學計算機視覺實驗室推出的 CS231n 這門課。該門課程由 AI 界王牌導師李飛飛主講,作為一門計算機視覺的精講課程,它主要介紹神經網絡在計算機視覺領域的應用,涵蓋圖像分類、定位、檢測等視覺識別任務,以及其在搜索、圖像理解、應用、地圖繪製、醫學、無人駕駛飛機和自動駕駛汽車領域的前沿應用。
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    去年,大數據文摘獲得授權並完成了李飛飛教授史丹福大學CS231N課程視頻的漢化斯坦福《CS231n深度學習與計算機視覺課》(戳標題查看),該課程目前在網易雲課堂有超過4萬人學習,並且好評不斷。大數據文摘視頻團隊在今年又獲得重磅資源,牛津大學深度學習與自然語言處理課程(Deep NLP)!大數據文摘已聯繫課程主講人取得翻譯授權,並聯合北京郵電大學模式識別實驗室組織了視頻漢化,免費發布。 所以大家可以看到中文字幕了!開不開心!
  • 斯坦福CS224n《基於深度學習的NLP》課程更新,C.Manning主講
    新智元報導 來源:Stanford編輯:大明【新智元導讀】史丹福大學官方公布cs224n課程《基於深度學習的自然語言處理》詳細安排,主講人為史丹福大學人工智慧實驗室主任,著名計算機科學家Christopher Manning教授,1月份課程閱讀材料已公布。本課程自2017 年起開設,2017年該課程視頻已公開放出。
  • 【Hello NLP】CS224n筆記[4]:自然語言中的依存分析(Dependency Parsing)
    下面我們來介紹如何讓機器自動地幫我們來分析句子的結構。依存分析,並不是我們NLP中最常見的任務之一,我們也很少看到直接將依存分析做應用的,我們更常見的是分類、實體識別、閱讀理解、對話等任務。但是依存分析,作為自然語言處理的一項基礎技術,試圖讓機器去理解語言的內部結構,理解了結構,NLU(Natural Language Understanding)才成為可能。
  • 有沒有可能讓外語字幕自動翻譯成為中文?自動翻譯視頻字幕的功能...
    很多朋友都會看外語視頻,無論是大電影還是小製作,看外語視頻的障礙在於字幕。然而,很多片子只能找到外語字幕,這就很頭疼了。而隨著AI的進步,自動翻譯的效果越來越好,有沒有可能讓外語字幕自動翻譯成為中文?還真別說,就有廠商推出了以翻譯為賣點的產品。
  • 人的智能如何與機器無限連接
    我們要如何與機器共生?探究智能邊界的故事要從我所供職的英特爾中國研究院講起。英特爾中國研究院成立20多年來,不斷拓展著智能的邊界:一開始研究語音智能、語音識別、自然語言處理(NLP),後來研究計算機視覺,再後來研究無線網絡,做3G、4G,現在又開始研究無人駕駛和機器人。
  • 「十三五」安防領域機器視覺發展回顧與展望
    一、機器視覺技術發展與應用遠超規劃預期 「十三五」規劃在發展目標中提出「深入研究和應用人工智慧、機器視覺等前沿技術並取得若干突破」;在措施與建議中提出要推動「機器視覺、語音識別、生物特徵識別、安保機器人等關鍵技術的突破,提升智能技術在安防各領域的實戰應用和效能」和視頻結構化等智能化應用。
  • 機器視覺人臉識別技術在智能商業中的應用
    人工智慧領域主要分布在機器學習(通用)、機器學習(應用)、計算機視覺(通用)、智慧機器人、虛擬個人助理、自然語言處理(語音識別)、自然語言處理(通用)、實時語音翻譯、情境感知計算、手勢控制、推薦引擎及協同過濾、視頻內容自動識別等。
  • ALBERT一作藍振忠:預訓練模型應用成熟,ChineseGLUE要對標GLUE
    藍博士曾於 2010 年獲中山大學軟體工程和統計學學士學位,後於 2012 年至 2017 年在 CMU 攻讀博士學位,主要研究計算機視覺和多媒體分析相關的技術。畢業後,藍博士現在在谷歌擔任機器智能方面的科學家。藍博士在多項頂會上發表過論文,包括 NeurlPS、CVPR、ICCV、IJCAI、ICDM 等。
  • 斯坦福 CS224d 中英字幕版重磅上線
    本次翻譯的 CS224d (2016-2017)課程視頻為斯坦官方開源最新版本,由史丹福大學教授、 Salesforce 的首席科學家 Richard Socher 授權雷鋒字幕組翻譯,5 月 16 日開始正式同步更新在 AI 研習社、AI 慕課學院。
  • 剪映app在哪怎麼添加字幕 自動識別視頻中語音轉為字幕教程
    現在不少人都喜歡拍視頻剪輯vlog,而剪映就是一款非常實用的視頻剪輯工具。功能非常齊全,能滿足大家的需求。而當你使用剪映app時,該怎麼添加字幕呢?看看下文。  剪映APP添加字幕的方法  1、其實給視頻添加字幕的方法並不算複雜,而且「剪映」APP還為大家提供了自動識別字幕的功能,可以將視頻中的語音自動識別製作為字幕。
  • DeepMind大招,以視覺為媒介,做無監督機器翻譯...
    總體思路:利用教學視頻獲取共享視覺作者在論文用的方法也很簡單,模型通過「觀看」視頻,能夠在兩種語言之間建立共同的視覺表徵,即在給定共享嵌入情況下構建視覺-文本混合映射算法。作者們在構建無監督翻譯系統的時候,就借鑑了上述思路:向系統提供不同國家人做事情的視頻,同時用他們本國語言解釋他們在做什麼。選用內容大致相似的教學視頻,比如雖然是不同語種,但是都是在教人如何榨橙汁的教學類視頻。教學視頻在YouTube上大量存在,並且內容相似度非常高,所以作者使用了教學視頻作為訓練數據。
  • [CS224n筆記] L6 Language Models, RNN, GRU and LSTM
    Useful links課程官網:Stanford CS224n || Stanford CS224n-2019課程材料:LooperXX/CS224n-Resource || LooperXX/CS224n-Reading-Notes課程視頻:YouTube國內視頻資源:2019版|英文字幕(仍在更新) || 2019版|英文字幕
  • 北郵張慶恆:如何基於 rasa 搭建一個中文對話系統 (有源碼視頻)|...
    本文為大家介紹了一種新方法,即如何基於 rasa 搭建一個中文對話系統。在近期雷鋒網AI研習社舉辦的線上免費公開課上,來自北京郵電大學網絡技術研究院的張慶恆分享了基於 rasa nlu 構建自己的自然語言理解工具,並結合 rasa core 搭建對話系統框架的一些經驗,方便初學者入門,加深對對話系統的理解。本文根據分享者的直播視頻內容整理而成。