深度學習入門 | 第一講 深度學習與回歸分析

2021-03-01 狗熊會

大家好,從5月份開始,狗熊會將上新一門課程:深度學習入門。這門課程由熊大親自製作,共包含11講,主要介紹了深度卷積網絡及其在圖像分類中的重要應用。作為助教團隊的一員,水媽每周會整理一講內容,在推文跟大家分享。視頻課程請同學們移步閱讀原文,登錄狗熊會的個人會員進行學習。

大家好,我是熊大,這是咱們深度學習這門課的第一講。在這一講,我想和大家探討一下深度學習與回歸分析之間的關係。

深度學習作為人工智慧領域備受關注的模型方法,在媒體上可以看到大量的宣傳材料。客觀地說,很多宣傳其實是有失偏頗的,甚至是誤導的,把深度學習和人工智慧給過度神化了。而回歸分析不一樣,它是當前很多高校學生的必修課。它聽起來不是那麼的高大上,但好處是人們對它非常熟悉。而通過這一講的學習,我想告訴大家的是,這兩種方法其實淵源很深,因為深度學習其實就是一種特殊的非線性回歸分析方法

想要深刻的理解和學習深度學習,就必須深刻的理解和學習回歸分析。對回歸分析的理解有三個不同的層面:第一、模型的層面;第二、業務的層面;第三產品的層面。在絕大多數課堂上,同學們學習的主要都是模型的層面,而我想通過一個實際的例子來給同學們講解一下這三個層面有什麼異同、有什麼相互支撐的關係。

這是一張京東首頁的截屏,在正中間有金龍魚的地方,是一個廣告位。京東負責廣告位的同事,有一個業務問題,就是在既定的時間、既定的地點、既定的展示機會,應該展示怎樣的廣告,才能達到最好的業務效果。這就是回歸分析在業務層面的一個表達。顯然這個業務問題太模糊了,無法對它進行數據化分析。應該有一種數據思維的方式,把這個業務問題轉化為一個數據可分析問題。

首先應該有一個清晰的指標Y,也就是因變量,它應該能反映我們對業務的核心訴求。在這個場景下,核心訴求就是廣告效果好。請問什麼樣的效果才叫好?是點擊,還是加入購物車,又或是購買,甚至是重複購買。根據不同的業務場景,不同的實際需求,這些定義可能是不一樣的,但它們都是良好的定義。我們假設這個場景中追求的好就是有點擊,廣告是按點擊收費的。那麼這裡的Y就是點擊與否。

接下來要研究的是對於什麼樣的產品,在什麼樣的時間,什麼樣的地點,給什麼樣的消費者推送,才會產生點擊行為,或者說點擊的可能性有多大。之前已經定義了Y,接下來需要定義一系列的X,來描述什麼是產品,什麼是時間,什麼是地點,什麼是消費者。例如對於產品而言,X可能就是它屬於哪一大類,它是食品嗎,它是電腦嗎,它是家具嗎?這種指標在行業中也被叫作標籤。我們還需要標籤來定義時間、地點、消費者,他是男生還是女生,他的年齡,收入狀況,以前的購買行為等等。

大家看,這就是回歸分析的模型層面。我們通過對業務的理解,把一個業務問題具象成為一個數據可分析問題。什麼是數據可分析問題?它有清晰的Y,有清晰的X,科學家可以通過現有的各種各樣的方法去研究X與Y之間的關係。進而對產品推送的時間、地點、目標對象都有了一個清晰的判斷。有了這個判斷之後,在產品層面是怎麼被表達出來的,就變成了精準營銷的推薦系統。這就是回歸分析在產品層面的表達。

稍微總結一下,想要深刻的理解深度學習,就必須深刻的理解回歸分析。回歸分析不僅僅是我們課堂上所學到的,例如線性回歸。回歸分析至少包含三個層面。第一、模型層面,要把一個業務問題定義成為X和Y的數據可分析問題。第二、在這個前提之上,應該有業務的理解。第三、我們希望把它作為一個產品呈現出來。當然作為產品呈現的時候,可能消費者已經完完全全感受不到X,Y和模型框架了,在他面前只是一個非常美好的體驗。

高校中的相關課程講的都是模型層面,而在業務和產品層面討論的書籍非常少。在這裡插播一則廣告,向大家推薦狗熊會團隊出品的兩本書,都是關於數據思維的。其中第一本書,《數據思維:從數據分析到商業價值》,是由我領銜主編的,主要是偏概念性的,以案例為主,沒有數據和代碼。而第二本書,是由水媽領銜創作的《數據思維實踐》,對數據思維如何變成在課堂中可被實施的教學方案做了詳細的闡述。有數據,有代碼,非常詳細,可以支撐一門兩學分的課程。在模型層面,我向大家推薦由布丁帶隊寫的《R語言:從數據思維到數據實踐》,非常詳細,豐富有趣。

既然我們經典回歸分析的框架已經非常完備了,為什麼我們還需要深度學習呢?如前所述,深度學習是一種特殊的非線性回歸分析方法,它特殊在哪裡,為什麼以前經典回歸分析方法不能處理深度學習所面對的問題呢?

大家看這張身份證的樣證,裡面有很多信息。例如這位同學的姓名叫李久熙,性別是女,民族是漢,出生於1996年11月24日,還有她的地址和照片。如果這些信息作為解釋性變量放入一個回歸分析模型裡的時候,會出現什麼情況?我們會發現,傳統的回歸分析模型,無論是線性還是非線性的,都非常善於處理結構化的X數據。什麼是結構化的X數據,如果數據能夠在excel表裡對齊,這基本上就是一個結構化的數據。但是當我們想用這位同學的照片作為X變量做回歸分析的時候,會發現圖像是一個幾乎不可能用一個excel表對齊的數據格式,它是一個高度複雜的非結構化數據,經典的回歸分析方法似乎都不太容易實施了。

通過這個案例,希望你明白深度學習主要應用的領域是處理非結構化數據。而當數據是結構化的時候,從我個人的經驗看,深度學習沒有任何明顯的優勢,甚至在絕大多數時候還不如經典回歸分析方法。在處理大規模非結構化數據時,傳統的回歸分析方法將不堪一擊,而深度學習此時將展現出明顯的優勢。

有很多朋友會問,在什麼樣的場景下,人們會拿一個人的臉部圖像去做X變量,再去做一個回歸分析呢?其實這非常常見,而且有著重要的應用。

請看這個案例,這張照片是誰,是我們那位天天用加強學習打麻將的博士生。這張照片當中,大家能看到一個小方框框出他這張帥氣的臉。用這張照片作為X變量,人們就學習出來,他的性別是男,年齡,人種,還知道他沒有戴帽子,知道他帶了眼鏡,知道他頭髮不算很長。

這是一個特別典型的應用場景,這個場景特別的重要,為什麼?在大量超市的環境中,管理者希望能夠了解是什麼樣的人購買了商品,什麼樣的消費者走進了店鋪,希望知道他的年齡、性別、購物習慣、是否滿意等等。這些數據可以通過傳統的問卷收集,但顯然效率較低。現在有了深度學習的加持,可以直接通過圖像識別分析技術得到。

那麼在這麼重要的一個應用場景中,有了這樣一張圖片作為X,它又是如何變成一個回歸分析模型的呢?例如我想從臉部特徵來判斷這個人是男生還是女生,那麼可以定義Y就是性別,1表示男,0表示女。假設手中有1萬張這樣的圖片,X就是這些圖片,而Y就是人手工標註出來的性別。有了這個樣本之後,就可以跑一個基於深度學習而產生的邏輯回歸模型,通過這樣一個模型去預測判斷圖片上的臉部特徵是來自於男性還是女性。這其實就是一個邏輯回歸模型,X是臉部特徵,Y是性別。如果把Y改成年齡,就可以粗糙地判斷他的年齡;如果把Y改成他是否戴帽子,就可以根據臉部特徵判斷他是不是戴了帽子。所以你會發現這麼重要的應用場景對應著許多回歸分析模型,這裡的Y諸如年齡性別都是傳統的結構化數據,而它的X是臉部特徵,是高度非結構化數據,是傳統模型不擅長處理的,而是深度學習極具競爭優勢的地方。

最後給大家出一道有趣的思考題,叫作商品識別。我本人非常喜歡喝紅酒,但喝了這麼多年,我對紅酒卻毫無研究。後來我發現了一個APP,只要把紅酒的商標拍照上傳,過一會兒它就會告訴我,它的品牌產地在哪裡,最重要的是它告訴我其它消費者對它的評價,甚至給我一個建議的銷售價格。請你思考一下要實現這樣的產品,背後需要什麼樣的技術方案,它所涉及到的核心的模型是什麼,它的Y和X分別是什麼?

本講內容就到這裡了,更多深度學習的應用案例以及詳細講解,請大家移步閱讀原文,到狗熊會個人會員平臺,觀看王老師的視頻講解。

本講內容整理:高天悅、水媽

視頻製作:高天辰

相關焦點

  • python深度學習---帶你從入門到精通
    為輔助提高廣大科研工作者的使用python深度學習技術,我們舉辦了本次《python深度學習實踐技術及應用線上培訓》,利用大量的案例講解與實操練習讓大家更深入便捷的運用到工作學習中,也方便各個領域可以更好地交叉融合、擴展應用。
  • 深度學習入門
    那麼深度學習到底是什麼,其與傳統的機器學習之間又有什麼樣的關聯。對於想入坑深度學習的同學,又該從哪些方面入手。這就是本文要回答的問題。深度學習的提出       先從深度學習的提出開始說起,深度學習的概念是由Hinton在2006年提出,他當時首次提出了深度信念網絡(DBN),相比之前,他採用無監督方式逐層訓練深層網絡,在深層網絡訓練中取得了跨越式的進展。
  • 深度學習入門必看---吳恩達深度學習課程
    在眾多網友,學生,工作者的呼籲下,2017年8月,吳恩達推出了自己的深度學習課程,由於長時間拖更,經常被網友吐槽,最終在今年的時候全部更新完畢。考慮到中國學生對課程的喜愛,吳恩達和網易雲課程合作,提供帶有中文字幕的學習視頻。
  • AI | 怎樣快速入門機器學習和深度學習?
    編者按:入門機器學習和深度學習並不是一件容易的事情。需要學習大量的知識,初學者常常會迷茫不知所措。現在我們給你帶來一篇純乾貨,幫助你入門機器學習和深度學習。一些坑:《Tensorflow實戰》:真的還不如就看官方教程或者斯坦福的課程CS 20SI《深度學習》:Goodfellow的大作,但真心不適合入門,適合進階5.
  • 知乎 | 機器/深度學習入門建議
    關注「深度學習衝鴨」,一起學習一起衝鴨!
  • 深度學習:從入門到精通 | 第1章:深度學習簡介
    深度學習作為機器學習的一個分支領域,近幾年受到了越來越多的關注,本章將以平白生動的語言,幫助對於深度學習既好奇又恐懼的讀者,揭開深度學習的神秘面紗,讓讀者對於深度學習的定義、發展歷程、實踐應用有一個初步而清晰的理解。首先,本章廓清了深度學習與人工智慧、機器學習以及回歸分析之間的區別與聯繫。什麼是機器學習?什麼又是深度學習?
  • 《深度學習入門一》一入侯門深似海,深度學習深幾許
    對於高手來說,自然是沒有問題,他們本身已經具備非常「深度」的學習能力,如果他們想學習有關深度學習的技術,直接找來最新的研究論文閱讀就好了。但是,對於低手(初學者)而言,就沒有那麼容易了,因為他們基礎相對薄弱,通常看不太懂。於是,我們推出深度學習的入門系列。在這個系列文章中,我們力圖用最為通俗易懂、圖文並茂的方式,帶你入門深度學習。我們都知道,高手從來都是自學出來的。
  • 伯克利《深度強化學習》更新 | 第十三講:利用模仿優化控制器學習...
    隨時隨地都能學習名校經典課程,和上千位小夥伴們一起,共同進步。  課程介紹伯克利 CS 294-112 《深度強化學習》為官方開源最新版本,由伯克利大學該門課程授課講師 Sergey Levine 授權 AI 研習社翻譯。12 月 20 日開始正式同步更新在 AI 研習社,大約 1 到 2 周更新一次。
  • 機器學習/深度學習入門資料匯總
    經常被同學和朋友詢問機器學習或深度學習入門,有哪些不錯的參考資料。老實講,這個問題在網上隨便一搜就是一大把的答案。
  • 深度學習的學習歷程
    作者 | mileistone來源 | https://zhuanlan.zhihu.com/p/34524772已獲作者授權,請勿二次轉載我剛入門深度學習的時候,看了各種深度學習相關的資料,花書、cs231n、neural networks and deep learning、cs224d等等。
  • 實踐入門NLP:基於深度學習的自然語言處理
    【NLP工程師入門實踐班】——基於深度學習的自然語言處理開車啦!!還不趕緊上車!?和Deep Learning給NLP帶來的變革和機遇NLP的發展趨勢,以及和各行各業的結合應用第二模塊 NLP基礎技能一、數學理論基礎概率和資訊理論監督學習、半監督學習和非監督學習
  • 深度學習第17講:keras入門和快速上手指南
    作者:魯偉一個數據科學踐行者的學習日記。
  • 入門深度學習,讀對書很重要
    在過去的一年多時間裡,研究人員奮筆疾書,競相出版專著,以滿足讀者對深度學習知識的渴求。第一本關於深度學習的書已經上架,更多的將會在夏天或者明年年初陸續上架。我有幸提前拜讀了若干專著的初稿,這些書的最終出版讓人期待萬分。接下來給大家推薦一些深度學習書籍,這些書可以引導大家如何學習人工智慧,對深度學習的快速理解有很大幫助。
  • 實戰入門深度學習,李沐中文新書贈送
    近年來,不論是計算機專業的學生,還是已在科技網際網路行業從業多年的技術人員和其他從業者,人們對深度學習的興趣從未如此高漲。雖然許多深度學習領域的專家學者開設了各種各樣的入門課程和教材,但真正系統性梳理這一領域知識、同時能夠提供理論講解和代碼實現的書籍屈指可數。此外,由於語言等因素,中文版本的優秀深度學習教材也是鳳毛麟角。
  • 入門深度學習與機器學習的經驗和學習路徑
    ,也算個初級煉丹選手了,就想分享一些關於如何入門機器學習與深度學習的經驗和學習路徑。下載地址如下:https://www.anaconda.com/products/individualhttps://www.jetbrains.com/pycharm/download/關於下載安裝以及基本的配置,這裡不講了,這裡就是展開鍛鍊你檢索能力的第一步,網絡有大量的資料告訴你如何安裝配置。
  • 入門者的機器學習/深度學習自學指南
    尤其是深度學習的自學指南。林軒田教授的課程看似入門,實際上功力深厚。如果能把他將的內容和作業都融匯貫通,你的機器學習素養已經不低。數據挖掘方向的公開課。此外,還有一些機器學習的經典教材。中文機器學習的經典教材。看這本書需要看三遍,對下面列舉的其他書也是一樣。第一遍快速翻一遍,了解大致講了什麼,每章都是幹啥的。第二遍拿出紙筆推敲其中的公式細節。
  • 深度學習核心技術(南京)
    本次培訓最大的特點是「零門檻」系統學習深度學習核心技術,區別於一般的深度學習課程,本次培訓在內容設置上對學員的專業背景及技術基礎沒有苛刻的要求,也無需依賴Linux等複雜作業系統,可以在 Windows 環境下用最簡單的案例進行分析演示,引導學員入門並掌握當前最主流的深度學習模型和應用場景。
  • 深度學習全網最全學習資料匯總之入門篇
    作為人工智慧領域一個重要的研究分支,深度學習技術幾乎出現在當下所有熱門的AI應用領域,包括語音識別,語義理解,圖像識別,大數據分析等等,甚至有人把當前的人工智慧等同於深度學習。下面進入本文的正題。要入門深度學習,首選的一個教程是來自臺灣大學電機系李宏毅教授的演講 PPT。該 PPT 共計301頁,源於 IEEE DSC 2016 系列活動,當時打出的標題是「一天搞懂深度學習」。該課程非常適合初學者,以最簡單易懂的圖示和文字闡述了深度學習的基本原理、深度學習模型的各種訓練小技巧、遞歸神經網絡和一些常見的深度學習應用。
  • GitHub | 機器學習&深度學習&nlp&cv從入門到深入全套資源分享
    深度學習之目標檢測的前世今生(Mask R-CNN)深度學習目標檢測模型全面綜述:Faster R-CNN、R-FCN和SSD從RCNN到SSD,這應該是最全的一份目標檢測算法盤點目標檢測算法綜述三部曲基於深度學習的目標檢測算法綜述(一)基於深度學習的目標檢測算法綜述(二)基於深度學習的目標檢測算法綜述
  • 深度學習入門:淺析卷積神經網絡
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。至今已有數種深度學習方法,如卷積神經網絡(CNN)、自編碼神經網絡(包括Auto encoder和Sparse Coding)和深度置信網絡(DBN),並在各個領域中取得了極好的效果。