梳理數百個問題後,我總結出10個數據科學面試必掌握概念……

2021-02-07 讀芯術

全文共2614字,預計學習時長7分鐘

圖源:Google

深度學習和神經網絡並不簡單,但好在面試官能測試的數量有限。在梳理了數百個數據科學面試問題之後,本文總結出了10個最常出現的深度學習概念。話不多說,讓我們開始吧!

1.激活函數(Activation Functions)

如果你對神經網絡及其結構的還沒有基本了解,那麼建議閱讀Terence Shin的文章《神經網絡初學者指南》(「A Beginner-Friendly Explanation of How Neural Networks Work」)。

對神經元或節點有基本了解之後,你就會發現激活函數像電燈開關一樣,能夠決定是否激活神經元。

激活函數有幾種類型,但是最流行的激活函數是整流線性單元函數,也稱為ReLU函數。ReLU函數優於S型函數和雙曲正切函數函數,因為它執行梯度下降的速度更快。

請注意,在圖像中,當x(或z)很大時,斜率非常小,這會顯著減緩梯度下降,但這種情況不會出現在ReLU函數中。

2.代價函數(Cost Function)

神經網絡的代價函數類似於其他機器學習模型的成本函數。它衡量的是神經網絡的預測值與實際值相比有多「好」。代價函數與模型的質量成反比——模型質量越高,代價函數越低,反之亦然。

代價函數是最優化值。通過縮小神經網絡的代價函數,可以獲得模型的最佳權重和參數,從而最大程度地發揮模型的性能。

有幾種常用的代價函數,包括二次方代價(quadratic cost)、交叉熵成本(cross-entropy cost)、指數成本(exponential cost)、Hellinger distance、Kullback-Leibler散度等。

3.反向傳播算法(Backpropagation)

反向傳播算法是一種與成本函數密切相關的算法。具體來說,它是一種用於計算成本函數梯度的算法。與其他算法相比,反向傳播速度快、效率高,因而備受歡迎。

在這個算法中,梯度的計算從權重的最後一層的梯度開始,然後反向傳播到權重的第一層梯度。因此,第k層的誤差取決於k + 1層。「反向傳播」也因此得名。

通常,反向傳播的工作原理如下:

· 計算每個輸入-輸出對正向階段的損失函數

· 計算每對反向階段的損失函數

· 結合各個權重的梯度值

· 根據學習率和總梯度更新權重

4.卷積神經網絡(Convolutional Neural Networks)

卷積神經網絡(CNN)是一種神經網絡,它提取輸入信息(通常是圖像),按照重要程度將圖像的不同特徵進行分類,然後輸出預測。CNN優於前饋神經網絡的原因在於,它可以更好地捕獲整個圖像的空間(像素)依賴性,這意味著它可以更好地理解圖像的組成。

CNN使用一種稱為「卷積」的數學運算。維基百科這樣定義卷積:對兩個函數的數學運算產生了第三個函數,該函數表示一個函數的形狀如何被另一個函數修改。因此,CNN在其至少一層中使用卷積代替通用矩陣乘法。

5.循環神經網絡(Recurrent Neural Networks)

循環神經網絡(RNN)是另一種神經網絡,能夠攝取各種大小的輸入信息,因此可與序列數據配合使用,效果極佳。RNN既考慮當前輸入也考慮先前給定的輸入,這意味著相同的輸入在技術上可以基於先前的給定輸入產生不同的輸出。

從技術上講,RNN是一種神經網絡,其中節點之間的連接沿時間序列形成有向圖,從而使它們可以使用其內部存儲器來處理可變長度的輸入序列。

6.長短期記憶網絡(Long Short-Term Memory Networks)

長短期記憶網絡(LSTM)是一種遞歸神經網絡,可彌補常規RNN的一大劣勢:短期記憶。

具體來說,如果序列太長,即滯後時間大於5-10個步長,則RNN傾向於忽略先前步驟中提供的信息。例如,如果我們將一個段落輸入RNN,則它可能會忽略該段落開頭提供的信息。為了解決這個問題,LSTM誕生了。

7.權重初始化(Weight Initialization)

權重初始化的要點是保證神經網絡不會收斂到無效解。如果權重全部初始化為相同的值(例如零),則每個單元將獲得完全相同的信號,並且每一層的輸出都是一樣的。

因此,你要隨機初始化權重,使其接近零,但不等於零。用於訓練模型的隨機優化算法就要達到這樣效果。

8.批量梯度下降和隨機梯度下降(Batch vs. Stochastic Gradient Descent)

批量梯度下降和隨機梯度下降是用於計算梯度的兩種不同方法。

批量梯度下降僅使用整個數據集計算梯度。特別是對於較大的數據集,它要慢得多,但對於凸或平滑誤差流形來說效果更好。

在隨機梯度下降的情況下,一次使用單個訓練樣本來計算梯度。因此,它的計算速度更快且成本更低。然而,在這種情況下達到全局最優值時,它趨向於反彈。這會產生好的解決方案,但不是最優解決方案。

9.超參數(Hyper-parameters)

超參數既是調節網絡結構的變量,也是控制網絡訓練方式的變量。常見的超參數包括:

· 模型架構參數,例如層數,隱藏單元數等…

· 學習率(alpha)

· 網絡權重初始化

· 時期數(定義為整個訓練數據集中的一個周期)

· 批量

· 其他

10.學習率(Learning Rate)

學習率是神經網絡中使用的超參數,每次更新模型權重時,神經網絡都會控制該模型響應估計的誤差調整模型的數量。

如果學習率太低,則模型訓練將進行得非常緩慢,因為每次迭代中對權重進行的更新最少。因此,在達到最低點之前需要進行多次更新。如果將學習率設置得太高,則由於權重的急劇更新,會對損失函數造成不良的發散行為,並且可能無法收斂。

以上就是深度學習中最常出現的10個概念。認真學習這10個概念,將有助於你在深度學習領域奠定堅實的基礎。希望這對你的面試有所幫助。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 想通過數據科學面試,這十個SQL概念你必須掌握
    圖源:samsarSQ是一種資料庫查詢和程序設計語言,用於存取數據以及查詢、更新和管理關係資料庫系統,其功能非常強大,是數據科學面試中繞不過的考點。很多人為了通過面試事無巨細地準備,犄角旮旯都不敢放過。但事實上,在現實面試中大多數公司只測試其少數核心概念。努力學習不如機智學習,以下這10個概念因其在實際中應用最多而最常出現。在準備面試時,你應該主要關注這些概念。1.
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 在過去的一年裡,我是如何自學數據科學的?
    作者: Harrison Jansma編譯: MikaCDA 數據分析師原創作品,轉載需授權在過去的一年裡,我自學了數據科學。我學習了數百個在線資源課程,每天學習6-8個小時,同時還在做一份兼職工作謀生。
  • MySQL 面試,必須掌握的 8 個知識點
    但是面試時候好像更關注 why 多於 how。有些問題甚至工作時都沒遇到過。說到這兒,國仔已經吃完了一盤羊肉,鏡片被熱氣蒙上了一層薄薄的霧。國仔取下眼鏡一邊用衣角擦拭,一邊繼續念叨:我覺得獲得高薪的關鍵:就是高效的準備面試。如果當初有個人能給我一份總結好的面試錦囊,我就不至於慌成那樣。
  • 【翻譯】數據科學面試終極指南(4)
    注意在討論反感的事情時,要對事不要對人,表現出專業的素養。在討論喜歡的事情時,仔細反思、論證哪些事情讓你充滿激情。比如,可以說喜歡的事情是從數據中分析出重要結果,匯報給管理層後能優化流程、促進業務。也可以說在公司裡推行數據科學時可以學到新技術,同時又能讓工作的效果更好。
  • 109個數據科學面試問答,你絕對不能錯過的寶藏庫!
    小芯這次特別整理了你應該準備的所有數據科學面試問題,包括國內外109個面試問答,都是數據科學面試時面試者曾遇到的真實的問題哦,作為年末送給大家的福利~快將它收入囊中吧~現在,我們將數據科學家將會遇到的面試問題分為了六個不同的類別:數據統計、編程、建模、行為、文化,和解決問題類。1.
  • 數據科學家含金量最高的5個數據科學認證,先馬後看!
    在下文中,作者將介紹五個可以提升數據科學職業生涯的認證。作為一個數據科學家,你在進行機器學習的時候可能會進入一種黑盒狀態,無法得知機器到底是怎麼學的。但是,如果你使用SAS,則會得到非常詳盡的統計信息。這在面試數據科學職位的時候特別有用,當招聘經理向你詢問複雜的統計問題,只掌握Python數據科學庫是無法回答這些問題的。
  • HR面試419名醫學類畢業生後總結出10個常見問題,你中了幾個?
    小編跟隨領導近幾年也參加了不少醫學院校的校招,對其中參加面試後落選的400多個應屆畢業生所存在的共性問題,進行了分析整理,總結出10個常見問題,真心希望對正在求職路上的你有所幫助。一是過於緊張,半天說不出話。有的學生站在講臺上面試時,全身打哆嗦,眼神不敢直視我們,手腳不知道放哪兒放,我們問了問題之後,他半天不知道怎麼回答,白白浪費了寶貴的面試時間。二是不會做自我介紹。
  • 搞定這120個真實面試問題,殺進數據科學圈
    可以預見的是,各種高校相關專業的畢業生,在完成coursera或者fast.ai的課程後,都希望得到一份跟「數據」相關的崗位。據統計,部分職位的供求比已經達到了1:200。那麼,如何能在這條獨木橋上殺出重圍、脫引而出呢?金三銀四求職季,江湖傳言在三月份和四月份找工作和跳槽成功的概率最大。
  • 面試必問的7個問題,這些回答技巧,助你面試成功
    當你參加一場面試,面試官為了了解你是否能勝任這份工作,會向你提出很多問題。而下面這七個問題幾乎每場面試都會遇到,現在把這些問題總結出來,幫你把面試必考題變成面試送分題。1、請做一下自我介紹。最好根據不同的面試場景多準備幾段自我介紹。一份完整的自我介紹應該包括:姓名、專業、教育背景、工作經驗等方面,說完自己的基本信息後,最後應簡短總結一下應聘這個職位的原因。在工作經驗的介紹上,應該是有側重的。根據你應聘崗位的技能要求來寫,如果你應聘銷售崗,就應該重點展現出你工作經歷中的善於溝通、具有強大抗壓能力的特點。
  • FB面試官:問我這個問題必掛!
    這樣的情況並不是個例,即便現在秋招已經基本結束,每天還是有很多同學反饋「我掛了」「我又掛了」「我還是掛了」··· ··· 更糟的是,除了自己心知肚明的錯誤外,很多同學並不知道自己為什麼會掛掉,因為大多數情況下,面試官在發拒信時不會明確指出你在面試時踩了哪些「雷區」。掛掉面試並不可怕,不知道自己為什麼掛掉才最可怕!
  • 拿到年薪8萬的工作offer後,總結出面試中踩過的坑!
    約 90% 的求職者在拿到心儀的 offer 之前,曾在其他公司的面試中,至少掛過 1 次。面試失敗不可怕,可怕的是失敗後沒有總結和梳理,默許知識漏洞一直存在。結果就是在以後的面試中再犯同樣的錯,繼續失敗,幾次下來,信心倍受打擊。
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 我從600場技術面試中總結出的5個常見問題
    (這將是我進行的倒數第二場白板面試,我討厭白板面試!)幾分鐘後,HR 出現了,他敲門進來,送完水就離開了。求職者們很感激,紛紛打開瓶蓋喝水,這時,他們的臉上出現了一種可怕的、精疲力竭的表情。送水分散了他們的注意力,這讓他們完全失去了思路,我無法幫助他們恢復過來,因為他們沒有跟我分享任何關於其方法的細節。他們花了幾分鐘重新思考這個問題,然後重新開始。
  • 10個數據科學領域學習資源
    全文共3412字,預計學習時長10分鐘我讀的是機械專業,大學後成為了一名機械工程師。我的職業生涯始於鋼鐵行業的一份核心工作。如今,到了2020年,數據科學領域的日新月異,不會缺少學習數據科學的資源。但這也常常給初學者帶來問題:從哪裡開始學習?學習什麼?網際網路上有很多優質資源,但與此同時也有很多不好的資源。過多選擇反而讓人們停滯不前,因為因為焦慮是學習的大敵。
  • 考博面試問題經典回答
    個別專業是要進行專業實操演練的,多以工科、藝術類專業為主,考查學生知識掌握程度。所以同學們要根據不同的面試形式做準備。二、考博複試專業課面試除了參考書的問題還有什麼樣的問題呢?下面結合複試時經常要問的問題,總結出需要提前準備的幾個環節:1、英語自我介紹去年我在複試前兩天找人打聽了,得知面試的時候要先用英語做自我介紹,於是前一天晚上寫了一個四五百字的英語底稿,第二天一上陣,開場白做的不錯。
  • 【TD精選】學習數據科學的102個資源
    它成為與高薪和世界上最有趣的問題相關的時尚話題。強大的學習需求已經在數據科學領域創造了許多不同的資源。學習者都努力選擇最喜愛的資源來學習數據科學,但是我想要更全面的資源——所以我建立了這個列表。這是我在數據科學領域獲得的最喜歡的資源,以便您了解這個領域的狀況,並知道如何立即開始學習。 首先說明:我為Springboard工作(下面列出的數據科學學習的資源提供者之一)。
  • 加拿大轉行數據科學經歷和建議
    坐標在加拿大溫哥華,最近兩年靠美國的在線碩士項目,轉行做數據科學。我現在拿到了一個數據科學家實習的Offer。雖然我的經歷沒法跟大牛比,但是我想分享一下自己的經歷,給想了解Georgia Tech在線數據科學碩士項目的人,想轉行的人,想了解加拿大數據科學就業市場的人一些啟發。
  • 我的一年數據科學學習之旅
    大部分「面試瑣事」是數據科學新鮮感與組織人才獲取、數據科學與軟體工程團隊之間缺乏溝通渠道的結合。集中精力研究如何解決問題,而不是對此感到無所適從。解決這個難題的一個辦法就是審視現實。如果你認識任何現實生活中的數據科學家、數據分析師和機器學習工程師(在線下,在物理世界中),那麼和他們談談他們的工作就是個不錯的主意。假如你誰也不認識,你可以隨時查看博客和文章。
  • 銷售面試中必問的十個問題!
    年中,又是一撥跳槽小高潮,很多銷售要面臨找到新的東家,那麼在面試中,會遇到各種刁鑽問題,我通過跟不同公司的HR和銷售總監的溝通,總結了十大高頻問題,今天在這裡分享一下。面試問題上我不會給出標準答案,但是我會提示1-2個關鍵點,這是面試官最看重的,然後大家在這1-2個關鍵點上,結合自己的情況展開就好。一、請先自我介紹一下?