資源| 25個機器學習面試題,期待你來解答

2021-01-10 機器之心Pro

選自Medium

機器之心編譯

參與:Geek AI、王淑婷、思源

機器學習有非常多令人困惑及不解的地方,很多問題都沒有明確的答案。但在面試中,如何探查到面試官想要提問的知識點就顯得非常重要了。在本文中,作者給出了 25 個非常有意思的機器學習面試問題,這些問題都沒有給出明確的答案,但都有一定的提示。讀者也可以在留言中嘗試。

許多數據科學家主要是從一個數據從業者的角度來研究機器學習(ML)。因此,關於機器學習,我們應該儘可能多地把注意力放在新的程序包、框架、技術等方面,而不是關於核心理論的深入研究。在本文中,我所定義的機器學習包含所有的統計機器學習方法,因此不僅僅指深度學習。

然而,經過一番努力的探究和思考後,我們可以提出很多不錯的機器學習問題,而當我們試圖回答和分析這些問題時,就可以很好地揭示問題更深層次的內涵。基本上,這些問題可能有助於我們擺脫上面所說的那堆問題。我們並非只想一直對數據集進行操作,我們想更加深入地研究機器學習技術的特性、奇怪的地方以及複雜的細節,並最終能夠很好地接受它們。

事實上,網絡上有很多關於「機器學習面試問題」的文章,本文希望能稍微用不一樣的、有趣的方式來討論這些問題。

聲明:我將這些問題列舉出來只是為了啟發大家的思考,促進相關的討論。這個問題並沒有現成的答案。我們會對某些問題給出提示,而這只是為了引發進一步的討論,而不是給出了一個確切的答案。每個問題都值得被更詳細地討論,因此也就沒有固定答案。有些問題是經過設計特意提出的,而有些只是為了逗大家開心。

問題

1. 我在 95% 的置信區間下構建了一個線性回歸模型。這是否意味著我的模型參數對於試圖近似的函數有 95% 的概率是真實的估計值?(提示:這實際上意味著在 95% 的試驗情況下...)

2. Hadoop 文件系統和 KNN(k 最近鄰)算法有什麼相似之處呢?(提示:都很「懶」)

3. 哪個模型結構的表示能力更強大?(例如,它可以精確地表示一個給定的布爾函數),是一個單層感知機還是一個兩層的決策樹?(提示:以異或函數為例)

4. 對於一個兩層決策樹和一個不帶有任何激活函數的兩層神經網絡,誰更加強大?(提示:考慮一下非線性函數的情況?)

5. 神經網絡可以作為降維的工具嗎?請詳細解釋一下。(提示:自編碼器)

6. 似乎很多人都忽視了截距項在線性回歸模型中的作用,請告訴我一個截距項的功能。(提示:噪聲(「垃圾」)收集器)

7. Lasso 正則化可以將係數降低到正好為零。嶺回歸可以將係數降低到非常小的非零值。你能從兩個簡單的函數「|x| 和 x」的圖像中直觀地解釋他們的不同之處嗎?(提示:請注意 |x| 函數圖像中的尖點)

8. 假設你對數據集(連續值)的分布一無所知,你不能假設它是高斯分布。請用最簡單的論證來說明:無論真是的分布是什麼,你都能保證有大約 89% 的數據會落在均值附近 +/- 3 個標準差的範圍內。(提示:馬爾可夫的博士導師是誰?)

9. 大多數機器學習算法涉及到一些對矩陣的操作,例如矩陣乘法和求逆矩陣。請給出一個簡單的數學證明,說明為什麼這種機器學習算法的 mini-batch 版本可能比在整個數據集上進行訓練的計算效率更高?(提示:矩陣乘法的時間複雜度...)

10. 難道你不認為時間序列是一個非常簡單的線性回歸問題,它僅僅有一個因變量和一個自變量(時間)?在使用時序數據時,線性回歸擬合(可能是多項式回歸)的方法有什麼問題?(提示:過去的信息預示著未來...)

11. 請給出一個簡單的數學證明,說明在所有可能的樹結構中找到適用於分類問題的最優決策樹是一個複雜度為指數級的問題。(提示:森林中究竟會有多少棵樹?)

12. 決策樹和神經網絡都是非線性分類器,也就是說,通過複雜的決策邊界來分割解空間。那麼,直觀地看,為什麼我們認為使用決策樹模型比深度神經網絡要容易得多呢?

13. 反向傳播是深度學習的關鍵算法。請列舉一些可能替代反向傳播算法來訓練神經網絡的技術。(提示:隨機搜索...)

14. 假設你現在有兩個問題(線性回歸和 logistic 回歸)。其中哪一個更有可能從超快大型矩陣乘法算法中獲益?為什麼?(提示:哪個算法更可能使用矩陣操作?)

15. 自變量之間的相關性對主成分分析有何影響?你將如何對其進行處理?

16. 你需要建立一個關於隕石撞地球的分類模型(這是對於人類文明很重要的項目)。經過初步分析後,你得到了 99% 的準確率。你應該感到高興嗎?為什麼?你能為此做些什麼?(提示:小概率事件...)

17. 是否有可能捕獲連續變量和類別變量之間的關係?如果以的話,需要怎麼做?

18. 如果你正在研究基因表達數據,通常會有數百萬個自變量,而只有幾百個樣本。請給出簡單的數學證明,說明為什麼在這種情況下,使用最小二乘法構建一個回歸模型並不是一個好的選擇。(提示:從矩陣代數的角度思考...)

19. 請解釋,為什麼 k 折交叉驗證對於時序模型效果並不好。你能做些什麼來改善這種情況?(提示:剛剛過去的信息對於未來有較強的指導作用...)

20. 對於回歸問題來說,從訓練數據中通過簡單隨機抽樣得到訓練集和驗證集是很有效的。但是對於一個分類問題來說,這種方法會存在什麼問題?為此我們能做些什麼?(提示:所有類別的樣本是否能被公平地抽取出來?)

21. 模型的準確率和性能,哪一個對你來說更重要?

22. 如果你可以利用多個 CPU 內核,你會更喜歡提升樹算法而不是隨機森林嗎?為什麼?(提示:如果你有 10 只手去完成一項任務,你會如何利用它)

23. 假設已知數據集是線性可分的,而你需要保證算法能夠收斂並且具有最大的迭代次數/訓練步數(由於計算資源有限)。在這種情況下你會使用梯度下降法嗎?你會選擇什麼方法呢?(提示:哪種簡單的算法能夠保證找到解?)

24. 假設你擁有的內存/存儲空間非常小。你會更喜歡 logistic 回歸還是 KNN 算法?為什麼?(提示:空間複雜度)

25. 為了構建一個機器學習模型,你準備了 100 個數據點和 5 種特徵。為了減少偏差,你又引入了 5 個特徵變量,並且又收集了 100 個數據點。請解釋這種方法是否正確。(提示:機器學習會遇到的(維度)災難,你聽說過嗎?)

原文連結:https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 如何解答面試難題
    前不久,某航空公司入川招收100名空姐,其中有這樣一道面試題:如果在飛機上遭遇性侵犯,你該怎麼辦?前來應試的眾佳麗一個個滿面通紅,羞愧難當。事實上,目前在中外航班,空姐遭遇性騷擾是屢見不鮮的。問題在於處理這些突發情況時如何做到有理、有節、有方。由於缺乏有關知識,沒有相應的心理準備,佳麗們遭遇了一次尷尬。類似的試題有:「你以為家庭與事業哪個更重要?」
  • 你是合格的機器學習數據科學家嗎?來挑戰這40題吧!(附解答)
    原標題:你是合格的機器學習數據科學家嗎?來挑戰這40題吧!如果你是一名數據科學家,那就需要對機器學習很擅長,而不只是三腳貓的功夫。作為 DataFest 2017 的一部分,Analytics Vidhya 組織了不同的技能測試,從而數據科學家可以就這些關鍵技能進行自我評估。測試包括機器學習、深度學習、時序問題以及概率。這篇文章將給出機器學習測試問題的解答。你可以通過連結獲得其他測試問題及解答。
  • 數據科學和機器學習面試問題集錦
    可怕的機器學習面試。你覺得自己什麼都懂,直到你進行了測試!但一切可以得到改變。在過去的幾個月裡,我面試了許多公司涉及數據科學和機器學習的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最後幾個月就研究生畢業,我的碩士是機器學習和計算機視覺,我之前的大部分經驗是研究/學術,但在一個早期創業公司待過8個月(與機器學習無關)。這些角色包括數據科學、通用機器學習和專精自然語言處理及計算機視覺。
  • 拼多多2020屆數據分析面試題合集
    另外面試題具體是業務題多一點還是機器學習等題目多一點,這個也不太好說,主觀上是與你的簡歷或者面試官相關。不叭叭了,以下是從牛客給大家整理的多多的面試題,再次謝謝各位在牛客上給下一屆的同學留下面經的同學,祝大家工作順利,一切都好。
  • 應聘機器學習工程師?這是你需要知道的12個基礎面試問題
    如果想應聘機器學習工程師崗位,你可能會遇到技術面試,這是面試官掂量你對技術的真正理解的時候,所以還是相當重要的。近日,JP Tech 發表了一篇文章,介紹了他們面試新人時可能會提出的 12 個面試問題。問題很基礎,但卻值得一看。這些問題是我在面試 AI 工程師崗位時常問到的問題。事實上,並非所有面試都需要用到所有這些問題,因為這取決於面試者的經驗以及之前做過的項目。
  • 2021銀保監會面試專業題考情概括,助你高效避雷!
    最近這幾天收到很多小夥伴的諮詢,抱怨銀保監會面試難度很大,想知道銀保監會面試該如何準備?其實銀保監會面試難主要是面試題目數量大,還涉及專業題和英語題。那麼銀保監會面試該如何準備才能拿到高分呢?接下來我會從各個維度來給大家展開細說。一、面試形式及題量歷年採取結構化面試方式,未出現無領導小組討論、半結構化面試等其他形式。
  • 谷歌面試題解析:一輛校車能裝下多少桌球
    本文作者將使用明確問題——分析問題——解決問題的三部曲來對這個面試題進行解析。一輛校車能裝下多少高爾夫球?但是身處祖國大陸的我們,很少有機會去谷歌面試,更多的還是在祖國媽媽的懷抱下發展事業。然而現狀是,我們這裡很多公司都喜歡用谷歌、蘋果、臉書等美國大工廠的面試題來對前來面試的同學進行測試,在中國可就沒人震驚我們的算術能力了。我們還是來看看遇到這樣的面試題,我們應該怎麼思考才能順利過關吧。
  • 2019教師資格證面試模擬題:你認為一種科學的備課方法是什麼?
    【導讀】華圖寧夏教師招聘考試網同步未知發布:2019教師資格證面試模擬題:你認為一種科學的備課方法是什麼?,詳細信息請閱讀下文!如有疑問請加【2019寧夏教師招聘考試交流群匯總】 ,更多資訊請關注寧夏教師微信公眾號(ningxiajsht),寧夏教師招聘考試培訓諮詢電話:0951-6028571/6027571 18295188220,微信號:ht18295188220   2019教師資格證面試採用的是結構化面試、情境模擬等方式,你準備好了嗎?
  • 高難度國際IQ題:據說全球15%的人一臉懵逼,期待IQ135+的人解答
    不過,很多的智商測試題確實可以大概衡量出一個人的智商情況,雖然達不到精確,但也能知道個大概。在這些IQ測試題中,有的題目非常難,而今天,小磊和大家分享的這道IQ題,就是出自某套智商測試題,而這道高難度的國籍IQ題,據說全球15%的人一臉懵逼,很多人根本看不懂,讓我們一起來期待IQ135+的人來解答吧。
  • 我的世界:來自微軟經典的5道面試題,看看你能不能考進Mojang?
    曾經,微軟100道面試題,刷遍了求職者的朋友圈。今天我叫Minecraft整理了五份經典的面試題,將來有計劃想考進《我的世界》Mojang的玩家,可以先來感受一下難度。問題一:為什麼下水道的井蓋是圓的? 這是最為經典的微軟面試題,作為Minecraft玩家。
  • 小學入學面試神題滿天飛:為啥北極熊不吃企鵝
    隨著本周末廣州小學招生報名時間的日漸逼近,不少準小學生家長之間盛傳著各種各樣的面試神題,如被家長稱為急轉彎的代表題:為啥北極熊不吃企鵝?為此,家長們臨陣磨槍,用各自的方法訓練孩子,以求能在面試中脫穎而出。  邀請親戚給孩子模擬面試  呂小姐的孩子今年要報讀小學了,地段學校是天河區的某省一級學校。
  • 優思學院|質量人最常用的33個面試問題及答案解析
    有跳槽到別的單位的,也有新入行的,不管哪種,面試是必不可少的一個環節。那麼,質量人面試時都會遇到哪些問題?本文盤點質量主管及質量工程師常見面試題以及相關答案解析。質量部主管面試題1. MSA怎樣實施,有哪些特性需要關注,值在多少?
  • 高效「背誦」面試題的三定法則
    你還可以使用遞進式結構來提取面試題中的知識要點。 舉例:Vue生命周期總共有 11 個,常用的有 8 個,分為初始化、掛載、更新和銷毀這 4個階段。 如果你採用 遞進式結構 來準備,你可以先從前端框架發展史的角度講一講 3 種架構模式的各自特點,再講一講彼此的優勢和劣勢,最後談一談你對 MVVM 的深入理解。 以 題目3 為例: 題目3是一道邏輯算法題,你可以採用 順承式結構 來準備。要完成這道算法題,你該怎樣寫代碼,你的思路是怎樣的。
  • 面試官:「1分鐘內把這瓶水賣給我」,2個思路,破解HR的套路題
    分類丨面試技巧字數丨1400字,閱讀約2分鐘在求職面試的過程中,特別是一些銷售、客服崗位的面試中,有時會遇到一些「套路題」。諸如:「你能否在1分鐘內,把這張紙/這瓶水/這支筆賣給我?」又或者:「你如何把面前這瓶水賣到50塊錢?你如何把這張紙賣到100塊錢?」今天我們就來聊聊,這一類的「套路題」到底應該如何解答。
  • 公務員面試太難了_國家公務員考試
    廣東華圖開啟2021國考筆試解讀峰會,助力學子們對答案、估分、查排名,讓你面試備考快人一步!   8個非通用語職位,筆試成績=行測分數*25%+申論分數*25%+外語水平測試成績*50%(考試成績均按百分制折算,下同)。   中國銀保監會及其派出機構職位和中國證監會及其派出機構職位筆試成績=行測分數*25%+申論分數*25%+專業科目筆試分數*50%。
  • 國家公務員面試2017年3月2日國稅系統面試題
    如有疑問請加【2021國家公務員考試微信客服】 ,更多資訊請關注寧夏華圖微信公眾號(ningxiaht),國家公務員培訓諮詢電話:0951-6028571/6027571 18295188220,微信號:HT15202602573   2017年3月2日國稅系統面試題   1.請你閱讀桌上的題籤(請考生注意,不要再題籤上寫字或做記號)
  • 據說有99%的人都會做錯的面試題
    這道題主要考察了面試者對浮點數存儲格式的理解。另外,請不要討論該題本身是否有意義之類的話題。本題只為了測試面試者相關的知識是否掌握,題目本身並沒有實際的意義。下面有6個浮點類型變量,其中前三個是float類型的,後三個是double類型的。
  • 國家公務員面試2018年3月10日海事系統面試題
    【導讀】華圖國家公務員考試網同步華圖教育發布:國家公務員面試2018年3月10日海事系統面試題,詳細信息請閱讀下文!如有疑問請加【2021國家公務員考試微信客服】 ,更多資訊請關注寧夏華圖微信公眾號(ningxiaht),國家公務員培訓諮詢電話:0951-6028571/6027571 18295188220,微信號:HT15202602573   國家公務員面試2018年3月10日海事系統面試題   1.在現在大眾創業、萬眾創新的背景下,政府推出了一系列扶持大學生創業的政策
  • 機器人結構工程師薪資_中國機器學習工程師薪資 - CSDN
    來看看你距離成為一名AI工程師還有多遠吧~⭐具體內容:我是因為什麼開始接觸敲代碼人工智慧/機器學習/深度學習自學如何尋找學習資料如何選擇程式語言/框架校招/社招/實習/面試經驗一碗雞湯⭐聲明:本篇內容均屬於個人觀點,建議採納對自己有用的經驗,如有疏漏,歡迎指正,
  • 復旦招生面試題:沙漠中如何給電腦供電
    (來源:鄭州晚報)    網友熱情討論  昨日下午,一名同事把在網上找到的部分復旦大學自主招生考試的面試題發到晚報QQ群中。  話題迅速在QQ群中引起了眾多網友的關注。  「好想哭啊,這題太難了。」