Reddit熱議:一道看似簡單的分類基礎問題,為何難倒一大片人?

2021-01-09 新智元

新智元報導

來源:Reddit

編輯:大明

【新智元導讀】對於已經投入生產流程的二元分類器,應該如何解決數據不平衡的問題?這時無法增補數據,無法重新訓練,應該如何處理?這個看似簡單的基礎問題著實難倒了reddit上的一位網友,他在17次面試中,有15次被這個問題問倒,只好發到reddit上求助,結果引發熱烈討論。

在機器學習領域,二元分類器問題可以說是一個非常基礎的領域,基於二元分類器的模型,已經成為目前多個常見分類模型應用構建的基礎。但就是這樣一個基礎問題,最近卻難住了一位Reddit網友。他自稱對「主要算法和問題都有所了解,並在一些機器學習領域有所擅長」的情況下,被一個二元分類器問題難倒了。

百思不得其解的他將這個問題發到了reddit上求助,結果成了機器學習版面上的頭號熱帖。

新智元對帖子內容和部分精彩討論進行了選編:

目前我正在機器學習領域內求職,在所從事的特定領域中,我對所有主要算法都有所了解,並且能夠在特定問題(比如時間序列和回歸模型)上發揮作用。在通用數據科學中,我已經能在大多數問題上方面很好地應對了(比如概率問題、概念問題,中心均值定理問題等等......)。

最近,我參加了5家公司的面試,在17位面試官(有兩位還是科技界的知名人士)中,有15位都向我提出了這個問題,這個問題真的難住了我,這裡向大家請教一下。問題是:

假設現在有一個二元分類器(邏輯回歸,神經網絡等),應該如何處理在生產流程中產生的不平衡的數據集?

一個看似簡單的面試基礎問題,為何難倒一大片人?

我必須承認,我不知道怎麼回答。我知道對於用來衡量模型的評估標準需要小心處理,應該注意精確度和召回率或roc,而不僅僅是精確度。對於採樣策略,應該隨時進行改變,以反映每個分類。不過上面這些策略和過程都是在訓練過程中完成的。

一旦到了生產流程中,在這個問題上就要面臨不少困難的處境:

如果不對訓練數據作一些加工,就沒有足夠的稀疏數據讓分類器從中學習到一些東西,這樣的話,分類器就只能預測密集數據的分類,往往達不到生產環境要求。

如果對數據進行了加工,那麼面臨的情況可能是,訓練數據的分布和生產數據的分布是完全不同的,因此訓練出的模型不能很好地完成預測(至少我認為,在測試階段和生產階段的數據分布不同,會導致災難性的後果。

這個兩難困境要怎樣解決?為什麼面試官這麼喜歡問這個問題?

還有一些跟進問題和一些思路提示,比如:

如果情況確實如此,即數據集不平衡,而且你是在將二元分類器加入生產環節,並且使用了一段時間之後,經測試才發現預測效果不好,你會怎麼做?(我的回答是,回到訓練環節找問題,重新評估你想使用哪些特徵,或找到更多要訓練的數據)。

第二個問題是同一個面試官問的:如果現在說的是同一個模型呢,你怎麼辦?你現在無法獲得更多的數據,這時應該怎麼辦?(我的回答是:是不是考慮l1或l2正則化?但這些方法適用於任何數據集,而不是針對不平衡的數據。調節K層交叉檢驗的層數呢?好像也不管用.....)

我想是不是可以在訓練之後調整分類器,但在實際部署之前,調整到原始的數據分布,而不是在訓練期間使用的(下採樣或上採樣)分布?(我認為,在實際部署模型之前根據知識對模型進行的任何調整,都算是某種形式的再訓練。)

關於第二個問題,我之前確實遇到過

(https://stats.stackexchange.com/a/403244/89649)。它只適用於邏輯回歸,不適合任何其他二元分類器。那麼試試其他分類器怎麼樣?(在數據不平衡的情況下,邏輯回歸是不是唯一合適的算法?)

網友熱議:這問題我也經常問,沒有標準答案,你答得不錯

Reddit網友顯然對這個問題並不陌生,在評論中對這個看似簡單的基礎問題展開了熱烈討論,其中有些人顯然是用這個問題面試過不少人,比如:

嗯。這個問題我在面試別人時問過不下20次。

我提出這個問題的主要目的是考察對追求訓練精度需求和基於精度的返回(roc)的理解。在採樣策略上,其實可以有很多不同選擇,包括上採樣和下採樣,這一點我覺得你理解得不錯。一些情況下需要進行數據增補,但一般只涉及少數圖像數據集。最後是尋找損失函數。可以在少數分類錯誤時對模型進行懲罰,局部損失函數和焦點損失函可以稍有區別。當然你也可以說一些「找更多的數據」這樣的廢話,不過你的簡歷可能就要被刷了。或者你可以說一些其他的內容,比如半監督學習什麼的。

還有的網友同樣從面試者角度出發,指出這個問題對於不同人群的側重點是不同的,並對提問者的回答表示了充分肯定。

不同人群關注側重點不同,看清自己的定位

你已經答得不錯了。我在面試時首先會問面試者錯誤分類成本是否也存在著不平衡。如果沒有,就沒有需要解決的問題了。根據面試對象的不同,我認為你的回答的側重點也應該有所區別。比如:統計學家最感興趣的是損失函數商務人士最希望聽到對期望利潤的一些估計,以及分類損失函數。工程師更希望獲得更高的精度、返回值等等,因為這些指標大部分解決的是數據不平衡的問題,他們不需要將時間浪費在自己不理解的與商業有關的損失函數和統計學概念上。

還有人表示,向求職者提出這個問題,實際上不是要對方給出答案,而是考察求職者的思維深度和廣度以及批判性的思維能力。看看,高度就是不一樣。

實際是考察思維深度和廣度,而不是答案本身

這是一道非常好的面試問題,可以考察面試人的知識廣度和深度,以及批判性思維能力。這個問題沒有任何萬能答案,可以100%適用所有情況,所以這個問題其實最終更目的多的是在討論,而不是追求答案。面試者希望看到你提出一些想法,並解釋每個想法的優缺點,他們想深入了解你的一些想法,看看你對這個主題的理解程度究竟如何。然後拋出一些問題,看看你能思考到什麼程度。有些問題,即使用了谷歌搜索,也仍然無法得出正確答案。這通常表明這個問題提得非常之好。

還有人認為,可能是在模型的選擇上出了問題,或者學習的特徵與任務實際不相適應。

是不是模型選擇有問題?

從面試問題的角度來看,我認為這個問題的重點是:仔細考察數據,不能將算法視為黑盒子。為什麼模型在生產過程中表現不佳?是否存在偏離數據(或錯誤數據)的異常值?訓練時的數據與生產過程中觀察到的數據遵循相同的分布嗎?這兩類數據很容易區分嗎?機器學習藝術的很大一部分是數據的可視化。還有,你選擇的模型合適不合適?如果是二元分類任務,選擇支持向量機(SVM)可以增加魯棒性,因為它不僅適合單個超平面,而且可以最大化邊距。同樣,如果數據集太小,可以嘗試貝葉斯方法並使用強大的先驗數據。是否選擇或學習了與任務適合的特徵?說白了,問這個問題是為了看看你以前是不是用過真實的數據

新智元的小夥伴們,不知你們對這個問題怎麼看,在面試中是否遇見過?你們又是怎麼回答的呢?歡迎在回帖中分享各位的看法。

參考連結:

Reddit:

https://www.reddit.com/r/MachineLearning/comments/c1vxoc/d_17_interviews_4_phone_screens_13_onsite_5/?sort=top

相關焦點

  • 這幾道小學題目,難倒很多大學生,老師:全對的人智商200以上!
    隨著知識更迭的速度越來越快,現如今中小學教育不單單是考察學生對基礎知識的掌握程度,同時還考察學生的創新思維、發散思維、逆向思維等能力。一般的小學生的題也不能拿我們成年人的思維做,而這些題的解題方法總是讓人出乎意料,有些看似很簡單的題總是難倒大部分家長,不知從何下手,對於不懂得變通的的家長更是燒腦。今天我們就來看看那些難倒大學生的小學題目。這4道小學題目,難倒很多大學生,老師:全做對的人智商200以上!
  • 宇宙空間為何是黑的?看似平常的一件事,卻暗藏著一大秘密!
    宇宙空間為何是黑的?看似平常的一件事,卻暗藏著一大秘密!伴隨著人類進入宇宙,有關於宇宙當中的照片層出不窮的開始出現在人類的視野當中,但是也伴隨著很多問題的出現,比如說為什麼宇宙是黑色的,而不是像地球一樣有白天或者是黑夜呢?雖然這個問題並不複雜,但卻蘊含著一個很多人都不知道的秘密。
  • 社交媒體和arXiv存在,讓雙盲評審形同虛設 | Reddit熱議
    都是他們關注的問題。畢竟這意味著你們這個團隊在領域有多大的影響力,還有利於之後的研究進行。就像這位來自小型研究室的成員說的那樣,幾年前在ML和CV領域的認可度幾乎為0,而被這些大會接收以後,原本毫不起眼的實驗室也就有了一定的影響力。這樣來看,影響力與論文接收其實並不衝突。
  • 這幾個看似簡單的數學問題,其實難倒了幾代數學家
    數學博大精深這裡有許多看似簡單的理論,證明卻是很難。哥德巴赫猜想看起來很簡單吧,但就是解不開。3X+1問題給你一個任意的整數,如果是偶數就除2,如果是奇數就乘3加1,然後如此迭代下去,最終一定會收斂到1。第一次看到這個問題的同學一定會狐疑,真的嗎?我不信。
  • 一道難倒眾多數學家的簡單問題,涉及宇宙萬物、至今無解
    昨天在小夥伴們的群裡討論了一道數學題,1和0.9的無限循環哪個大?學過高等數學的人都知道,這是一個求極限的問題:毫無疑問,0.9的無限循環就等於1。如果讓一個數學家去回答這個問題,答案當然就是肯定的,這沒毛病。然後把這個問題拋給一個物理學家去回答的話,物理學家會陷入沉思,並且告訴你,這需要通過實驗去驗證。物理學家得到的結論是,在目前的理論框架下,0.9不能無限循環,因為時空是有最小單位的,那就是普朗克時間和普朗克長度。
  • 初中數學經典題型比較大小問題難倒很多學生其實方法很簡單
    初中數學經典題型比較大小問題難倒很多學生其實方法很簡單 原標題:初中數學經典題型比較大小問題難倒很多學生其實方法很簡單
  • 這6道腦筋急轉彎,難倒眾多大學生,網友:全答對者IQ280以上!
    而腦筋急轉彎題目其實也分為不同的類型,大致可以分為智力型的腦筋急轉彎,搞笑型的腦筋急轉彎,數學型的腦筋急轉彎;有科學家曾這樣說:「任何問題,研究到最後都是數學」,由此可見,數學在日常生活當中具有一定的重要性,所以說,平時讓同學們多多做一些數學智力題,一來可以提高自己的數學成績,二來還可以增強大腦的靈活度。
  • 古代最著名的三道數學題至今仍是經典,其中一道難倒了無數外國人
    ——阿倫·尼文斯(美)文章分類|歷史奇聞文章字數|1380字,閱讀約3分鐘早在15世紀,達文西就說過一句很有建設性的話,那就是「數學是一切科學的基礎」。如今,這句話越來越被無數案例所印證。毫無疑問,數學是當代科學最根本的工具,任何科學領域都離不開數學。說到數學啟蒙,中國是世界上最早的國家之一。
  • 小學數學題「誰跑得快」難倒眾家長 有人戲謔CPI跑得最快
    小學二年級寒假作業上的一道題目,難倒了合肥市民朱先生。他上網求助時,網友紛紛支招,有人給出答案「CPI跑得最快」。這樣的題目很雷人眼看快開學了,市民朱先生在幫兒子檢查作業時遭遇尷尬,這道空著的數學題讓他這個家長費盡腦汁也解答不了。小學生的題目連家長也做不出,這讓朱先生感到「很無語」。
  • 宇宙為何是黑色的?簡單問題的背後,隱藏著令人不安的真相!
    宇宙為何是黑色的?簡單問題的背後,隱藏著令人不安的真相!抬頭仰望天空,看著藍色的天空有無數白色的雲朵點綴,心情瞬間變得舒暢。每到雷雨天氣,藍色的天空會變得陰暗無比,讓人內心感到壓抑。享受陽光眺望遠方的同時,有人不禁會產生一個疑惑,宇宙是什麼顏色呢?
  • 小學生10道智力題測試,家長看了頭疼,大學生也被難倒?
    下面來了解一下小學生10道智力題測試,家長看了頭疼,大學生也被難倒?第一題這一道題目可就有些難了,據說難倒可很多成年人,無論是大學生還是家長看了都表示頭疼。這是中國香港小學一道給6歲兒童設計的「停車場智力題」,要求學生們在20秒內答出這個被擋住的車位上的數字,那麼你答對了嗎?
  • 5道燒腦的「智力題」,難倒了無數大學生,你敢來挑戰嗎?
    有些題目雖然難度大,但是趣味性強,能讓大腦保持活力,今天就帶大家來看看5道燒腦的「智力題」,難倒了無數大學生,你敢來挑戰嗎?第一道智力題是臺灣國小六年級的題目,師父對徒弟說「我在你這年紀時你才5歲,但你到我這年紀時,我就71歲了!」
  • 難倒全世界200萬人的簡單邏輯題,你答對了嗎?
    不久前,一個國外小哥在YouTube上錄製了一段視頻,視頻的內容就是一道看似很簡單的初中物理題。
  • 最難的5道小學生智力題,難倒無數家長,能全部答對的都是天才!
    當然了這些題也是比較難的,今天就給大家分享最難的5道小學生智力題,難倒無數家長,能全部答對的都是天才!其實小學生的智力題就是小學生經典的奧數題,這類題可以很好的讓我們在工作一天的時間後活動下腦筋,鍛鍊一下我們的思維力,減輕工作壓力,但是真的遇到這種題你是真的會做嗎?
  • 社交媒體和arXiv存在,讓雙盲評審形同虛設|Reddit熱議
    都是他們關注的問題。畢竟這意味著你們這個團隊在領域有多大的影響力,還有利於之後的研究進行。就像這位來自小型研究室的成員說的那樣,幾年前在ML和CV領域的認可度幾乎為0,而被這些大會接收以後,原本毫不起眼的實驗室也就有了一定的影響力。這樣來看,影響力與論文接收其實並不衝突。
  • 難倒愛因斯坦的題目,學生家長齊上陣,你能解得出嗎?
    難倒愛因斯坦的題目,學生家長齊上陣,你能解得出嗎?現在的生活當中看起來是一些非常簡單的問題,但是換個思路來看的話,確實是一個數學智力題,很多的中小學生為了開發大腦,也會去研究一些智力的數學題,最近就有一道關於從監考到愛因斯坦的一道題目,開始在中學生當中流傳。
  • 這問題難倒大片人!
    這問題難倒大片人!未分類的混合垃圾如果處置不當,就會產生致癌物二噁英、甲硫醇、甲硫醚、滲濾液等有害物質造成環境汙染、疾病傳播、空氣汙染以及水體汙染。所以答案是選 E,以上全部。「垃圾分類有獎知識競賽」活動火熱進行中你參加了嗎?
  • 一道閃電大約相當於多少度電 看似數值驚人
    一道閃電大約相當於多少度電 看似數值驚人時間:2020-08-27 06:40   來源:格雷   責任編輯:凌君 川北在線核心提示:原標題:一道閃電大約相當於多少度電 看似數值驚人 螞蟻莊園8月27日莊園小課堂的問題是【小雞寶寶考考你,猜一猜,一道閃電大約相當於多少度電】,題目給出的選擇是【約2度】、【約280
  • 誕生272年後,這個看似簡單的數學問題終求得閉式解
    1894 年,這個問題在《美國數學月刊》第一期中再次出現,並被改寫為最初的「籬笆內吃草問題」。這被分類為「內部問題」。Ullisch 認為內部問題比外部問題難度更大。外部問題是已知圓半徑和繩長,求吃草面積,這可以通過積分來解決;而內部問題則相反,給出面積求繩長,要複雜得多。
  • 史上最燒腦的五道智力題,有八成人不能做全對,還難倒很多高材生
    史上最燒腦的五道智力題,有八成人不能做全對,還難倒很多高材生。仔細閱讀題目中所給的信息,你能做到最終量出這2兩酒嗎?看看機智的你,能不能想到預言家是如何做到預言的?這是一道看似簡單的計算題,其實並不簡單,仔細一點你能算出這種細菌充滿整個瓶子要多長時間嗎?按照圖中給的遊戲規則,那麼抽到一號的的海盜應該怎樣分配才能不被扔下海呢?看看誰的方法最好。這種類型的題目主要就是讀清題目中的信息,那麼怎樣才能用燃燒繩子的方法來計時呢?