收藏!來自大廠的100+數據科學面試Q&A!

2021-02-19 量化投資與機器學習


全網TOP量化自媒體


作者:Terence       編譯:方的饅頭

這篇文章很長...

但是不要被長度嚇到了,我們已經將其分為四個部分(機器學習、統計信息、SQL、其他),以便你可以逐步了解它。

你可以使用這些問題來磨練知識並找出差距,然後填補這些空白。

我們希望你會發現這很有幫助,並祝你在數據科學的努力中好運!

問1:在應用機器學習算法之前,數據爭論和數據清理有哪些步驟?


當數據爭論和數據清理時可以採取許多步驟。下面列出了一些最常見的步驟:

數據剖析:幾乎每個人都從理解他們的數據集開始。更具體地說,你可以使用.shape查看數據集的形狀,並使用.describe()查看數字變量的描述。

數據可視化:有時,使用直方圖、箱形圖和散點圖可視化數據很有用,以更好地理解變量之間的關係並識別潛在的異常值。

語法錯誤:這包括確保沒有空格,確保字母大小寫一致以及檢查拼寫錯誤。你可以使用.unique()或條形圖檢查拼寫錯誤。

標準化或規範化:根據你使用的數據集和決定使用的機器學習方法,對數據進行標準化或標準化可能會很有用,這樣不同比例的不同變量不會對模型的性能產生負面影響。

處理空值:有多種處理空值的方法,包括完全刪除帶有空值的行,將空值替換為均值/中位數/眾數,將空值替換為新的類別(例如未知)、預測值,或使用可以處理空值的機器學習模型。在這裡閱讀更多。

其他事情包括:刪除不相關的數據,刪除重複項和類型轉換。

問2:如何處理不平衡的二元分類?


有多種方法可以處理不平衡的二元分類(假設你要識別少數類):

首先,你想重新考慮用於評估模型的指標。模型的準確性可能不是最好的指標,因為我將用一個例子來說明原因。假設有99次銀行提款不是欺詐行為,而1次提款是欺詐行為。如果你的模型僅將每個實例歸類為「非欺詐性」,則其準確性為99%!因此,你可能要考慮使用精確度和召回率等指標。

改善不平衡二元分類的另一種方法是增加對少數群體分類錯誤的成本。通過增加這種懲罰,模型應該更準確地對少數群體進行分類。

最後,你可以通過對少數類進行過度採樣或對多數類進行欠採樣來改善類的平衡。你可以在這裡讀更多關於它的內容。

問3:箱線圖和直方圖有什麼區別?


箱線圖和直方圖是用於顯示數據分布的可視化效果,但它們以不同的方式傳達信息。

直方圖是顯示數值變量的頻率的條形圖,並用於估計給定變量的概率分布。它使你可以快速了解分布的形狀、變化和潛在的離群值。

箱線圖傳達數據分布的不同方面。雖然你無法通過箱形圖看到分布的形狀,但可以收集其他信息,例如四分位數、範圍和離群值。當你想同時比較多個圖表時,箱線圖特別有用,因為它們比直方圖佔用更少的空間。

問4:請描述不同的正則化方法,例如L1和L2正則化?


L1和L2正則化都是用於減少訓練數據過擬合的方法。最小二乘法可最小化殘差平方和,這可能會導致低偏差但高方差。

L2正則化(也稱為嶺回歸)可最小化殘差平方和加上λ乘以斜率平方。這個附加術語稱為「嶺回歸懲罰」。這會增加模型的偏差,使訓練數據的擬合度變差,但也會降低方差。

如果採用嶺回歸懲罰並將其替換為斜率的絕對值,則將獲得套索回歸或L1正則化。

L2沒有那麼強大,但具有穩定的解決方案,並且始終是一個解決方案。L1更強大,但解決方案不穩定,可能有多個解決方案。

StatQuest在這裡有關於套索和嶺回歸的精彩視頻。

問5:神經網絡基礎知識


神經網絡是受人腦啟發的多層模型。像我們大腦中的神經元一樣,上方的圓圈代表一個節點。藍色圓圈代表輸入層,黑色圓圈代表隱藏層,綠色圓圈代表輸出層。隱藏層中的每個節點代表輸入所經歷的函數,最終導致綠色圓圈中的輸出。這些函數的正式術語稱為sigmoid激活函數

問6:什麼是交叉驗證?


交叉驗證本質上是一種用於評估模型在新的獨立數據集上的性能的技術。交叉驗證的最簡單示例是將數據分為兩組:訓練數據和測試數據,其中使用訓練數據構建模型,使用測試數據測試模型。

問7:如何定義/選擇指標?


沒有一種「放之四海而皆準」的指標。選擇用於評估機器學習模型的度量標準取決於多種因素:

它是回歸還是分類任務?

業務目標是什麼?例如:精確度與召回率

目標變量的分布是什麼?

可以使用許多指標,包括調整後的r平方、MAE、MSE、精確度、召回率、準確度、f1得分等等。

問8:請解釋什麼是精確度和召回率


召回率試圖回答「正確識別出實際陽性的比例是多少?」

精確度試圖回答「陽性識別的實際比例是多少?」

問9:請解釋什麼是假陽性和假陰性。為什麼彼此之間很重要?舉例說明假陽性比假陰性更重要,假陰性比假陽性更重要,以及當這兩種類型的錯誤同等重要時


假陽性是指在實際不存在的情況下對它的錯誤識別。

假陰性是指在實際存在的情況下對它的錯誤識別。

篩查癌症是假陰性比假陽性更重要的一個例子。更糟糕的是,當一個人患了癌症時卻說他沒有患癌症,而不是說某人患有癌症,後來又意識到他沒有癌症。

這是一個主觀論點,但從心理學的角度來看,假陽性可能比假陰性更糟。例如,由於人們通常不期望中獎,因此,贏得彩票的假陽性可能比假陰性結果更糟。

問10:監督學習和無監督學習有什麼區別?給出具體的例子


監督學習涉及學習基於示例輸入輸出對[1]將輸入映射到輸出的函數men。

例如,如果我們有一個包含年齡(輸入)和身高(輸出)兩個變量的數據集,我們可以實現一個監督學習模型,以根據一個人的年齡預測其身高。

與監督學習不同,無監督學習用於得出推論並從輸入數據中找到模式,而無需參考標記的結果。無監督學習的常見用法是通過購買行為來對客戶進行分組以找到目標市場。

問11:假設你需要使用多元回歸來生成一個預測模型。解釋你打算如何驗證此模型


有兩種主要方法可以做到這一點:

A)調整後的R平方


R平方是一種度量,它告訴你因變量的方差比例在多大程度上由自變量的方差解釋。用簡單的話來說,當係數估計趨勢時,R平方代表最佳擬合線周圍的散布。

但是,每增加一個獨立變量到一個模型中總是會增加R平方值,因此,具有多個自變量的模型似乎更適合,即使並非如此。這是調整後的R²出現的作用。調整後的R²補償每個額外的自變量,並且該值僅當每個給定變量使模型的改善超出概率範圍時才增加。這很重要,因為我們正在創建一個多元回歸模型。

B)交叉驗證


對大多數人來說,一種通用的方法是交叉驗證,即將數據分為兩組:訓練和測試數據。有關更多信息,請參見第一個問題的答案。

問12:NLP代表什麼?


NLP代表自然語言處理。它是人工智慧的一個分支,賦予機器閱讀和理解人類語言的能力。

問13:什麼時候使用隨機森林Vs支持向量機( SVM),為什麼?


與支持向量機相比,隨機森林是更好的模型選擇有以下幾個原因:

問14:為什麼降維很重要?


降維是減少數據集中特徵數量的過程。

這一點很重要,主要是在你要減少模型中的方差(過度擬合)的情況下。

降維的四個優點:

1.減少所需時間和存儲空間

2.消除多重共線性改善了機器學習模型參數的解釋

3.當數據縮小到非常低的維度(例如2D或3D)時,可視化數據更容易

4.避免了維度的詛咒

問15:什麼是主成分分析(PCA)?解釋使用PCA來解決的問題。


從最簡單的意義上講,PCA涉及將更高維度的數據(例如3維)投影到更小的空間(例如2維)。這樣會導致數據維度較低(2維而不是3維),同時將所有原始變量保留在模型中。

PCA通常用於壓縮目的,以減少所需的內存並加快算法的速度,還用於可視化目的,從而使匯總數據更加容易。

問16:為什麼樸素貝葉斯這麼糟糕?將如何改進使用樸素貝葉斯的垃圾郵件檢測算法?


樸素貝葉斯的一個主要缺點是它有一個很強的假設,即特徵被假設為彼此不相關,而通常情況並非如此。

改進使用樸素貝葉斯算法的一種方法是對特徵進行去相關以使假設成立。

問17:線性模型有哪些缺點?


線性模型有幾個缺點:

問18:你認為50顆小型決策樹比一顆大型決策樹好嗎?為什麼?

提出此問題的另一種方式是:「隨機森林比決策樹更好的模型嗎?」答案是肯定的,因為隨機森林是一種集成方法,它需要許多弱決策樹才能培養出強大的學習者。隨機森林更準確、更健壯,並且更不太容易過度擬合。

問19:為什麼均方誤差是衡量模型性能的一個不好的指標?你會建議什麼呢?


均方誤差(MSE)對較大的誤差具有較高的權重,因此,MSE往往過分強調較大的偏差。一個更強大的替代方法是MAE(平均絕對偏差)。

問20:線性回歸需要哪些假設?如果其中一些假設被違反怎麼辦?

假設如下:

1、用於擬合模型的樣本數據可代表總體

2、X與Y的平均值之間的關係是線性的

3、對於任何X值(均方差),殘差的方差都相同

4、觀察彼此獨立

5、對於任何X值,Y均是正態分布

極端違反這些假設將使結果變得多餘。略微違反這些假設將導致估計值更大的偏差或方差。

問21:什麼是共線性?如何處理?如何消除多重共線性?


在多元回歸方程中,當一個自變量與另一個自變量高度相關時,存在多重共線性。這可能是有問題的,因為它破壞了自變量的統計意義。

你可以使用方差膨脹因子(VIF)來確定自變量之間是否存在多重共線性——一個標準基準是,如果VIF大於5,則存在多重共線性。

問22:如何檢查回歸模型是否與數據吻合?


你可以使用幾個指標:

R平方/調整後的R平方:相對擬合度。先前的答案對此進行了解釋

F1分數:評估所有假設回歸係數均等於零的原假設和至少一個不等於零的替代假設。

RMSE:絕對擬合度。

問23:什麼是決策樹?

決策樹是一種流行的模型,用於運籌學、戰略規劃和機器學習。上方的每個正方形稱為一個節點,並且你擁有的節點越多,(通常)決策樹越準確。做出決策的決策樹的最後節點稱為樹的葉子。決策樹直觀且易於構建,但在準確性方面卻有所欠缺。

問24:什麼是隨機森林?為什麼好呢?


隨機森林是一種基於決策樹集成學習技術。隨機森林涉及使用原始數據的自舉數據集創建多個決策樹,並在決策樹的每個步驟中隨機選擇一個變量子集。然後,模型選擇每個決策樹的所有預測的模式。通過依賴「多數獲勝」模型,它降低了單顆樹出錯的風險。

例如,如果我們創建一個決策樹,第三個決策樹,它將預測0。但是,如果我們依賴所有4個決策樹的模式,則預測值為1。這就是隨機森林的力量。

隨機森林還提供了其他一些好處,包括強大的性能,可以對非線性邊界進行建模,不需要交叉驗證以及賦予特徵重要性。

問25:什麼是內核?解釋內核技巧


核(kernel)是一種在某些(可能是非常高維的)特徵空間中計算兩個向量𝐱x和𝐲y的點積的方法,這就是為什麼內核函數有時被稱為「廣義點積」的原因[2]

內核技巧是一種使用線性分類器通過將線性不可分離的數據轉換為較高維度的線性可分離數據來解決非線性問題的方法。

問26:在擬合SVM之前進行降維是否有好處?為什麼或者為什麼不?

當特徵數量大於觀測值的數量時,執行降維通常會改善SVM。

問27:什麼是過度擬合?

過度擬合是一種模型與數據擬合得太好的誤差,導致模型具有高方差和低偏差。因此,即使過擬合模型在訓練數據上具有很高的精確性,也將不準確地預測新的數據點。

問28:什麼叫boosting?

Boosting是一種通過減少模型的偏差和方差來改進模型的集成方法,最終將弱學習者轉化為強學習者。總體思路是訓練一個弱學習者,並通過從先前的學習者那裡學習來依次迭代和改進模型。你可以在此處了解更多信息。

問1:物品在位置A處的概率為0.6,在位置B處的概率為0.8。在亞馬遜網站上找到該物品的概率是多少?


我們需要對此問題做出一些假設,然後才能回答它。假設在亞馬遜上有兩個可能購買特定商品的地方,並且在位置A找到它的概率為0.6,而在位置B找到它的概率為0.8。在亞馬遜上找到物品的概率可以解釋為:

我們可以把上面的改寫為P(A)= 0.6和P(B)= 0.8。此外,我們假設這些事件是獨立的事件,這意味著一個事件的概率不受另一個事件的影響。然後,我們可以使用公式...

P(A或B)= P(A)+ P(B)-P(A和B)

P(A或B)= 0.6 + 0.8-(0.6 * 0.8)

P(A或B)= 0.92

問2:你從100枚硬幣中隨機抽取一枚硬幣——1枚不公平硬幣(正面對正面),99枚公平硬幣(正面對反面)並將其滾動10次。如果結果是10個正面,那麼硬幣不公平的概率是多少?

這可以使用貝葉斯定理來回答。貝葉斯定理的擴展方程如下:

假設撿到不公平硬幣的概率表示為P(A),而連續翻轉10個正面的概率表示為P(B)。那麼P(B | A)等於1,P(B |¬ A)等於0.510,而P(¬A)等於0.99。

如果填寫方程,則P(A | B)= 0.9118或91.18%。

問3:凸成本函數和非凸成本函數之間的區別?當成本函數是非凸時,它意味著什麼?

凸函數是指在圖形上任意兩點之間繪製的線位於圖上或圖形上方的函數。它有一個最小值。

非凸函數是指在在圖形上任意兩點之間繪製的線可能與圖形上其他點相交的函數。它的特徵是「波浪形」。

當成本函數為非凸函數時,這意味著該函數可能會找到局部極小值而不是全局極小值,這從優化的角度來看,這在機器學習模型中通常是不希望的。

問4:理解概率基本原理


為此,我們將研究此處列出的八種概率規則以及四種不同的計數方法:

概率八法則


規則1:對於任何事件A,0≤P(A)≤1;換句話說,事件發生的概率範圍可以從0到1。

規則2:所有可能結果的概率總和始終等於1。

規則3:P(非A)= 1-P(A);該規則解釋了事件的概率及其補餘事件之間的關係。補餘事件是指所有不包含在A中的可能結果。

規則4:如果A和B是不相交的事件(互斥),則P(A或B)= P(A)+ P(B);這被稱為不相交事件的加法規則。

規則5:P(A或B)= P(A)+ P(B)-P(A和B);這被稱為一般加法規則。

規則6:如果A和B是兩個獨立的事件,則P(A和B)= P(A)* P(B);這被稱為獨立事件的乘法規則。

規則7:事件B在給定事件A下的條件概率為P(B | A)= P(A和B)/ P(A)

規則8:對於任意兩個事件A和B,P(A和B)= P(A)* P(B | A);這被稱為一般乘法規則。

計數方法


階乘公式:n!= n x(n -1)x(n_2)x…x 2 x 1


當項目數等於可用位置數時使用。

例如:找到5個人可以坐在5個空座位上的方式總數。

= 5 x 4 x 3 x 2 x 1 = 120

基本計數原理(乘法)


當允許重複且填充空位的方法的數量不受先前填充影響時,應使用此方法。

例如:有3種早餐、4種午餐和5種甜點。組合總數= 5 x 4 x 3 = 60

排列:P(n,r)= n!/(nr)!


當不允許替換且項目等級的順序很重要時,使用此方法。

例如:一個代碼按特定順序有4位數字,且數字範圍為0到9。如果一位數字只能使用一次,則有多少種排列方式?

P(n,r)= 10!/(10–4)!=(10x9x8x7x6x5x4x3x2x1)/(6x5x4x3x2x1)= 5040

組合公式:C(n,r)=(n!)/ [(nr)!r!]


當不允許替換並且項目的排序順序無關緊要時,使用此方法。

例如:要贏得彩票,你必須以1至52的任意順序選擇5個正確的數字。可能的組合數量是多少?

C(n,r)= 52!/(52–5)!5!= 2,598,960

問5:請描述馬爾可夫鏈?


極好地提供了馬爾可夫鏈的一個很好的定義(在這裡):

「馬爾可夫鏈是一個數學系統,根據一定的概率規則,會經歷從一種狀態到另一種狀態的轉變。馬爾可夫鏈的定義特徵是,無論過程如何到達其當前狀態,可能的未來狀態都是固定的。換句話說,轉換為任何特定狀態的概率僅取決於當前狀態和所經過的時間。」

馬爾可夫鏈背後的實際數學需要線性代數和矩陣的知識。

問6:一個盒子有12張紅牌和12張黑牌。另一個盒子有24張紅牌和24張黑牌。你想從兩個盒子中隨機抽取兩張牌,一次一張。哪個盒子更有可能獲得相同顏色的牌?為什麼?


具有24張紅牌和24張黑牌的盒子更有可能獲得兩張相同顏色的牌。讓我們逐步完成每個步驟。

假設你從每副牌中抽出的第一張牌是紅色A。

這意味著在有12張紅色和12張黑色的這副牌中,現在有11張紅色和12張黑色。因此,你再抽到紅色的機率等於11 /(11 + 12)或11/23。

在有24張紅色和24張黑色的這副牌中,將會有23張紅色和24張黑色。

因此,你再抽到紅色的機率等於23 /(23 + 24)或23/47。

由於23/47> 11/23,所以第二副牌擁有更多張牌時,獲得相同兩張牌的概率更高。

問7:你在賭場裡,有兩個骰子可以玩。每次擲出5,你將贏得10美元。如果你一直玩到贏才停止,你的預期支出是多少?


假設你每次玩遊戲的費用為5美元。

有兩個骰子的36種可能組合。

在這36種組合中,有4種組合導致擲出5(請參見藍色)。這意味著擲出5的概率是4/36或1/9。

1/9的勝算意味著你將輸掉8次,從理論上講,一次獲勝。

因此,你的預期支出等於$ 10.00 * 1-$ 5.00 * 9 =-$ 35.00。

問8:如何判斷給定硬幣是否有偏差?


這不是一個惡作劇問題。答案很簡單,就是進行假設檢驗:

1、原假設是硬幣沒有偏差,翻轉的概率應該等於50%(p = 0.5)。另一種假設是硬幣有偏差,p!= 0.5。

2、擲硬幣500次。

3、計算Z分數(如果樣本小於30,則將計算t統計量)。

4、與alpha比較(雙尾檢驗,所以0.05 / 2 = 0.025)。

5、如果p值> alpha,則不會拒絕原假設,並且硬幣不會有偏見。

如果p值<alpha,則拒絕原假設,並且對硬幣有偏差。

問9:讓不公平的硬幣公平


由於拋硬幣是二元結果,因此可以通過兩次拋硬幣來使不公平的硬幣公平。如果將其翻轉兩次,則可以押注兩個結果:正面跟著反面或反面跟著正面。

P(正面)* P(反面)= P(反面)* P(正面)

這是有道理的,因為每次擲硬幣都是獨立事件。這意味著,如果你得到正面→正面或反面→反面,則需要重新投擲硬幣。

問10:你即將要乘飛機去倫敦,想知道是否需要帶把傘。你隨機打電話給三個朋友,問他們每個人是否在下雨。你的朋友說實話的概率是2/3,而他們撒謊對你開玩笑的概率是1/3。如果他們三個都說正在下雨,那麼倫敦實際上下雨的概率是多少?


你可以說這個問題與貝葉斯理論有關,因為最後一個陳述基本上遵循以下結構:「假設B為真,那麼A成立的概率是多少?」因此,我們需要知道某一天倫敦下雨的概率。我們假設是25%。

P(A)=下雨的概率= 25%

P(B)=3個朋友都說下雨的概率

P(A | B)考慮到他們說正在下雨的下雨概率

P(B | A)考慮到下雨的3個朋友都說下雨的概率=(2/3)³= 8/27

步驟1:求解P(B)

P(A | B)= P(B | A)* P(A)/ P(B),可改寫為

P(B)= P(B | A)* P(A)+ P(B |不是A)* P(不是A)

P(B)=(2/3)³* 0.25 +(1/3)³* 0.75 = 0.25 * 8/27 + 0.75 * 1/27

步驟2:求解P(A | B)

P(A | B)= 0.25 *(8/27)/(0.25 * 8/27 + 0.75 * 1/27)

P(A | B)= 8 /(8 + 3)= 8/11

因此,如果三個朋友都說正在下雨,那麼實際就在下雨的概率是8/11。

問11:給你40張帶有四種不同顏色的牌——10張綠牌、10張紅牌、10張藍牌和10張黃牌。每種顏色的牌從1到10編號。隨機選擇兩張牌。找出被挑選的牌不是相同編號和相同顏色的概率。


由於這些事件不是獨立的,因此我們可以使用以下規則:

P(A和B)= P(A)* P(B | A),也等於

P(非A且非B)= P(非A)* P(非B |非A)

例如:

P(非4且非黃色)= P(非4)* P(非黃色|非4)

P(非4且非黃色)=(36/39)*(27/36)

P(非4且非黃色)= 0.692

因此,選擇的牌號不同且顏色相同的概率為69.2%。

問12:你如何評估見解的統計顯著性?


你可以進行假設檢驗以確定統計顯著性。首先,你要陳述原假設和替代假設。其次,你要計算p值,即假設原假設為真的情況下獲得測試觀察結果的概率。最後,你將設置顯著性水平(alpha),如果p值小於alpha,則將拒絕原假設,換句話說,結果在統計上是顯著的。

問13:解釋什麼是長尾分布,並提供三個有關長尾現象的示例。為什麼它們在分類和回歸問題中很重要?

長尾分布是一種有尾巴的重尾分布,其尾部逐漸漸進性下降。

3個實際示例包括冪律、帕累託原則(通常稱為80–20規則)和產品銷售(即最暢銷產品與其他產品的對比)。

重要的是要注意分類和回歸問題中的長尾分布,因為最不經常出現的值構成了人口的大部分。這最終會改變你處理離群值的方式,並且在假定數據為正態分布的前提下,還與某些機器學習技術發生衝突。

問14:什麼是中心極限定理?解釋一下。它為什麼如此重要?


「如何統計」提供了CLT的最佳定義,即:

「中心極限定理指出,無論總體分布的形狀如何,樣本均值的抽樣分布都會隨著樣本規模的增大而接近正態分布。」 [1]

中心極限定理很重要,因為它用於假設檢驗和計算置信區間。

問15:什麼是統計功效?


「統計功效」是指二元假設的功效,即替代假設為真,則檢驗拒絕原假設的概率。[2]

問16:解釋選擇偏差(關於數據集,而不是變量選擇)。它為什麼如此重要?諸如丟失數據處理之類的數據管理程序如何使情況變得更糟?


選擇偏差是指以無法實現適當隨機化的方式選擇個人、群體或數據進行分析的現象,最終導致樣本無法代表總體。

理解和識別選擇偏差很重要,因為它可能會嚴重歪曲結果並提供有關特定人群的錯誤見解。

選擇偏差的類型包括:



    


處理丟失的數據會使選擇偏差更糟糕,因為不同的方法以不同的方式影響數據。例如,如果你用數據的平均值替換空值,則在你就增加了偏差,因為你假設數據並不像實際可能的那樣分散。

問17:提供一個簡單的示例,說明實驗設計如何幫助回答有關行為的問題。實驗數據與觀測數據對比如何?


觀測數據來自觀測研究,即當你觀測某些變量並試圖確定是否存在相關性時。

實驗數據來自實驗研究,即當你控制某些變量並將其保持恆定以確定是否存在因果關係時。

實驗設計的一個示例如下:將一組分成兩部分。對照組正常生活。測試組被告知持續30天每晚喝一杯葡萄酒。然後可以進行研究,看看葡萄酒如何影響睡眠。

問18:缺失數據的均值插補是否可以接受?為什麼或者為什麼不?


均值插補是用數據均值替換數據集中的空值。

均值插補通常是不好的做法,因為它沒有考慮特徵相關性。例如,假設我們有一個顯示年齡和健康得分的表,並且假設一個八十歲的老人缺少健身分數。如果我們取15到80歲這一年齡段之間的平均健康分數,那麼八十歲的老人看起來會比他實際應該有的高得多的健康分數。

其次,均值插補減少了數據的方差,並增加了我們數據的偏差。由於方差較小,導致模型精度較低,置信區間較窄。

問19:什麼是離群值?解釋如何篩選離群值,以及在數據集中發現離群值時將如何處理?另外,請解釋什麼是內部值,以及如何篩選它們,以及在數據集中發現內部值時將如何處理?


離群值是與其他觀測值有顯著差異的數據點。

根據離群原因,從機器學習的角度來看,它們可能是不好的,因為它們可能會降低模型的準確性。如果離群值是由於測量誤差引起的,則將其從數據集中移除非常重要。有幾種方法可以識別離群值:

z分數/標準差:如果我們知道數據集中99.7%的數據位於三個標準差之內,那麼我們可以計算一個標準差的大小,將其乘以3,並確定超出此範圍的數據點。同樣,我們可以計算給定點的z分數,如果它等於+/- 3,則為離群值。

注意:使用此方法時需要考慮一些意外情況;數據必須是正態分布的,不適用於小型數據集,並且存在太多離群值可能會使z得分下降。

四分位間距(IQR):IQR是用於構建箱線圖的概念,也可以用於識別離群值。IQR等於第三個四分位數和第一個四分位數之間的差值。然後,如果該點小於Q1-1.5 * IRQ或大於Q3 + 1.5 * IQR,則可以確定該點是否為離群值。這大約是2.698個標準偏差。

其他方法包括資料庫掃描聚類(DBScan clustering)、隔離林(Isolation Forests)和穩健隨機砍伐林(Robust Random Cut Forsets)。

內部值是位於數據集其餘部分中的數據觀測值,是異常或錯誤的。由於它位於數據集中,因此通常比離群值更難識別,並且需要外部數據來識別它們。如果你確定任何內部值,則只需將它們從數據集中移除即可。

問20:如何處理丟失的數據?你推薦哪種插補技術?


有幾種處理丟失數據的方法:

·    刪除缺少數據的行

·    均值/中位數/眾數

·    分配唯一值

·    預測缺失值

·    使用支持缺失值的算法,例如隨機森林

最好的方法是刪除缺失數據的行,因為這樣可以確保不添加或刪除任何偏差或方差,並最終形成一個健壯且準確的模型。但是,僅當有大量數據開始且缺失值的百分比較低時,才建議這樣做。

問21:你擁有有關呼叫中心通話時長的數據。為如何編寫代碼和分析這些數據指定一個計劃。解釋一個合理的場景,說明這些持續時長的分布情況。如何以圖形方式測試,你的期望是否得到證實?


首先,我們將進行EDA——探索性數據分析,以清理、探索和理解我們的數據。請在此處查看我們有關EDA的文章。作為EDA的一部分,我們可以編寫一個調用通話持續時長的直方圖以查看潛在分布。

我們的猜測是通話時長將遵循對數正態分布(請參見下文)。我們認為它出現正偏的原因是,由於通話不能為負秒,因此下限限於0。但是,從高端來看,相對較長的通話很可能只佔一小部分。

你可以使用QQ圖來確認通話時長是否遵循對數正態分布。請參閱此處以了解有關QQ圖的更多信息。

問22:解釋管理數據集和從實驗研究中收集的數據集之間可能存在的差異。管理數據可能遇到什麼問題?實驗方法如何幫助緩解這些問題?它們帶來什麼問題?


管理數據集通常是政府或其他組織出於非統計原因使用的數據集。

管理數據集通常比實驗研究更大且更具成本效益。假設與管理數據集相關聯的組織處於活動狀態且運行正常,它們也會定期更新。同時,管理數據集可能無法捕獲一個人所有需要的數據,並且可能也未採用所需的格式。它還容易出現質量問題和條目丟失。

問23:你正在為每個月上傳的用戶內容編寫一份報告,並注意到10月份的上傳量激增。特別是圖片上傳數量激增。你認為這是什麼原因造成這種情況的,你將如何檢驗呢?


導致照片上傳數量激增的潛在原因有很多:

1、一項新功能可能已在10月實現,該功能涉及上傳照片並獲得了用戶的極大關注。例如,提供創建相冊功能的功能。

2、同樣,以前上傳照片的過程可能不直觀,在10月份有所改善。

3、可能有一種病毒式的社交媒體運動,涉及上傳持續到整個10月的照片。例如。Movember,但更具可擴展性。

4、出現高峰的原因可能是人們在萬聖節張貼自己奇裝異服的照片。

檢驗方法取決於峰值的原因,但你將進行假設檢驗以確定推斷出的原因是否是實際原因。

問24:舉例說明不具有高斯分布或對數正態的數據。


任何類型的分類數據都不會具有高斯分布或對數正態分布。

指數分布——例如汽車電池持續使用的時間或直到地震發生的時間。

問25:什麼是根本原因分析?如何識別原因與相關性?舉個例子


根本原因分析:一種解決問題的方法,用於識別問題的根本原因[5]

相關性衡量兩個變量之間的關係,範圍從-1到1。

因果關係是指第一個事件似乎導致了第二個事件。因果關係實質上著眼於直接關係,而相關性可以著眼於直接和間接關係。

例如:在加拿大,較高的犯罪率與較高的冰淇淋的銷量相關聯,也就是說是正相關的。但是,這並不意味著一個導致另一個,相反,而是因為當室外變暖時,兩者都會更多地發生。

你可以使用假設檢驗或A / B檢驗來檢驗因果關係。

問26:舉一個例子,中位數比平均值更好


當有許多離群值使數據出現正偏或負偏時。

問27:給定兩個公平的骰子,獲得總分為4的概率是多少?總分為8的概率呢?


投擲4(1 + 3、3 + 1、2 + 2)有4種組合:

P(投擲一個4)= 3/36 = 1/12

投擲8(2 + 6、6 + 2、3 + 5、5 + 3、4 + 4)的組合:

P(投擲一個8)= 5/36

問28:什麼是大數定律?


大數定律是這樣一種理論,即隨著試驗次數的增加,結果的平均值將越來越接近預期值。

例如,將公平硬幣的正面翻轉100,000次應該比100次更接近。

問29:如何計算所需的樣本量?

你可以使用誤差範圍(ME)公式確定所需的樣本量。

·    t / z =用於計算置信區間的t / z分數

·    ME =期望的誤差範圍

·    S =樣本標準偏差

問30:採樣時,你會有什麼偏差?


潛在的偏見包括:

·    抽樣偏差:由非隨機抽樣引起的偏差樣本

·    覆蓋偏差下:抽樣觀測值太少

·    生存偏差:忽略沒有通過某種形式的選擇過程的觀測錯誤。

問31:你如何控制偏差?


你可以做很多事情來控制偏差並使偏差最小化。兩項常見的事情包括:隨機化(隨機分配參與者)和隨機抽樣,即在抽樣中每個成員被選擇的概率相等。

問32:什麼是混雜變量?

混雜變量或混雜因素是既影響因變量又影響自變量的變量,它導致一種虛假關聯,這是一種兩個或多個變量相關但沒有因果關係的數學關係。

問33:什麼是A / B檢驗?


A / B檢驗是假設檢驗和雙樣本假設檢驗的一種形式,用於比較單個變量的兩個版本,即控制項變量和變異變量。它通常用於改善和優化用戶體驗和營銷。

問34:如何通過僅知道性別身高來證明男性平均比女性高?


你可以使用假設檢驗來證明男性平均身高高於女性。

原假設假設男性和女性的平均身高相同,而替代假設假設男性的平均身高大於女性的平均身高。

然後,你將隨機收集一個男性和女性身高的樣本,並使用t檢驗來確定是否拒絕該原假設。

問35:醫院的感染率高於每100人/日1次感染的風險被認為很高。在過去的1787人/日裡,一家醫院有10次感染處於危險之中。給出醫院是否低於標準的正確單側檢驗的p值


由於我們著眼於給定時間範圍內發生的事件數(感染數),因此這是一個泊松分布問題。

原假設(H0):每人每日1次感染

替代假設(H1):每人每日感染次數> 1

k(實際)= 10次感染

λ(理論)=(1/100)* 1787

使用Excel中的.poisson()或R中的ppois計算得出的p = 0.032372或3.2372%

由於p值<alpha(假設顯著性水平為5%),我們拒絕原假設,並得出醫院低於標準的結論。

問36:你擲出一枚有偏差硬幣(p(正面)= 0.8)五次。獲得三次或更多次正面的概率是多少?

使用一般二項式概率公式來回答以下問題:

p = 0.8

n = 5

k = 3,4,5

P(3次或更多次正面)= P(3次正面)+ P(4次正面)+ P(5次正面)= 0.94或94%

問37:一個隨機變量X是正常的,平均值為1020,標準差為50。計算P(X> 1200)

使用Excel…

p = 1-norm.dist(1200,1020,50,true)

p = 0.000159

問38:考慮到出現在公交車站的人數是Poisson,平均為2.5 / h。在四個小時內最多三個人出現的概率是多少?

x = 3

平均值= 2.5 * 4 = 10

使用Excel…

p = poisson.dist(3,10,true)

p = 0.010336

問39:HIV檢測的靈敏度為99.7%,特異性為98.5%。患病率為0.1%的受試者獲得陽性測試結果。測試的精確度是多少(即他是HIV陽性的概率)?


精確度=正預測值(Positive Predictive Value)= PV

PV =(0.001 * 0.997)/ [(0.001 * 0.997)+((1-0.001)*(1-0.985))]

PV = 0.0624或6.24%

問40:你正在競選公職,民意測驗人員對數百人進行了投票。他們中有60人聲稱將投票支持你。你能放鬆一下嗎?


·    假設只有你和另一個對手。

·    另外,假設我們需要95%的置信區間。這為我們提供了1.96的z分數。

p-hat= 60/100 = 0.6

z * = 1.96

n = 100

這使我們的置信區間為[50.4,69.6]。因此,在置信區間為95%的情況下,如果你可以接受最糟糕的平局情況,那麼你可以放鬆。否則,你不能放鬆,直到你得到100分中的61分才能說可以放鬆。

問41:蓋革計數器(Geiger Counter)在5分鐘內記錄了100次放射性衰變。找出每小時衰減次數的大約95%間隔。


·    由於這是一個泊松分布問題,因此均值= lambda =方差,這也意味著標準偏差=均值的平方根

·    95%的置信區間表示z分數為1.96

·    一個標準偏差= 10

因此,置信區間= 100 +/- 19.6 = [964.8,1435.2]

問42:蘇格蘭的兇殺率從去年的115降至去年的99。這個報導的變化是否真的值得關注?


·    由於這是一個泊松分布問題,因此均值= lambda =方差,這也意味著標準偏差=均值的平方根

·    95%的置信區間表示z分數為1.96

·    一個標準差= sqrt(115)= 10.724

因此,置信區間= 115 +/- 21.45 = [93.55,136.45]。由於99在此置信區間內,因此我們可以假定此變化不是很值得注意。

問43:考慮兩個雙親異性戀家庭的流感流行情況,假設父母中至少有一方患上該病的概率為17%。父親患上流感的概率為12%,而父親和母親都患此病的概率為6%。母親感染流感的概率是多少?


在概率中使用通用加法規則:

P(母親或父親)= P(母親)+ P(父親)- P(母親和父親)

P(母親)= P(母親或父親)+ P(母親和父親)- P(父親)

P(母親)= 0.17 + 0.06-0.12

P(母親)= 0.11

問44:假設35-44歲男性的舒張壓(DBP)正態分布的平均值為80(mm Hg),標準差為10。一個35-44歲隨機年齡的男性的DBP低於70的概率是多少?

由於70是低於平均值的一個標準差,因此取一個標準差左側的高斯分布的區域。

= 2.3 + 13.6 = 15.9%

問45:在感興趣的人群中,有9名男性樣本產生的平均大腦體積為1,100cc,標準差為30cc。在此新人群中,學生平均腦容量的95%置信區間T是多少?

給定95%的置信度並且自由度等於8,則t分數= 2.306

置信區間= 1100 +/- 2.306 *(30/3)

置信區間= [1076.94,1123.06]

問46:六周內有9位受試者服用了減肥藥。體重的平均差異(隨訪基線)為-2磅。要使95%置信區間T的上限達到0,權重差異的標準差應該是多少?

上限=平均值+ t分數*(標準差/sqrt(樣本大小))

0 = -2 + 2.306 *(s / 3)

2 = 2.306 * s / 3

s = 2.601903

因此,對於95%置信區間T的上限,標準差必須至少約為2.60,才能達到0。

問47:在一項對急診室等待時間的研究中,研究人員考慮了新的標準分診系統。為了測試系統,管理員選擇了20個晚上並隨機分配了要在10個晚上使用的新分診系統,並在剩餘的10個晚上分配了標準系統,他們計算了每晚看病的平均等待時間(MWT)。新系統的平均MWT為3小時,方差為0.60,而舊系統的平均MWT為5小時,方差為0.68。考慮與新系統相關的平均MWT的差值的95%置信區間估計,假設方差恆定。間隔是多少?以此順序減去(新系統-舊系統)。

置信區間=均值+/- t分數*標準差

均值=新均值-舊均值= 3-5 = -2

給定df = 18(20–2)和95%的置信區間,t分數= 2.101

標準差= sqrt((0.⁶²* 9 +0.⁶⁸²* 9)/(10 + 10–2))* sqrt(1/10 + 1/10)

標準差= 0.352

置信區間= [-2.75,-1.25]

問48:為了進一步測試醫院分診系統,管理員選擇了200個晚上,並隨機分配了一個新的分診系統,該系統將在100個晚上使用,而標準系統則在剩餘的100個晚上使用。他們計算了每晚看病的平均等待時間(MWT),新系統的平均MWT為4小時,標準差為0.5小時,而舊系統的平均MWT為6小時,標準差為2小時。考慮與新療法相關的平均MWT降低的假設。相對於該假設,具有不等方差的95%獨立組置信區間意味著什麼?(由於每個組的觀測值太多,因此請使用Z分位數而不是T。)


假設我們按此順序減去(新系統-舊系統):

兩個獨立樣本的置信區間公式

均值=新均值-舊均值= 4–6 = -2

z分數= 1.96,95%的置信區間

標準差= sqrt((0.⁵²* 99 +²²* 99)/(100 + 100–2))* sqrt(1/100 + 1/100)

標準差= 0.205061

下限= -2-1.96 * 0.205061 = -2.40192

上限= -2 + 1.96 * 0.205061 = -1.59808

置信區間= [-2.40192,-1.59808]

問題1:第二高的薪水


編寫一個SQL查詢以從Employee表中獲取第二高的薪水。例如,鑑於下面的Employee表,查詢應返回200作為第二高的薪水。如果沒有第二高的薪水,則查詢應返回null。

+----+---+
| Id | Salary |
+----+---+
| 1 | 100 |
| 2 | 200 |
| 3 | 300 |
+----+---+

解決方案A:使用IFNULL,OFFSET


·    IFNULL(expression,alt):如果為null,則ifnull()返回指定值,否則返回預期值。如果沒有第二高的薪水,我們就用這個返回null。

·    OFFSET:offset與ORDER BY子句一起使用可忽略指定的前n行。這將很有用,因為你希望獲得第二行(第二高的薪水)

SELECT
IFNULL(
(SELECT DISTINCT Salary
FROM Employee
ORDER BY Salary DESC
LIMIT 1 OFFSET 1
), null) as SecondHighestSalary
FROM Employee
LIMIT 1

解決方案B:使用MAX()


此查詢表示選擇的最高薪水不等於最高薪水,這等於選擇第二高的薪水!

SELECT MAX(salary) AS SecondHighestSalary
FROM Employee
WHERE salary != (SELECT MAX(salary) FROM Employee)

問題2:電子郵件重複


編寫一個SQL查詢以在名為Person的表中查找所有重複的電子郵件。

+----+----+
| Id | Email |
+----+----+
| 1 | a@b.com |
| 2 | c@d.com |
| 3 | a@b.com |
+----+----+

解決方案A:子查詢中的COUNT()


首先,創建一個子查詢以顯示每封電子郵件的頻率計數。然後在計數大於1的情況下過濾子查詢。

SELECT Email
FROM (
SELECT Email, count(Email) AS count
FROM Person
GROUP BY Email
) as email_count
WHERE count > 1

解決方案B:HAVING子句


HAVING是一個子句,它允許你將WHERE語句與聚合(GROUP BY)結合使用。

SELECT Email
FROM Person
GROUP BY Email
HAVING count(Email) > 1

問題3:溫度上升


給定一個Weather表,編寫一個SQL查詢以查找與其之前(昨天)日期相比溫度更高的所有日期的ID。

+----+---+---+
| Id(INT) | RecordDate(DATE) | Temperature(INT) |
+----+---+---+
| 1 | 2015-01-01 |  10    |
| 2 | 2015-01-02 |      25        |
| 3 | 2015-01-03 |      20        |
| 4 | 2015-01-04 | 30 |
+----+---+---+

解決方案:DATEDIFF()


·    DATEDIFF計算兩個日期之間的差,並用於確保我們將今天的溫度與昨天的溫度進行比較。

用簡單的英語來說,查詢是說,選擇給定日期的溫度高於昨天的溫度的ID。

SELECT DISTINCT a.Id
FROM Weather a, Weather b
WHERE a.Temperature > b.Temperature
AND DATEDIFF(a.Recorddate, b.Recorddate) = 1

問題4:部門最高薪水


Employee表包含所有員工。每個員工都有一個身份證ID、一份薪水,並且還有一個部門ID列。

+----+--+---+----+
| Id | Name | Salary | DepartmentId |
+----+--+---+----+
| 1 | Joe | 70000 | 1 |
| 2 | Jim | 90000 | 1 |
| 3 | Henry| 80000 | 2 |
| 4 | Sam | 60000 | 2 |
| 5 | Max | 90000 | 1 |
+----+--+---+----+

Department表包含公司的所有部門。

+----++
| Id | Name |
+----++
| 1 | IT |
| 2 | Sales |
+----++

編寫一個SQL查詢以查找每個部門中薪水最高的員工。對於上述表,你的SQL查詢應返回以下行(行的順序無關緊要)。

+--++---+
| Department | Employee | Salary |
+--++---+
| IT | Max | 90000 |
| IT | Jim | 90000 |
| Sales | Henry | 80000 |
+--++---+

解決方案:IN子句


·   IN子句允許你在WHERE語句中使用多個OR子句。例如,WHERE country ='Canada' or country ='USA'與WHERE country IN('Canada','USA')相同。

·    這種情況下,我們要過濾Department表以僅顯示每個部門的最高薪水(即DepartmentId)。然後,我們可以將兩個表連接在一起,其中DepartmentId和Salary在已過濾的Department表中。

SELECT
Department.name AS 'Department',
Employee.name AS 'Employee',
Salary
FROM Employee
INNER JOIN Department ON Employee.DepartmentId = Department.Id
WHERE (DepartmentId , Salary)
IN
( SELECT
DepartmentId, MAX(Salary)
FROM
Employee
GROUP BY DepartmentId
)

問題5:交換座位


瑪麗是一所中學的老師,她有一張桌子seat,用於存儲學生的姓名和相應的座位id。id列是連續的增量。瑪麗想為相鄰的學生換座位。

你可以編寫一個SQL查詢來輸出瑪麗的結果嗎?

+----+----+
| id | student |
+----+----+
| 1 | Abbot |
| 2 | Doris |
| 3 | Emerson|
| 4 | Green |
| 5 | Jeames |
+----+----+

對於樣本輸入,輸出為:

+----+----+
| id | student |
+----+----+
| 1 | Doris |
| 2 | Abbot |
| 3 | Green |
| 4 | Emerson |
| 5 | Jeames |
+----+----+

注意:

如果學生人數為奇數,則無需更改最後一個人的座位。

解決方案:CASE WHEN

·    可以將CASE WHEN THEN語句視為編碼中的IF語句。

·    第一個WHEN語句檢查行數是否為奇數,如果行數為奇數,請確保ID號不變。

·    第二個WHEN語句為每個id加1(例如1,3,5變為2,4,6)

·    同樣,第三個WHEN語句對每個id減去1(2,4,6變為1,3,5)

SELECT
CASE
WHEN((SELECT MAX(id) FROM seat)%2 = 1) AND id = (SELECT
MAX(id) FROM seat) THEN id
WHEN id%2 = 1 THEN id + 1
ELSE id - 1
END AS id, student
FROM seat
ORDER BY id

問1:如果有8個同等重量的彈珠和1個稍微重一點的彈珠(總共9個彈珠),則需要多少重量才能確定哪個彈珠最重?

將需要兩次稱量(請參見上面的A和B部分):

1、你將九個彈珠分成三組,每組三個,然後稱重其中兩組的重量。如果天平保持平衡(選項1),則說明稍微重一點彈珠位於第三組中。否則,你將選擇重量較重的組(選項2)。

2、然後,你將執行相同的步驟,但是你會有三組一個彈珠,而不是三組三個彈珠。

問2:主要會員費的變化將如何影響市場?


我們不能百分之百確定該問題的答案,但我們會盡我們所能!

讓我們以主要會員費增加的情況為例——涉及兩個方面,即買方和賣方。

對於購買者而言,增加主要會員費的影響最終取決於購買者需求的價格彈性。如果價格彈性高,那麼給定的價格上漲將導致需求大幅度下降,反之亦然。繼續購買會員費的買家可能是亞馬遜最忠誠、最活躍的客戶——他們也可能會更加重視優質產品。

賣家將受到衝擊,因為現在購買亞馬遜購物一攬子產品的成本更高。也就是說,有些產品會受到更大的衝擊,而其他產品可能不會受到影響。亞馬遜最忠實的客戶購買的高端產品可能不會像電子產品那樣受到太大影響。

問3:如果iOS上70%的Facebook用戶使用Instagram,但Android上只有35%的Facebook用戶使用Instagram,你將如何調查這種差異?


有很多可能導致這種差異的變量,我們將檢查一下:

·    iOS和Android用戶的受眾特徵可能會有很大差異。例如,據Hootsuite稱,有43%的女性使用Instagram,而男性只有31%。如果iOS的女性用戶比例明顯高於Android的女性用戶,則可以解釋這種差異(或至少是其中的一部分)。年齡、種族,民族、地理位置等也可以這樣說。

·    行為因素也會對差異產生影響。如果iOS用戶比Android用戶更頻繁地使用手機,那麼與那些花更少時間在手機上的人相比,他們更可能沉迷於Instagram和其他應用程式。

·    要考慮的另一個可能因素是Google Play和App Store有何不同。例如,如果Android用戶有更多的應用程式(和社交媒體應用程式)可供選擇,則可能導致更大的用戶稀釋度。

·    最後,與iOS用戶相比,用戶體驗上的任何差異都可能阻止Android用戶使用Instagram。如果該應用程式對於Android用戶來說比iOS用戶更有問題,那麼他們就不太可能在該應用程式上活躍。

問4:贊/用戶和在平臺上花費的時間正在增加,但用戶總數正在減少。它的根本原因是什麼?


通常,你可能想詢問面試官以獲取更多信息,但是假設這是他/她願意提供的唯一信息。

關注每個用戶的贊,這有兩個原因可以解釋為什麼這個數字會上。第一個原因是,隨著時間的流逝,用戶的參與度通常會平均增加。這是有道理的,因為隨著時間的流逝,活躍用戶更可能是忠實用戶,因為使用平臺已成為一種習慣做法。每個用戶的贊增加的另一個原因是,分母(用戶總數)正在減少。假設停止使用該平臺的用戶是不活躍的用戶,即參與度低且贊數低於平均水平的用戶,那麼這將增加每個用戶的平均贊數。

上面的解釋也適用於在平臺上花費的時間。隨著時間的推移,活躍用戶變得越來越活躍,而使用率很少的用戶變得不活躍。總體而言,參與度的提高遠遠超過了很少參與的用戶。

更進一步說,「參與度低的用戶」很可能是Facebook能夠檢測到的機器人。但是隨著時間的推移,Facebook已經能夠開發出識別和移除機器人的算法。如果以前有大量的機器人,則這可能是這種現象的根本原因。

問5:Facebook看到贊數逐年同比增長10%,為什麼會這樣呢?


給定年份的總點讚次數是用戶總數和每個用戶的平均點讚次數(我們將其稱為參與度)的函數。

用戶總數增加的一些潛在原因如下:由於國際擴張而獲得的用戶以及年齡較小的年齡組隨著年齡的增長而註冊Facebook。

參與度提高的一些潛在原因是越來越忠誠的用戶對應用程式的使用增加,新功能和新特性以及改善的用戶體驗。

問6:如果我們正在測試產品X,你會考慮採用哪些指標來判斷它是否成功?


決定一個產品成功的指標取決於商業模式以及企業通過產品實現的目標。《精益分析》一書提出了一個很好的框架,可以用來確定在給定場景中要使用的指標:

問7:如果某項目經理說他們想使Newsfeed中的廣告數量翻一番,你如何確定這是一個好主意?


你可以通過將用戶分為兩組來執行A / B測試:具有正常廣告數量的對照組和具有兩倍廣告數量的測試組。然後,你將選擇度量標準來定義什麼是「好主意」。例如,我們可以說原假設是廣告數量翻一番會減少在Facebook上花費的時間,另一種假設是廣告數量翻一番不會對在Facebook上花費的時間產生任何影響。但是,你可以選擇其他指標,例如活躍用戶數或客戶流失率。然後,你將進行檢驗並確定檢驗的統計顯著性,以拒絕或不拒絕原假設。

問8:什麼是提升力、KPI、穩健性、模型擬合、實驗設計、80/20規則?


提升力:提升力是一種針對隨機選擇目標模型的目標模型性能的衡量指標;換句話說,l提升力告訴你,模型在預測事物方面比沒有模型時要好得多。

KPI:代表關鍵績效指標,該指標是可衡量的指標,用於確定公司實現其業務目標的程度。例如錯誤率。

穩健性:通常,穩健性是指系統處理可變性並保持有效性的能力。

模型擬合:指模型對一組觀測值的擬合程度。

實驗設計:也稱為DOE,它是旨在描述和解釋在假設能夠反映變量的條件下信息變化的任何任務的設計。[4]本質上,一項實驗旨在基於一個或多個輸入(自變量)的變化來預測結果。

80/20規則:也稱為帕累託原理;指出80%的影響來自20%的原因。例如80%的銷售額來自20%的客戶。

問9:定義質量保證、六個sigma


質量保證:旨在通過最大限度地減少錯誤和缺陷來保持所期望的質量水平的一項活動或一系列活動。

六個sigma:一種特定類型的質量保證方法,由一套用於流程改進的技術和工具組成。6 個sigma流程是其中所有結果的99.99966%沒有缺陷的流程。

參考

[1] Central Limit Theorem, Definition and Examples in Easy Steps, Statistics How To

[2] Power, Statistics, Wikipedia

[3] Anthropic principle, Wikipedia

[4] Design of experiments, Wikipedia

[5] Root cause analysis, Wikipedia

量化投資與機器學習微信公眾號,是業內垂直於Quant、Fintech、AI、ML等領域的量化類主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險等眾多圈內18W+關注者。每日發布行業前沿研究成果和最新量化資訊。

相關焦點

  • 面試網絡公司大廠都會被問到哪些問題
    提到找工作一定離不開面試,而大廠的面試對於有些人來說很容易,對於有些人來說卻很難,那麼如何才能得心應手地應對大廠面試呢?知己知彼,百戰不殆兵法有雲,知己知彼,才能從容獲勝。我們要想應對大廠的面試,首先應該知道的就是大廠面試會問哪些問題,我們對應準備才能得心應手。
  • Top 10國際大廠人工智慧崗位經典面試題精選
    AI大廠Google、亞馬遜、微軟、Facebook、IBM、英特爾、Netflix、特斯拉、Uber,以及蘋果公司的AI崗面試題精選。 大廠的面試題很多,但大廠的AI崗面試題目前還比較少。今天禪師為大家帶來國際大廠AI崗經典面試題精選,為即將畢業、或者正準備投身AI行業的讀者,提供一個參考。希望能夠對大家的面試有所幫助。 本文由作者Vimarsh Karbhari授權新智元發布。
  • 山月在年前的大廠面試
    年前面試據說是一年中最好通過面試的時候,這個時候面試的人少,加之崗位急,供需關係決定比以往更容易拿一個不錯的工資。趁著這幾天結束了幾月的旅行,在家沒事,恰好有充分的時間,面了幾家大廠。最終也有幾家拿了 Offer,再接再厲,最近有面試的同學也可以與我交流。
  • 數據科學,來自業界的誘惑
    這段經歷隨後幫助他通過了管理諮詢公司的面試。Joy Tharathorn Rimchala曾經是劍橋麻省理工學院合成生物學的博士後,現在是加利福尼亞山景城的財務軟體公司Intuit的數據科學家。她曾經一直在猶豫是否放棄學術生涯,直到她開始旁聽一門計算科學的課程才下定決心。「那時我意識到,數據科學很酷,至少跟我的博士學位一樣酷。」她說道。
  • 這套1307頁的阿里、騰訊等大廠Android面試真題解析火了!
    下面的題目是一個大牛花了很長時間整理的群友在面試阿里、騰訊等網際網路大廠被問到的面試真題和答案解析,如果大家還有其他好的題目或者好的見解歡迎分享。參考解析:答案來自於平時的收集和各位群友的共同分享和校正。接下來我們看看一線大廠Android中高級面試展開的完整面試題
  • 你知道現在的面試有多難嗎?不服來看這三道大廠面試題……
    本文轉載自【微信公眾號:網羅燈下黑,ID:wldxh8】經微信公眾號授權轉載,如需轉載與原文作者聯繫快來看看這三道大廠面試題,你知道現在的面試有多難嗎???01來自於阿里:「請尋求最優解,不要只是粗暴 wait()」有一個總任務 A,分解為子任務 A1 A2 A3 ...,任何一個子任務失敗後要快速取消所有任務,請寫程序模擬。
  • 迅速收藏!109個數據科學面試問答,你絕對不能錯過的寶藏庫!
    好的準備工作是數據科學職業生涯成功的關鍵,這當然也包括面試過程。怎樣才能不被面試官「難倒」?怎樣才能在一場數據科學面試上脫穎而出?小芯這次特別整理了你應該準備的所有數據科學面試問題,包括國內外109個面試問答,都是數據科學面試時面試者曾遇到的真實的問題哦,作為年末送給大家的福利~快將它收入囊中吧~現在,我們將數據科學家將會遇到的面試問題分為了六個不同的類別:數據統計、編程、建模、行為、文化,和解決問題類。1.
  • 面試算法實踐與國外大廠習題指南
    在線練習LeetCodeVirtual JudgeCareerCupHackerRankCodeFights在線面試編程數據結構Linked List鍊表即是由節點(Node)組成的線性集合,每個節點可以利用指針指向其他節點。
  • 深度 : 數據科學,來自業界的誘惑(譯)
    「我已經擁有99.5%的技能了,」他說,「但我需要指導和引導。」歷經了一年的挫折,隨後他去了矽谷。在那裡,他遇到了將他引導到正確軌道上的軟體工程師和企業家。還有賴於來自於加州山景城的著名創業孵化器公司Y Combinator初創基金的部分支持,他終於創辦了自己的公司——Noteleaf。
  • 【翻譯】數據科學面試終極指南(4)
    前文傳送門:  【翻譯】數據科學面試終極指南(1)【翻譯】數據科學面試終極指南(2)【翻譯】數據科學面試終極指南(3)數據科學面試題行為試題  與其它崗位的面試類似,數據科學面試也包括大量行為試題,面試官會考核求職者的軟技能,了解求職者能否適應公司的企業文化。
  • Vue 和 React 大廠面試通關指南.pdf
    但大多數讀者都只擅長其中一個框架,當面試涉及到另一個框架的內容時,就答不好了。比如虛擬dom,兩個框架中都有應用,面試官可能會籠統地問一句「如何理解虛擬dom」,如果你單從一個框架的應用層面去回答,就略顯單薄。如何在掌握一個框架的同時,快速理解另一個框架的原理和精髓呢?
  • 解析 BAT 大廠的經典面試題(中篇)
    分享給大家的是 「工具 模塊」- 解析BAT面試題(中篇)。很多人對 BAT 以及其他大廠,也是朝思暮想。也因為一些原因,暫時還未能加入。大廠中有很多經典面試題,直到現在也會用,不要問小編為什麼知道(保密)。
  • 推薦這 10 個 GitHub 上超火的前端面試項目,打造自己的加薪寶庫!
    這是山月大佬整理的:網際網路大廠內推及大廠面經整理,並且每天一道面試題推送。每天五分鐘,半年大廠中。在半年的時間裡,收集了大量的一線大廠面試題,通過大數據統計出了近百個常考知識點,然後根據這些知識點寫成了近十萬字的內容。目前的內容包括 js、網絡、瀏覽器相關、性能優化、安全性、框架、git、數據結構、算法等。
  • 數據科學大Battle,你站Python還是R
    在數據科學工作中,你可能也經常遇到這個選擇困難問題。本文作者Brian Ray基於數十年的Python和R在數據科學領域的使用檢驗,分享了自己的看法,希望能夠幫大家做出更好的選擇。希望這篇文章能幫助那些在數據科學中糾結於選擇Python還是R的小夥伴們。
  • 就讀於世界名校美國哥倫比亞大學面試國內大廠竟然被拒了?
    主要是面了幾家國內的大廠被打擊了,我也很好奇,明明已經就讀於全球排名的世界大學了,為啥面個國內工作還沒打擊了呢?難道真的是國內面試都是網上傳的那種面試問航母工作擰螺絲嗎?接下來給大家一一分享。不要你們該淌哈喇子了溝通的主要內容就是妹子目前就讀於美國哥倫比亞大學生物醫學信息專業,目前是研二,未來考慮回國發展,正在提前準備校招,也參加了一些國內大廠的面試,不過卻被打擊了,對未來的專業和方向有些疑惑,說起來我也很好奇。
  • 來自朋友最近阿里、騰訊、美團等P7崗位面試題
    來自朋友最近阿里、騰訊、美團等P7崗位面試題
  • 如何從菜雞變成收割機,大廠面試的算法,你懂了嗎?
    讓大廠面試顯得逼格很高,是算法和數據結構嗎?是的!!!Google工程師曾總結過,大廠之所以愛考察算法和數據結構是因為:算法能力能夠準確辨別一個程式設計師的技術功底是否紮實;算法能力是發掘程式設計師的學習能力與成長潛力的關鍵手段;算法能力能夠協助判斷程式設計師在面對新問題時,分析並解決問題的能力;算法能力是設計一個高性能系統、性能優化的必備基礎。
  • 答對這些面試題,心儀的數據科學offer來敲門 (上)
    如果在面試中想給僱主留下好印象,除了解釋為什麼數據科學如此重要(以及為什麼你為什麼喜歡它),你還需要在技術上精通數據科學中的概念、框架和各種應用案例。DataGirls特意為你精選了參加數據科學工作面試時的must know考題,將分為三期為你放送。正則化(regularization)是什麼?它有什麼用?
  • 手握2份大廠實習去面試,被面試官虐哭了...
    據統計,不少崗位面試人數和實際招聘比例高達500:1……有學妹跟僧妞吐槽,今年手握兩份大廠實習經歷,沒想到至今還沒拿到滿意的offer。學妹尚且如此,更別提實習經驗不多/根本無實習經歷的同學找起工作來有多糟心了!你以為你是小白畢業生,當你求職時才會發現,HR說,我們希望要有經驗的。
  • 大廠測開面試經驗貼(四):計算機網絡高頻考點
    客戶端瀏覽器讀取響應數據HTML,根據HTML的語法對其進行格式化,並在瀏覽器窗口中顯示。2. get和post的區別1)概括對於GET方式的請求,瀏覽器會把http header和data一併發送出去,伺服器響應200(返回數據);產生一個TCP數據包。