雷鋒網(公眾號:雷鋒網)按:本文由北郵 @愛可可 - 愛生活 老師推薦,阿里云云棲社區組織翻譯。文章原標題《Solutions for Skilltest Machine Learning : Revealed》,作者:Ankit Gupta 等人。
引言
人類對於自動化和智能化的追求一直推動著技術的進步,而機器學習這類型的技術對各個領域都起到了巨大的作用。隨著時間的推移,我們將看到機器學習無處不在,從移動個人助理到電子商務網站的推薦系統。即使作為一個外行,你也不能忽視機器學習對你生活的影響。
本次測試是面向對機器學習有一定了解的人。參加測試之後,參與者會對自己的機器學習方面知識有更深刻的認知。
目前,總共有 1793 個參與者參與到了測試中。一個專門為機器學習做的測試是很有挑戰性的,我相信你們都已經躍躍欲試,所以,請繼續讀下去。
那些錯過測試的人,你們錯過了一個極好的檢驗自己的機會。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收穫不少。
下圖表示的是參與測試人的成績分布,這也許會幫助你評估你的測試成績。
總體結果
你可以點擊這裡來獲取所有得分。我們有超過 600 人參與到了技能測試中,最高分是 28 分,這裡還有一些其他統計量。
平均數 14.42
中位數 16
眾數 17
另外,您的得分可能和通告欄上的不一樣,因為我們移除了有錯誤的問題,並且對每個人都重新打分了。
機器學習參考文獻
Machine Learning basics for a newbie
16 New Must Watch Tutorials, Courses on Machine Learning
Essentials of Machine Learning Algorithms
答題開始!
問題 1
在 n 維空間中,以下哪一個方法最適用於異常點檢測?
A. 正態概率圖
B. 盒圖
C.Mahalonobis 距離
D. 散點圖
答案:C
Mahalonobis 距離是基於卡方分布的多變量異常的程度的統計量。更多內容點擊此處。
問題 2
線性回歸在以下哪些方面和多元回歸不一樣?
A. 它是專門用來預測一個事件的概率
B. 擬合優度指數
C. 在回歸係數的估計方面
D. 以上所有
答案:D
A:線性回歸用來解決分類問題,我們可以計算出事件發生的概率
B:總體來說,擬合優度測試是用來測量數據與模型的一致性,我們用邏輯回歸來檢驗模型擬合程度。
C:擬合邏輯回歸模型之後,我們可以以他們的係數為目標,觀察獨立特徵之間的關係(正相關或負相關)。
問題 3
引導數據的意義是什麼?
A. 從 M 個總體中有放回的抽樣出 m 個特徵
B. 從 M 個總體中無放回的抽樣出 m 個特徵
C. 從 N 個總體中有放回的抽取 n 個樣本
D. 從 N 個總體中無有放回的抽取 n 個樣本
答案:C
如果我們沒有足夠的數據來訓練我們的算法,我們就可以從訓練集中有放回的隨機重複一些數據項。
問題 4
「過擬合只是監督學習中的問題,對於無監督學習影響不大」 這句話是正確還是錯誤
A. 正確
B. 錯誤
答案:B
我們可以使用無監督矩陣來評估一個無監督機器學習算法。舉個例子,我們可以用 「調整蘭德係數」 來評估聚類模型。
問題 5
關於選擇 k 層交叉檢驗中 「k」 的值,以下說法正確的是?
A.k 並不是越大越好,更大的 k 會減慢檢驗結果的過程
B. 選擇更大的 k 會導致降低向真實期望錯誤的傾斜
C. 選擇總是能最小化交叉驗證中的方差的 k
D. 以上所有
答案:D
更大的 k 會減少過高估計了真正的預期誤差的情況(因為訓練層更接近總體數據集),但是會帶來更長的運行時間(因為這樣會接近留一交叉的極限情況),當選擇 k 的時候,我們也要考慮 k 層精度之間的方差。
問題 6
回歸模型具有多重共線性效應,在不損失太多信息的情況下如何應對這種情況?
1. 去除所有共線變量 1. 去除所有共線變量
2. 去除一個變量而不是都去掉
3. 我們可以計算 VIF(方差膨脹因子)來檢驗多重共線性效應,然後根據情況處理
4. 去除相關的變量可能會導致信息的丟失。為了保證數據的完整性,我們應該選取比如嶺回歸和套索回歸等懲罰回歸模型。
以上那些是正確的?
A. 1
B. 2
C. 2 和 3
D. 2,3 和 4
答案:D
為了檢查多重共線性,我們可以創建一個相關矩陣來識別和刪除具有 75% 相關性的變量(閾值的選擇是主觀的)。此外,我們使用 VIF(方差膨脹因子)來檢查多重共線性,如果 VIF 小於 4 表示沒有多重共線性,如果大於 10 則表示嚴重的多重共線性。我們也可以使用一個寬容量作為多重共線性的指數。
但是,移除相關變量會導致信息的損失。為了保證數據的完整性,我們應該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機噪聲,這樣數據會變得不一樣。但是這種方法會降低預測的準確性,所以要慎用。
問題 7
評估完模型後,我們發現模型中有很高的偏差。我們怎樣來減少這個偏差?
A. 減少模型中特徵的數量
B. 增加模型中特徵的數量
C. 增加模型中的數據點
D.B 和 C
E. 以上所有
答案:B
如果模型偏差大,說明模型相對過於簡單。我們可以在特徵空間中增加更多的特徵來提高模型的魯棒性。增加數據點也會減少方差。
問題 8
當我們建立基於決策樹的模型時,我們將有最高信息增益的節點分離出來作為屬性, 在下圖中,哪一個屬性有最高的信息增益?
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案:A
信息增益隨子集平均純度的增加而增加。要了解信息增益的計算,點這裡閱讀。你也可以查看這張幻燈片。
問題 9
在決策樹中,當一個節點分叉的時候,以下關於 「信息增益」 正確的是?
1. 不純的節點越少,越需要更多的信息來描述種群
2. 信息增益可以用熵作為 「1-Entropy」 來推導
3. 信息增益偏向於數值大的屬性
A. 1
B. 2
C. 2 和 3
D. 都正確
答案:C
想了解詳情,請閱讀這篇文章和這個幻燈片。
問題 10
使用 SVM 模型遇到了欠擬合的問題,以下哪個選項能提高模型性能?
A. 增加懲罰參數 「C」
B. 減少懲罰參數
C. 減少核係數(gamma 的值)
答案:A
如果是欠擬合情況,我們需要增加模型的複雜性,如果我們增大 C,則意味著決策邊界變複雜,所以 A 是正確答案。
問題 11
假如我們已經畫出 SVM 算法中的不同點的 gamma 值(Kernel coefficient)。但由於一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個選項最好的解釋了三張圖的 gamma 值關係(圖中從左向右分別是圖 1,、圖 2、圖 3,對應的 gamma 值分別是 g1,、g2、g3)。
A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3
E. g1 <= g2 <= g3
答案:C
如果 gamma 值高,則會盡全力去擬合數據集中的每一條數據,會帶來過擬合問題。所以最合適的選項是 C。
問題 12
我們在解決一個分類問題(二值分類預測)。然而,我們並不是要得到 0 或 1 的真實結果,而是要獲取每一個類的概率。現在假設我有一個概率模型,並且使用一個 0.5 的閾值來預測結果,如果概率大於等於 0.5,則認為是 1,如果小於 0.5,我們則認為是 0。如果我們使用一個比 0.5 高的閾值,一下哪條最合適?
1. 增加閾值那麼分類器會有相同或者更低的查對率
2. 增加閾值分類器會有更高的查對率
3. 增加閾值會有相同或者更高的準確率
4. 增加閾值會有更低的準確率
A. 1
B. 2
C. 1 和 3
D. 2 和 4
E. 無
答案:C
想了解調整閾值對查對率和準確率的影響,請參考這篇文章。
問題 13
當使用比例失調的數據(數據集中 99% 的 negative class 和 1% 的 positive class)進行 「點擊率」 預測的時候,假如我們的準確率是 99%,那麼我們的結論是?
準確率很高,我們不用再做任何工作。
B. 準確率不夠好,我們需要嘗試構建一個更好的模型
C. 無法判斷這個模型
D. 以上都不正確
答案: B
當使用不平衡數據集的時候,準確率不能作為性能的指標,因為 99%(正如上文提到的)可能只是預測多數類別正確,但是往往重要的是少數的類(1%)。因此,對於這樣的模型,我們應該使用敏感性和特異性來描述分類器的性能。如果佔少數的類別預測不準的話,我們需要採取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。
問題 14
比方說,我們使用 KNN 訓練觀測數據較少的模型(以下是訓練數據的快照,x 和 y 分別表示兩個屬性,「+」「o」 分別表示兩種標籤)。已知 k=1,leave one out 交叉驗證的錯誤率會是多少。
A. 0%
B. 100%
C. 從 0 到 100%
D. 以上沒有
答案:B
在 Leave-One-Out 交叉驗證中,我們選取 n-1 條觀測量作為訓練集,1 條觀測量用來驗證。如果把每個點作為交叉驗證點並找到最近的點總會得到相反的類別。所以錯誤率是 100%。
問題 15
當我們使用大數據集進行決策樹訓練的時候,一下哪個選項可以用來減少訓練時間?
1. 增加樹的深度
2. 增加學習率
3. 減少樹的深度
4. 減少樹的數量
A. 2
B. 1 and 2
C. 3
D. 3 和 4
E. 2 和 3
F. 2, 3 和 4
答案:C
如果決策樹的參數是固定的話,我們可以考慮以下的選項。
增加深度會導致所有節點擴張,因此增加深度會導致時間變長。
在單一決策樹種,學習率是不能作為一個可調整的參數的。
使用決策樹時,我們只會建一顆樹。
問題 16
關於神經網絡,一下那種說法是正確的?
1. 在測試數據中增加層數可能會增加分類錯誤
2. 在測試數據中減少層數總會減少分類錯誤
3. 在測試數據中增加層數總會減少分類錯誤
A.1
B.1 和 3
C.1 和 2
D. 2
答案:A
通常來說,增加層數會讓模型更加一般化,所以它將會在訓練集和測試集上都表現更優異。但這個不是真理,在這篇文章中,筆者發現深層的網絡比淺層的網絡有更高的錯誤率。所以選項 2 和 3 都是錯誤的,因為這個假設不總是正確的,而 1 只是說可能是正確的。
問題 17
假設我們使用原始的非線性可分離 SVM 最優化目標函數,我們做什麼可以保證結果是線性可分的?
A. C = 1
B. C = 0
C. C = 無窮大
D. 以上沒有正確答案
答案 C:
如果我們使用原始的非線性可分離 SVM 最優化目標函數,我們需要將 C 設置成無窮大來保證結果是線性可分的。因此 C 是正確答案。
問題 18
訓練完 SVM 之後,我們可以丟掉所以不支持向量的樣本而不影響對新的樣本進行分類。
A. 正確
B. 錯誤
答案:A
這是正確的,因為只有支持向量會影響邊界。
問題 19
以下哪些算法可以藉助神經網絡來構建?
1.K-NN
2. 線性回歸
3. 邏輯回歸
A.1 和 2
B.2 和 3
C.1, 2 和 3
D. 無
答案:B
1.KNN 是一個機遇實例的學習方法,它沒有用來訓練的參數,所以它不能用神經網絡來構建
2. 神經網絡的最簡單形式就是最小二乘回歸。
3. 神經網絡和邏輯回歸有關。主要在於,我們可以把邏輯回歸看成一層神經網絡。
問題 20
請選擇可以用來實施隱馬爾可夫模型的數據集。
A. 基因序列數據集
B. 電影評論數據集
C. 股票價格數據集
D. 以上所有
答案 D:
以上所有的數據集都可以用隱馬爾可夫模型。
問題 21
我們想在在一個百萬級的數據集上構建機器學習模型,每條數據有 5000 個特徵。可是訓練這麼大量的數據集會有很多困難,一下哪些步驟可以有效地訓練模型?
A. 我們可以從數據集中隨機選取一些樣本,在樣本上構建模型
B. 我們可以嘗試聯機機器學習算法
C. 我們可以用主成分分析來減少特徵
D.B 和 C
E.A 和 B
F. 以上所有
答案: F
在一個內存有限的機器上處理高維數據是一項非常費力的工作。以下的方法可以用來應對這樣的情況。
我們可以採取隨機採樣的方式,這意味著我們創建一個更小的數據集。舉個例子來說,我們可以抽取 300000 條數據,每條有 1000 個特徵然後再進行計算。
我們可以使用展示在 Vowpal Wabbit 中的聯機學習算法
我們可以使用主成分析來選取能反映最大方差的部分。
因此所有的都是正確的。
問題 22
我們想減少數據的特徵,以下哪些做法是合適的?
1. 使用預選的方式
2. 使用向後消除的方式
3. 首先使用所有特徵來計算模型的準確度。我們選擇一個特徵,然後將測試集的該特徵的數值都打亂,然後對打亂過的數據集進行預測。經過對預測模型的分析,如果模型準確率提高,則刪掉這個屬性
4. 查找關聯性表,關聯性高的特徵就可以去掉
A. 1 和 2
B. 2, 3 和 4
C. 1, 2 和 4
D. 以上所有
答案:D
l 預選和向後消除是特徵選擇的兩個常用的主要方法。
l 如果不用上面的兩種方法,我們也可以選擇 3 中所說的方法,這種方法應對大數據量時非常有效。
l 我們也可以使用基於特徵選擇的關聯分析,然後去除共線性特徵。
問題 23
關於隨機森林和梯度提升樹,請選擇正確的選項。
1. 在隨機森林中,中間樹互相不獨立,而在梯度回歸樹中,中間樹相互獨立。
2. 他們都使用隨機特徵子集來構建中間樹。
3. 在梯度提升樹的情況下我們可以生成並行樹,因為樹互相獨立。
4. 梯度提升樹在任何數據集上都比隨機森林要好。
A. 2
B. 1 和 2
C. 1, 3 和 4
D. 2 和 4
答案 A:
1. 隨機森林是基於 bagging 而梯度提升是基於 boosting
2. 這兩種算法都使用隨機特徵子集來構建中間樹
3. 由於隨機森林的中間樹互相獨立,因此算法可以並行,而梯度提升樹則不可能。
4. 這個不是絕對的,不同數據結果不同。
問題 24
對於主成分析轉換的特徵,樸素貝葉斯的基本假設是成立的,因為主成都是正交的,因此是無關的。這句話正確麼?
A. 正確
B. 錯誤
答案:B
這句話是錯誤的。首先,不相關不等同於獨立。第二,轉換過的特徵也不一定是不相關的。
問題 25
以下關於主成分析哪些是正確的?
1. 在 PCA 前必須將數據標準化
2. 我們應該選擇說明最高方差的主成分
3. 我們應該選擇說明最低方差的主成分
4. 我們可以用 PCA 來可視化低維數據
A. 1, 2 和 4
B. 2 和 4
C. 3 和 4
D. 1 和 3
E. 1, 3 和 4
答案: A
lPCA 對數據中變量的大小是敏感的,所以在 PCA 之前必須要對數據進行標準化。舉個例子,如果我們將一個變量的單位從 km 改成 cm,該變量可能會從影響很小一躍成為主成分。
l 第二條是正確的,因為我們總是選擇最大方差的主成分。
l 有時候用低維來畫出數據是十分有效地。我們可以選擇前二的主成分,然後用散點圖來描繪數據。
問題 26
在下圖中的主成分的最佳數目是多少?
A. 7
B. 30
C. 35
D. 不確定
答案:B
在上圖中,成分數為 30 時候就達到了最大的方差,所以選擇 B
問題 27
數據科學家經常使用混合算法來做預測,然後將混合算法的結果合併(也叫集成學習)。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準確。以下哪些選項是正確的?
A. 基礎模型有更高的相關性
B. 基礎模型有更低的相關性
C. 使用平均加權而不是投票的方式來集成
D. 基礎模型源自相同的算法
答案 B:
請參閱下面的集成指南來了解細節
Basics of Ensemble Learning Explained in Simple English
Kaggle Ensemble Guide
Easy questions on Ensemble Modeling everyone should know
問題 28
我們如何在監督的機器學習挑戰使用聚類方法?
1. 我們可以先創建簇,然後在不同簇中分別使用監督機器學習算法。
2. 我們在使用監督機器學習算法之前可以把簇的 id 作為特徵空間中額外的特徵。
3. 我們無法在使用監督機器學習算法之前創建簇。
4. 我們在使用監督機器學習算法之前不能把簇的 id 作為特徵空間中額外的特徵。
A. 2 和 4
B. 1 和 2
C. 3 和 4
D. 1 和 3
答案:B
l 我們可以在不同的簇中使用不同的機器學習模型,這樣一來,預測的準確性可能會提高。
l 增加簇的 id 可以提高預測的準確性,因為 id 是對數據很好的概括。
因此 B 是正確的。
問題 29
以下的說法哪些是正確的?
1. 一個機器學習模型如果能得到很高的 準確率,則說明這是個好的分類器。
2. 如果增加一個模型的複雜度,測試錯誤總會增加。
3. 如果增加一個模型的複雜度,訓練錯誤總會增加。
A. 1
B. 2
C. 3
D. 1 和 3
答案 C:
當類不平衡的時候,準確率不是一個很好的評價指標。而 precision 和 recall 是最好的評價方式。
增加一個模型的複雜度可能會導致過擬合。而過擬合會引起訓練錯誤的減少和測試錯誤的增加。
問題 30
以下有關於梯度回歸樹算法的說法正確的是?
當我們增加用於分割的最小樣本數時,我們總是試圖得到不會過擬合數據的算法。
當我們增加用於分割的最小樣本數時, 數據會過擬合。
當我們減少用於擬合各個基本學習者的樣本的分數時,我們總是希望減少方差。
當我們減少用於擬合各個基本學習者的樣本的分數時,我們總是希望減少偏差。
A. 2 和 4
B. 2 和 3
C. 1 和 3
D. 1 和 4
答案: C
最小化樣本的數量,在分裂節點的地方用於控制過擬合, 太高的數值會導致欠擬合因此應該用 CV 來進行調整.
每棵樹選擇觀測值的分數是通過隨機採樣的方式來做的。如果數值比 1 小一點點則會使模型健壯,而且方差也會減小。典型的數值是 0.8,當然,也要根據實際情況微調。
問題 31
以下哪個是 KNN 算法的決策邊界?(下圖從左到右分別是 A,B,C,D)
A) B
B) A
C) D
D) C
E) 不確定
答案:B
KNN 算法的原理是為觀測變量尋找 K 個最近鄰居,將鄰居中的多數的標籤賦給觀測變量。所以決策邊界不會是線性的。因此,選擇 B。
問題 32
如果一個機器學習模型在測試集上獲得的 100% 的準確性,是否意味著在新的測試集上也能獲得 100% 的準確性。
A. 是的,因為這個模型足夠一般,可以適用於所有類型的數據
B. 不是,仍然有模型不能控制的因素,比如噪聲。
答案:B
答案選擇 B,因為實際數據不可能沒有噪聲,所以不可能得到 100% 的準確性。
問題 33
以下是交叉驗證的常見方法:
i. Bootstrap with replacement.
ii. Leave one out cross validation.
iii. 5 Fold cross validation.
iv. 2 repeats of 5 Fold cross validation
如果樣本的數量是 1000,那麼這這四種方法執行時間的排序是?
A. i > ii > iii > iv
B. ii > iv > iii > i
C. iv > i > ii > iii
D. ii > iii > iv > i
答案:B
Bootstrapping 是一個統計的技術,屬於廣泛的重採樣的範疇,所以只有 1 個驗證集使用了隨機採樣。
Leave-One-Out cross validation 的時間最長,因為我們要 n 次訓練模型(n 是觀測值的數量)
5 Fold cross validation 會訓練五個模型,而訓練時間和觀測值數量無關。
2 repeats of 5 Fold cross validation 則是訓練 10 個模型。
因此答案選擇 B。
問題 34
已取消
問題 35
變量選擇旨在選擇預測變量的 「最佳」 子集。當我們選擇變量的時候,考慮到系統的性能,我們需要注意些什麼?
1. 類似的多個變量
2. 模型的可解釋性
3. 特徵信息
4. 交叉檢驗
A. 1 和 4
B. 1, 2 和 3
C. 1,3 和 4
D. 以上所有
答案:C
如果幾個變量具有很高的 xiang s,則會展現出共線性。
相對於模型的性能,我們不需要關注模型的可解釋性。
如果特徵有很高的信息,則會為模型帶來價值。
我們需要使用交叉檢驗來驗證模型的普遍性。
因此 C 是正確答案。
問題 36
線性回歸模型中的其他變量下列哪些語句是正確的關於?
1.R-Squared 和 Adjusted R-squared 都會增長
2.R-Squared 是常數,Adjusted R-squared 會增長
3.R-Squared 和 Adjusted R-squared 都會減少 4.R-Squared 減少而 Adjusted R-squared 增長
A. 1 和 2
B. 1 和 3
C. 2 和 4
D. 以上沒有正確的
答案: D
R-squared 不能確定係數估計和預測是否有偏差,這就是為什麼我們要評估殘差圖。 Adjusted R-squared 是 R-squared 的增強版,該方法調整了模型中預測器的數量. 如果有新方法將模型改進的機率大於預期時,Adjusted R-squared 會增加。 當預測變量將模型改進的機率小於預期時,它減少。
但是 R-squared 比 adjusted R-squared 有更多的問題,因此 predicted R-squared 被提出。
如果為模型增加一個預測器,則 R-squared 會保持不變或者增加。
想討論更多,請點擊這裡。
問題 37
下圖我們畫出了在同一個數據集上解決回歸問題的三種不同模型,從下圖中我們可以總結出什麼?
1. 和其他的相比,第一張圖的訓練錯誤最大。
2. 最後一個是最好的模型,因為在第三張圖有最小的訓練錯誤。
3. 第二個模型比第一個和第三個更健壯,因為它能更好的處理不可預見的數據。
4. 第三個模型和前兩個相比屬於過擬合。
5. 所有模型的性能都一樣,因為我們還沒有看到測試集。
A. 1 和 3
B. 1 和 4
C. 1, 3 和 4
D. 5
答案:C
對於自變量 X 來說,圖中數據的趨勢像一個多項式函數。最右邊圖中的多項式形式更複雜,準確率也最高,但是對於測試集則會表現不佳。而最左邊的圖很明顯屬於欠擬合的情況。
問題 38
在應用線性回歸時我們需要遵循哪些假設?
1. 由於線性回歸對於異常值很敏感,所以檢查異常值是十分重要的。
2. 線性回歸要求所有變量都遵循正態分布。
3. 線性回歸假設數據中很少或不存在多重共線性。
A. 1 和 2
B. 2 和 3
C. 1,2 和 3
D. 以上所有
答案:D
l 異常值是數據中對最終回歸線的斜率影響最高的點。所以在回歸分析中去除離群值總是很重要的。
l 了解自變量的分布是非常必要的。自變量的正負偏態分布可以影響模型的性能,並將高度偏態的自變量轉換正態將改進模型性能
l 當模型包含彼此相關的多個要素時,會出現多重共線性。換句話說就是有多餘因素線性回歸假設在數據中應該有很少冗餘或者儘可能沒有。
問題 39
當建立線性模型的時候,我們會關注數據之間的關聯。假如我們在關聯矩陣中找到了三對數據 (Var1 和 Var2 , Var2 和 Var3 , Var3 和 Var1) 的關聯分別是 -0.98, 0.45 and 1.23。那麼從這些信息中我們可以推斷出什麼?
1.Var1 和 Var2 具有很高的關聯性。
2.Var1 和 Var2 有很高的關聯度,所以它們具有多重共線性。所以我們要將 Var1 或者 Var2 移除出我們的模型。
3.Var3 和 Var1 之間的關聯值是 1.23 是不可能的。
A. 1 和 3
B. 1 和 2
C. 1,2 和 3
D. 1
答案: C
lVar1 和 Var2 的關聯值很高,所以是具有多重共線性的,因此我們可以從中去除一個。
l 一般來說,關聯繫數高於 0.7 的說明數據具有多重共線性。
l 第 3 個是不可能的,關聯繫數一定會在 - 1 和 1 之間。
問題 40
如果獨立和不獨立的變量之間有很高的非線性且複雜的關係,那麼一個樹模型將會比一般的經典回歸有更好的效果。這個說法正確麼?
A. 正確
B. 錯誤
答案:A
如果數據是非線性的,回歸模型就很難處理。而樹模型則會展現出很好的效果。
結束語
我希望您能喜歡本次測驗,您也會發現答案的解釋很有用。這次測試主要是集中了人們在日常使用機器學習過程中遇到的困難。
我們努力減少文章中的錯誤,但是由於筆者水平有限,可能文章中會有問題,所以如果您發現了,請在下面留言。當然,如果您有改進意見,也歡迎在下面留言。
我們將陸續推出更多的技能測試,請關注我們的更新。
如果您想測驗您的知識和技能,請登錄 Live Competitions,和全世界的數據科學家 pk!
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。