想知道機器學習掌握的怎麼樣了嗎?這有一份自測題(附答案和解析)

2020-12-05 雷鋒網

雷鋒網(公眾號:雷鋒網)按:本文由北郵 @愛可可 - 愛生活 老師推薦,阿里云云棲社區組織翻譯。文章原標題《Solutions for Skilltest Machine Learning : Revealed》,作者:Ankit Gupta 等人。

引言

人類對於自動化和智能化的追求一直推動著技術的進步,而機器學習這類型的技術對各個領域都起到了巨大的作用。隨著時間的推移,我們將看到機器學習無處不在,從移動個人助理到電子商務網站的推薦系統。即使作為一個外行,你也不能忽視機器學習對你生活的影響。

本次測試是面向對機器學習有一定了解的人。參加測試之後,參與者會對自己的機器學習方面知識有更深刻的認知。

目前,總共有 1793 個參與者參與到了測試中。一個專門為機器學習做的測試是很有挑戰性的,我相信你們都已經躍躍欲試,所以,請繼續讀下去。

那些錯過測試的人,你們錯過了一個極好的檢驗自己的機會。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收穫不少。

下圖表示的是參與測試人的成績分布,這也許會幫助你評估你的測試成績。

總體結果

你可以點擊這裡來獲取所有得分。我們有超過 600 人參與到了技能測試中,最高分是 28 分,這裡還有一些其他統計量。

平均數 14.42

中位數 16

眾數 17

另外,您的得分可能和通告欄上的不一樣,因為我們移除了有錯誤的問題,並且對每個人都重新打分了。

機器學習參考文獻

  1. Machine Learning basics for a newbie

  2. 16 New Must Watch Tutorials, Courses on Machine Learning

  3. Essentials of Machine Learning Algorithms


答題開始!

問題 1

在 n 維空間中,以下哪一個方法最適用於異常點檢測?

A. 正態概率圖

B. 盒圖

C.Mahalonobis 距離

D. 散點圖

答案:C

Mahalonobis 距離是基於卡方分布的多變量異常的程度的統計量。更多內容點擊此處。


問題 2

線性回歸在以下哪些方面和多元回歸不一樣?

A. 它是專門用來預測一個事件的概率

B. 擬合優度指數

C. 在回歸係數的估計方面

D. 以上所有

答案:D

A:線性回歸用來解決分類問題,我們可以計算出事件發生的概率

B:總體來說,擬合優度測試是用來測量數據與模型的一致性,我們用邏輯回歸來檢驗模型擬合程度。

C:擬合邏輯回歸模型之後,我們可以以他們的係數為目標,觀察獨立特徵之間的關係(正相關或負相關)。


問題 3

引導數據的意義是什麼?

A. 從 M 個總體中有放回的抽樣出 m 個特徵

B. 從 M 個總體中無放回的抽樣出 m 個特徵

C. 從 N 個總體中有放回的抽取 n 個樣本

D. 從 N 個總體中無有放回的抽取 n 個樣本

答案:C

如果我們沒有足夠的數據來訓練我們的算法,我們就可以從訓練集中有放回的隨機重複一些數據項。


問題 4

「過擬合只是監督學習中的問題,對於無監督學習影響不大」 這句話是正確還是錯誤

A. 正確

B. 錯誤

答案:B

我們可以使用無監督矩陣來評估一個無監督機器學習算法。舉個例子,我們可以用 「調整蘭德係數」 來評估聚類模型。


問題 5

關於選擇 k 層交叉檢驗中 「k」 的值,以下說法正確的是?

A.k 並不是越大越好,更大的 k 會減慢檢驗結果的過程

B. 選擇更大的 k 會導致降低向真實期望錯誤的傾斜

C. 選擇總是能最小化交叉驗證中的方差的 k

D. 以上所有

答案:D

更大的 k 會減少過高估計了真正的預期誤差的情況(因為訓練層更接近總體數據集),但是會帶來更長的運行時間(因為這樣會接近留一交叉的極限情況),當選擇 k 的時候,我們也要考慮 k 層精度之間的方差。


問題 6

回歸模型具有多重共線性效應,在不損失太多信息的情況下如何應對這種情況?

1. 去除所有共線變量 1. 去除所有共線變量

2. 去除一個變量而不是都去掉

3. 我們可以計算 VIF(方差膨脹因子)來檢驗多重共線性效應,然後根據情況處理

4. 去除相關的變量可能會導致信息的丟失。為了保證數據的完整性,我們應該選取比如嶺回歸和套索回歸等懲罰回歸模型。

以上那些是正確的?

A. 1

B. 2

C. 2 和 3

D. 2,3 和 4

答案:D

為了檢查多重共線性,我們可以創建一個相關矩陣來識別和刪除具有 75% 相關性的變量(閾值的選擇是主觀的)。此外,我們使用 VIF(方差膨脹因子)來檢查多重共線性,如果 VIF 小於 4 表示沒有多重共線性,如果大於 10 則表示嚴重的多重共線性。我們也可以使用一個寬容量作為多重共線性的指數。

但是,移除相關變量會導致信息的損失。為了保證數據的完整性,我們應該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機噪聲,這樣數據會變得不一樣。但是這種方法會降低預測的準確性,所以要慎用。


問題 7

評估完模型後,我們發現模型中有很高的偏差。我們怎樣來減少這個偏差?

A. 減少模型中特徵的數量

B. 增加模型中特徵的數量

C. 增加模型中的數據點

D.B 和 C

E. 以上所有

答案:B

如果模型偏差大,說明模型相對過於簡單。我們可以在特徵空間中增加更多的特徵來提高模型的魯棒性。增加數據點也會減少方差。


問題 8

當我們建立基於決策樹的模型時,我們將有最高信息增益的節點分離出來作為屬性, 在下圖中,哪一個屬性有最高的信息增益?

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案:A

信息增益隨子集平均純度的增加而增加。要了解信息增益的計算,點這裡閱讀。你也可以查看這張幻燈片。


問題 9

在決策樹中,當一個節點分叉的時候,以下關於 「信息增益」 正確的是?

1. 不純的節點越少,越需要更多的信息來描述種群

2. 信息增益可以用熵作為 「1-Entropy」 來推導

3. 信息增益偏向於數值大的屬性

A. 1

B. 2

C. 2 和 3

D. 都正確

答案:C

想了解詳情,請閱讀這篇文章和這個幻燈片。


問題 10

使用 SVM 模型遇到了欠擬合的問題,以下哪個選項能提高模型性能?

A. 增加懲罰參數 「C」

B. 減少懲罰參數

C. 減少核係數(gamma 的值)

答案:A

如果是欠擬合情況,我們需要增加模型的複雜性,如果我們增大 C,則意味著決策邊界變複雜,所以 A 是正確答案。


問題 11

假如我們已經畫出 SVM 算法中的不同點的 gamma 值(Kernel coefficient)。但由於一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個選項最好的解釋了三張圖的 gamma 值關係(圖中從左向右分別是圖 1,、圖 2、圖 3,對應的 gamma 值分別是 g1,、g2、g3)。

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案:C

如果 gamma 值高,則會盡全力去擬合數據集中的每一條數據,會帶來過擬合問題。所以最合適的選項是 C。


問題 12

我們在解決一個分類問題(二值分類預測)。然而,我們並不是要得到 0 或 1 的真實結果,而是要獲取每一個類的概率。現在假設我有一個概率模型,並且使用一個 0.5 的閾值來預測結果,如果概率大於等於 0.5,則認為是 1,如果小於 0.5,我們則認為是 0。如果我們使用一個比 0.5 高的閾值,一下哪條最合適?

1. 增加閾值那麼分類器會有相同或者更低的查對率

2. 增加閾值分類器會有更高的查對率

3. 增加閾值會有相同或者更高的準確率

4. 增加閾值會有更低的準確率

A. 1

B. 2

C. 1 和 3

D. 2 和 4

E. 無

答案:C

想了解調整閾值對查對率和準確率的影響,請參考這篇文章。


問題 13

當使用比例失調的數據(數據集中 99% 的 negative class 和 1% 的 positive class)進行 「點擊率」 預測的時候,假如我們的準確率是 99%,那麼我們的結論是?

準確率很高,我們不用再做任何工作。

B. 準確率不夠好,我們需要嘗試構建一個更好的模型

C. 無法判斷這個模型

D. 以上都不正確

答案: B

當使用不平衡數據集的時候,準確率不能作為性能的指標,因為 99%(正如上文提到的)可能只是預測多數類別正確,但是往往重要的是少數的類(1%)。因此,對於這樣的模型,我們應該使用敏感性和特異性來描述分類器的性能。如果佔少數的類別預測不準的話,我們需要採取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。


問題 14

比方說,我們使用 KNN 訓練觀測數據較少的模型(以下是訓練數據的快照,x 和 y 分別表示兩個屬性,「+」「o」 分別表示兩種標籤)。已知 k=1,leave one out 交叉驗證的錯誤率會是多少。

A. 0%

B. 100%

C. 從 0 到 100%

D. 以上沒有

答案:B

在 Leave-One-Out 交叉驗證中,我們選取 n-1 條觀測量作為訓練集,1 條觀測量用來驗證。如果把每個點作為交叉驗證點並找到最近的點總會得到相反的類別。所以錯誤率是 100%。


問題 15

當我們使用大數據集進行決策樹訓練的時候,一下哪個選項可以用來減少訓練時間?

1. 增加樹的深度

2. 增加學習率

3. 減少樹的深度

4. 減少樹的數量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案:C

如果決策樹的參數是固定的話,我們可以考慮以下的選項。

增加深度會導致所有節點擴張,因此增加深度會導致時間變長。

在單一決策樹種,學習率是不能作為一個可調整的參數的。

使用決策樹時,我們只會建一顆樹。


問題 16

關於神經網絡,一下那種說法是正確的?

1. 在測試數據中增加層數可能會增加分類錯誤

2. 在測試數據中減少層數總會減少分類錯誤

3. 在測試數據中增加層數總會減少分類錯誤

A.1

B.1 和 3

C.1 和 2

D. 2

答案:A

通常來說,增加層數會讓模型更加一般化,所以它將會在訓練集和測試集上都表現更優異。但這個不是真理,在這篇文章中,筆者發現深層的網絡比淺層的網絡有更高的錯誤率。所以選項 2 和 3 都是錯誤的,因為這個假設不總是正確的,而 1 只是說可能是正確的。


問題 17

假設我們使用原始的非線性可分離 SVM 最優化目標函數,我們做什麼可以保證結果是線性可分的?

A. C = 1

B. C = 0

C. C = 無窮大

D. 以上沒有正確答案

答案 C:

如果我們使用原始的非線性可分離 SVM 最優化目標函數,我們需要將 C 設置成無窮大來保證結果是線性可分的。因此 C 是正確答案。


問題 18

訓練完 SVM 之後,我們可以丟掉所以不支持向量的樣本而不影響對新的樣本進行分類。

A. 正確

B. 錯誤

答案:A

這是正確的,因為只有支持向量會影響邊界。


問題 19

以下哪些算法可以藉助神經網絡來構建?

1.K-NN

2. 線性回歸

3. 邏輯回歸

A.1 和 2

B.2 和 3

C.1, 2 和 3

D. 無

答案:B

1.KNN 是一個機遇實例的學習方法,它沒有用來訓練的參數,所以它不能用神經網絡來構建

2. 神經網絡的最簡單形式就是最小二乘回歸。

3. 神經網絡和邏輯回歸有關。主要在於,我們可以把邏輯回歸看成一層神經網絡。


問題 20

請選擇可以用來實施隱馬爾可夫模型的數據集。

A. 基因序列數據集

B. 電影評論數據集

C. 股票價格數據集

D. 以上所有

答案 D:

以上所有的數據集都可以用隱馬爾可夫模型。


問題 21

我們想在在一個百萬級的數據集上構建機器學習模型,每條數據有 5000 個特徵。可是訓練這麼大量的數據集會有很多困難,一下哪些步驟可以有效地訓練模型?

A. 我們可以從數據集中隨機選取一些樣本,在樣本上構建模型

B. 我們可以嘗試聯機機器學習算法

C. 我們可以用主成分分析來減少特徵

D.B 和 C

E.A 和 B

F. 以上所有

答案: F

在一個內存有限的機器上處理高維數據是一項非常費力的工作。以下的方法可以用來應對這樣的情況。

我們可以採取隨機採樣的方式,這意味著我們創建一個更小的數據集。舉個例子來說,我們可以抽取 300000 條數據,每條有 1000 個特徵然後再進行計算。

我們可以使用展示在 Vowpal Wabbit 中的聯機學習算法

我們可以使用主成分析來選取能反映最大方差的部分。

因此所有的都是正確的。


問題 22

我們想減少數據的特徵,以下哪些做法是合適的?

1. 使用預選的方式

2. 使用向後消除的方式

3. 首先使用所有特徵來計算模型的準確度。我們選擇一個特徵,然後將測試集的該特徵的數值都打亂,然後對打亂過的數據集進行預測。經過對預測模型的分析,如果模型準確率提高,則刪掉這個屬性

4. 查找關聯性表,關聯性高的特徵就可以去掉

A. 1 和 2

B. 2, 3 和 4

C. 1, 2 和 4

D. 以上所有

答案:D

l 預選和向後消除是特徵選擇的兩個常用的主要方法。

l 如果不用上面的兩種方法,我們也可以選擇 3 中所說的方法,這種方法應對大數據量時非常有效。

l 我們也可以使用基於特徵選擇的關聯分析,然後去除共線性特徵。


問題 23

關於隨機森林和梯度提升樹,請選擇正確的選項。

1. 在隨機森林中,中間樹互相不獨立,而在梯度回歸樹中,中間樹相互獨立。

2. 他們都使用隨機特徵子集來構建中間樹。

3. 在梯度提升樹的情況下我們可以生成並行樹,因為樹互相獨立。

4. 梯度提升樹在任何數據集上都比隨機森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A:

1. 隨機森林是基於 bagging 而梯度提升是基於 boosting

2. 這兩種算法都使用隨機特徵子集來構建中間樹

3. 由於隨機森林的中間樹互相獨立,因此算法可以並行,而梯度提升樹則不可能。

4. 這個不是絕對的,不同數據結果不同。


問題 24

對於主成分析轉換的特徵,樸素貝葉斯的基本假設是成立的,因為主成都是正交的,因此是無關的。這句話正確麼?

A. 正確

B. 錯誤

答案:B

這句話是錯誤的。首先,不相關不等同於獨立。第二,轉換過的特徵也不一定是不相關的。


問題 25

以下關於主成分析哪些是正確的?

1. 在 PCA 前必須將數據標準化

2. 我們應該選擇說明最高方差的主成分

3. 我們應該選擇說明最低方差的主成分

4. 我們可以用 PCA 來可視化低維數據

A. 1, 2 和 4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案: A

lPCA 對數據中變量的大小是敏感的,所以在 PCA 之前必須要對數據進行標準化。舉個例子,如果我們將一個變量的單位從 km 改成 cm,該變量可能會從影響很小一躍成為主成分。

l 第二條是正確的,因為我們總是選擇最大方差的主成分。

l 有時候用低維來畫出數據是十分有效地。我們可以選擇前二的主成分,然後用散點圖來描繪數據。


問題 26

在下圖中的主成分的最佳數目是多少?

A. 7

B. 30

C. 35

D. 不確定

答案:B

在上圖中,成分數為 30 時候就達到了最大的方差,所以選擇 B


問題 27

數據科學家經常使用混合算法來做預測,然後將混合算法的結果合併(也叫集成學習)。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準確。以下哪些選項是正確的?

A. 基礎模型有更高的相關性

B. 基礎模型有更低的相關性

C. 使用平均加權而不是投票的方式來集成

D. 基礎模型源自相同的算法

答案 B:

請參閱下面的集成指南來了解細節

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know


問題 28

我們如何在監督的機器學習挑戰使用聚類方法?

1. 我們可以先創建簇,然後在不同簇中分別使用監督機器學習算法。

2. 我們在使用監督機器學習算法之前可以把簇的 id 作為特徵空間中額外的特徵。

3. 我們無法在使用監督機器學習算法之前創建簇。

4. 我們在使用監督機器學習算法之前不能把簇的 id 作為特徵空間中額外的特徵。

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

答案:B

l 我們可以在不同的簇中使用不同的機器學習模型,這樣一來,預測的準確性可能會提高。

l 增加簇的 id 可以提高預測的準確性,因為 id 是對數據很好的概括。

因此 B 是正確的。


問題 29

以下的說法哪些是正確的?

1. 一個機器學習模型如果能得到很高的 準確率,則說明這是個好的分類器。

2. 如果增加一個模型的複雜度,測試錯誤總會增加。

3. 如果增加一個模型的複雜度,訓練錯誤總會增加。

A. 1

B. 2

C. 3

D. 1 和 3

答案 C:

當類不平衡的時候,準確率不是一個很好的評價指標。而 precision 和 recall 是最好的評價方式。

增加一個模型的複雜度可能會導致過擬合。而過擬合會引起訓練錯誤的減少和測試錯誤的增加。


問題 30

以下有關於梯度回歸樹算法的說法正確的是?

當我們增加用於分割的最小樣本數時,我們總是試圖得到不會過擬合數據的算法。

當我們增加用於分割的最小樣本數時, 數據會過擬合。

當我們減少用於擬合各個基本學習者的樣本的分數時,我們總是希望減少方差。

當我們減少用於擬合各個基本學習者的樣本的分數時,我們總是希望減少偏差。

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

答案: C

最小化樣本的數量,在分裂節點的地方用於控制過擬合, 太高的數值會導致欠擬合因此應該用 CV 來進行調整.

每棵樹選擇觀測值的分數是通過隨機採樣的方式來做的。如果數值比 1 小一點點則會使模型健壯,而且方差也會減小。典型的數值是 0.8,當然,也要根據實際情況微調。

問題 31

以下哪個是 KNN 算法的決策邊界?(下圖從左到右分別是 A,B,C,D)

A) B

B) A

C) D

D) C

E) 不確定

答案:B

KNN 算法的原理是為觀測變量尋找 K 個最近鄰居,將鄰居中的多數的標籤賦給觀測變量。所以決策邊界不會是線性的。因此,選擇 B。


問題 32

如果一個機器學習模型在測試集上獲得的 100% 的準確性,是否意味著在新的測試集上也能獲得 100% 的準確性。

A. 是的,因為這個模型足夠一般,可以適用於所有類型的數據

B. 不是,仍然有模型不能控制的因素,比如噪聲。

答案:B

答案選擇 B,因為實際數據不可能沒有噪聲,所以不可能得到 100% 的準確性。


問題 33

以下是交叉驗證的常見方法:

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

如果樣本的數量是 1000,那麼這這四種方法執行時間的排序是?

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案:B

Bootstrapping 是一個統計的技術,屬於廣泛的重採樣的範疇,所以只有 1 個驗證集使用了隨機採樣。

Leave-One-Out cross validation 的時間最長,因為我們要 n 次訓練模型(n 是觀測值的數量)

5 Fold cross validation 會訓練五個模型,而訓練時間和觀測值數量無關。

2 repeats of 5 Fold cross validation 則是訓練 10 個模型。

因此答案選擇 B。


問題 34

已取消


問題 35

變量選擇旨在選擇預測變量的 「最佳」 子集。當我們選擇變量的時候,考慮到系統的性能,我們需要注意些什麼?

1. 類似的多個變量

2. 模型的可解釋性

3. 特徵信息

4. 交叉檢驗

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

答案:C

如果幾個變量具有很高的 xiang s,則會展現出共線性。

相對於模型的性能,我們不需要關注模型的可解釋性。

如果特徵有很高的信息,則會為模型帶來價值。

我們需要使用交叉檢驗來驗證模型的普遍性。

因此 C 是正確答案。


問題 36

線性回歸模型中的其他變量下列哪些語句是正確的關於?

1.R-Squared 和 Adjusted R-squared 都會增長

2.R-Squared 是常數,Adjusted R-squared 會增長

3.R-Squared 和 Adjusted R-squared 都會減少 4.R-Squared 減少而 Adjusted R-squared 增長

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上沒有正確的

答案: D

R-squared 不能確定係數估計和預測是否有偏差,這就是為什麼我們要評估殘差圖。 Adjusted R-squared 是 R-squared 的增強版,該方法調整了模型中預測器的數量. 如果有新方法將模型改進的機率大於預期時,Adjusted R-squared 會增加。 當預測變量將模型改進的機率小於預期時,它減少。

但是 R-squared 比 adjusted R-squared 有更多的問題,因此 predicted R-squared 被提出。

如果為模型增加一個預測器,則 R-squared 會保持不變或者增加。


想討論更多,請點擊這裡。


問題 37

下圖我們畫出了在同一個數據集上解決回歸問題的三種不同模型,從下圖中我們可以總結出什麼?

1. 和其他的相比,第一張圖的訓練錯誤最大。

2. 最後一個是最好的模型,因為在第三張圖有最小的訓練錯誤。

3. 第二個模型比第一個和第三個更健壯,因為它能更好的處理不可預見的數據。

4. 第三個模型和前兩個相比屬於過擬合。

5. 所有模型的性能都一樣,因為我們還沒有看到測試集。

A. 1 和 3

B. 1 和 4

C. 1, 3 和 4

D. 5

答案:C

對於自變量 X 來說,圖中數據的趨勢像一個多項式函數。最右邊圖中的多項式形式更複雜,準確率也最高,但是對於測試集則會表現不佳。而最左邊的圖很明顯屬於欠擬合的情況。


問題 38

在應用線性回歸時我們需要遵循哪些假設?

1. 由於線性回歸對於異常值很敏感,所以檢查異常值是十分重要的。

2. 線性回歸要求所有變量都遵循正態分布。

3. 線性回歸假設數據中很少或不存在多重共線性。

A. 1 和 2

B. 2 和 3

C. 1,2 和 3

D. 以上所有

答案:D

l 異常值是數據中對最終回歸線的斜率影響最高的點。所以在回歸分析中去除離群值總是很重要的。

l 了解自變量的分布是非常必要的。自變量的正負偏態分布可以影響模型的性能,並將高度偏態的自變量轉換正態將改進模型性能

l 當模型包含彼此相關的多個要素時,會出現多重共線性。換句話說就是有多餘因素線性回歸假設在數據中應該有很少冗餘或者儘可能沒有。


問題 39

當建立線性模型的時候,我們會關注數據之間的關聯。假如我們在關聯矩陣中找到了三對數據 (Var1 和 Var2 , Var2 和 Var3 , Var3 和 Var1) 的關聯分別是 -0.98, 0.45 and 1.23。那麼從這些信息中我們可以推斷出什麼?

1.Var1 和 Var2 具有很高的關聯性。

2.Var1 和 Var2 有很高的關聯度,所以它們具有多重共線性。所以我們要將 Var1 或者 Var2 移除出我們的模型。

3.Var3 和 Var1 之間的關聯值是 1.23 是不可能的。

A. 1 和 3

B. 1 和 2

C. 1,2 和 3

D. 1

答案: C

lVar1 和 Var2 的關聯值很高,所以是具有多重共線性的,因此我們可以從中去除一個。

l 一般來說,關聯繫數高於 0.7 的說明數據具有多重共線性。

l 第 3 個是不可能的,關聯繫數一定會在 - 1 和 1 之間。


問題 40

如果獨立和不獨立的變量之間有很高的非線性且複雜的關係,那麼一個樹模型將會比一般的經典回歸有更好的效果。這個說法正確麼?

A. 正確

B. 錯誤

答案:A

如果數據是非線性的,回歸模型就很難處理。而樹模型則會展現出很好的效果。

結束語

我希望您能喜歡本次測驗,您也會發現答案的解釋很有用。這次測試主要是集中了人們在日常使用機器學習過程中遇到的困難。

我們努力減少文章中的錯誤,但是由於筆者水平有限,可能文章中會有問題,所以如果您發現了,請在下面留言。當然,如果您有改進意見,也歡迎在下面留言。

我們將陸續推出更多的技能測試,請關注我們的更新。

如果您想測驗您的知識和技能,請登錄 Live Competitions,和全世界的數據科學家 pk!

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 物理老師整理:九年級30道經典題型(附答案解析),務必吃透掌握
    物理老師整理:九年級30道經典題型(附答案解析),務必吃透掌握初中物理的主要知識點主要是圍繞著電學、力學、聲學、以及熱學這幾大知識點所展開的,雖然難度適中,不算特別大,但是從同學們的學習情況來看,這些知識是非常容易出錯的
  • 名師整理:初一下冊數學「最難」二元一次方程應用題,附答案解析
    名師整理:初一下冊數學「最難」二元一次方程應用題,附答案解析二元一次方程組作為初一下冊數學較難的內容,其實就是把實際問題中的數量關係用二元一次方程組的形式來計算。讓學生學會用含有其中一個未知數的代數式表示另一個的方法。
  • 五年級上冊數學易錯題集錦(附答案及解析)
    五年級上冊數學易錯題集錦(附答案及解析,圖片點擊放大)
  • 初中語文:100道重點文學常識題(附答案),逢考必有,建議收藏
    初中語文:100道重點文學常識題(附答案),逢考必有,建議收藏!語文是同學們需要重點學習掌握的學科,但是在學習語文時又不能一蹴而就,語文的學習需要同學們長久的積累和運用。語文的學習就是一個不斷積累的過程。
  • 你是合格的機器學習數據科學家嗎?來挑戰這40題吧!(附解答)
    原標題:你是合格的機器學習數據科學家嗎?來挑戰這40題吧!測試包括機器學習、深度學習、時序問題以及概率。這篇文章將給出機器學習測試問題的解答。你可以通過連結獲得其他測試問題及解答。
  • 100篇小學語文閱讀理解+答案解析!給孩子存一份
    100篇小學語文閱讀理解+答案解析!給孩子存一份眾所周知,語文由基礎、閱讀理解和作文三大板塊組成的。三者缺一不可,並且每一個板塊的分值都是非常可觀的,也就是說某一部分的知識點和答題技巧沒有掌握牢靠,那麼對於整體成績來說是很不利的。
  • 中考化學:67道實驗探究題(附答案),孩子複習必備好資料,可列印
    中考化學:67道實驗探究題(附答案),孩子複習必備好資料,可列印化學這門學科是我們初三階段才會接觸到的一門學科,對於孩子們而言,也是一門比較難學的學科,尤其是關於實驗這塊的的學習,孩子們總是學不好,在考試的時候也丟分不少。
  • 附答案和解析,非常適合假期練
    附答案和解析,非常適合假期練初中的同學想要提高英語成績,就不得不在完形填空上多下功夫,雖然不是作為壓軸題來考察,但是很多同學這部分題型丟分率都非常的高,經常會丟失一大部分的分數,這樣一來怎麼可能英語考試還能取得好成績呢?
  • 衡中老師:初中數學勾股定理練習題(附答案),建議初中生列印
    衡中老師:初中數學勾股定理練習題(附答案),建議初中生列印在初中階段,數學也算是難點科目了。其中在初中階段,很多同學都會在勾股定理中丟分,勾股定理也是初中數學的基礎知識,但是隨著數學難度加深,混合了其他知識一起考的話,也算是難點了。
  • 中考英語語法專項訓練:天天練 第24講(附答案解析)
    學習英語最難的部分就是對語法的掌握和應用,因為語法的知識點是非常多的。在平常的學習過程中,一定要多多做練習題,這樣我們對語法的了解才可以吃透,下面就為大家帶來初中語法練習題,貴在堅持!中考英語語法專項訓練1.﹣ Do you think French is_____unimportant subject?
  • 小學五年級:列方程解應用題100題(附答案),列印吃透不扣分!
    小學五年級:列方程解應用題100題(附答案),列印吃透不扣分!五年級屬於小學高年級階段,各科知識難度都有所提升,而且從教學方面也有很大的變化,著重培養孩子的自主學能力和解問題能力,為初中的學習打下基礎。列方程解應用題是小學數學教學的一個轉折點。
  • 衡中班主任:中考物理力學及電學計算題(附答案),考試年年考到
    衡中班主任:中考物理力學及電學計算題(附答案),考試年年考到物理是初中階段副科中難點科目。不僅要學掌握好基礎的公式,還要去攻破難點題型。有很多初中生都在給我留言,問到物理成績怎麼提升?其實想要學好物理,首先就要掌握好物理的公式,因為公式往往是解題的關鍵。
  • 2020年中考英語 單項選擇題 模擬訓練03(附答案解析)
    根據後半句it can make it easier for deaf children and their parents to read bedtime stories「它可以讓聾啞兒童和他們的父母更容易讀睡前故事」可知,前句表述的是這款app如此有用,又a useful app為名詞短語,故選B。13.
  • 2017年6月英語四級語法自測練習題:常用介詞用法
    2017年6月英語四級語法自測練習題:常用介詞用法  語法是英語的基礎,貫穿於整個英語四級考試題型中,新東方網英語四級頻道為了幫助考生自測英語四級語法薄弱環節,整理了九類英語四級語法自測練習題,希望對英語四級考生有所幫助。
  • 初中化學「基礎知識點填空」(附答案)!做一遍,快速掌握化學知識
    進入初三,同學們就會接觸到化學,化學是一個文理相結合的特殊科目,需要記住的基礎知識有很多。但是,化學又不同於其他科目,很多名詞概念很抽象,比如分子、化學式等。想在短短的一年時間,吃透一門全新的課程,如果沒有好的方法,很容易迷失自己。
  • 中考英語語法專項訓練:天天練 第66講(附答案解析)
    【考點】不定冠詞(a,an)【分析】我想再看一次《偽裝者》,因為這是一部非常精彩的電視連續劇.【點評】在本題中首先根據主語和謂語動詞的關係,判斷其語態是被動語態,結合選項中的情態動詞,判斷用含有情態動詞的被動語態,套用結構即可選出正確答案. 10.【考點】一般過去時【分析】﹣﹣老師在教室的後面,你知道他什麼時候來的嗎?
  • 初中數學:動點問題及練習題附參考答案,你值得擁有!
    「老師,為什麼我每次做完題,或者是考試完了的時候,都感覺自己做的挺不錯的,但是結果一下來,發現錯了好多,感覺跟我的心理感覺相差太多了,不知道怎麼去學!」「老師,你講的內容我感覺自己都懂了,為什麼我在做題的時候,還是不能找到你的那種思路呢?
  • 初中數學:解一元一次方程專項練習200題(附答案),建議做一做
    初中數學:解一元一次方程專項練習200題(附答案),建議做一做!一元一次方程同學們在小學就有接觸過簡單的學習,它是最基本的代數方程,所以理解和掌握好一元一次非常,對於今後學習其他的方程以及不等式等具有重要的基礎作用。什麼是一元一次方程呢?只含有一個未知數,並且未知數的次數是1,並且含未知數項的係數不是零的整式方程是一元一次方程的定義。
  • 2009考研數學模擬自測題及答案---數三
    2009考研數學模擬自測題及答案----數三 http://kaoyan.eol.cn    水木艾迪  2008-05-13  大 中 小 免責聲明: ① 凡本站註明
  • 小升初英語複習題30套(附解析),給孩子收藏一份,升學力爭重點
    小升初英語複習題30套(附解析),給孩子收藏一份,升學力爭重點英語是小學階段難點科目,想要學好英語這門科目,首先就要掌握基礎的單詞以及短語,因為英語單詞是英語的基礎,有了詞彙量才能去掌握難點知識。最近就有小升初的家長在給我反映,說孩子各科成績都不錯,主要就是英語這門科目了。總是提升不上來。小升初的英語難度是整個小學最大的,詞彙量也慢慢增多,需要掌握的知識點也逐步加大難度。所以想要學好英語,一定要把單詞先鞏固好。其次就是多去練習好,練習得越多,那麼就能熟能生巧。基於此。老師給大家整理了小升初英語複習題30套(附解析),給孩子收藏練習,升學上重點。