「神經網絡」能否代替「決策樹算法」?

2020-12-24 FlyAI

這個問題可以從幾個維度來分析。但先要說明決策樹就是決策樹,隨機森林和xgboost的性能提升主要是來自於集成學習。所以,我們擴展一下題目把對比延伸到:

單棵決策樹,如比較常見的C4.5等

以決策樹為基模型的集成學習算法(Ensemble Tree),如隨機森林,gradient boosting,和xgboost

神經網絡,包括各種深度和結構的網絡

我的看法是,單棵決策樹的用途已經比較有限了,已經基本被集成決策樹代替。而決策樹集成模型和神經網絡有不同的使用場景,不存在替代一說。給出一個較為通用的看法僅供參考:

如果不強調絕對的解釋度,儘量避免單棵決策樹,用集成樹模型

在集成數模型中,優先推薦使用xgboost

在中小數據集上,優先選擇集成樹模型。大數據集上推薦神經網絡

在需要模型解釋度的項目上,優先使用樹模型

在項目時間較短的項目上,如果數據質量低(大量缺失值、噪音等),優先使用集成樹模型

在硬體條件有限及機器學習知識有限的前提下,優先選擇樹模型

對於結構化較高的數據,尤其是語音、圖片、語言,優先使用神經網絡模型(往往其數據量也較大)

用個不恰當的比喻,集成樹模型就像Python,而神經網絡就像C++。前者簡單粗暴效果好,容易上手優點多,後者比較精貴更為複雜但嚴肅項目上潛力很大。如果你願意好好學習數據結構、內存分配和要命的指針,C++幾乎無所不能。但如果你只打算寫個簡單的網絡爬蟲,Python十行就可以搞定。

單棵決策樹 vs. 集成學習

決策樹是1963年被 Morgan和Sonquist提出的[5],通過類樹的結構實現分類和回歸。我們一般認為決策樹模型:

易於使用和解釋[6],單棵的決策樹很容易進行可視化和規則提取

可以自動實現特徵選擇[3] - 通過計算節點分裂時"不純度的降低"(impurity reduction) 和剪枝(pruning)

預測能力有限,無法和強監督學習模型相提並論[6]

穩定性低(stability)方差高(variance),數據擾動很容易造成決策樹表現有很大的變化[1, 6]

隨機森林是Breiman提出的[10],模型使用集成的學習來降低單棵決策樹中的高方差(high variance)從而提高了整體的預測能力。而gradient boosting machine(GBM) [9]和xgboost [8]分別是在2001年和2014年提出的。鑑於兩者比較相似放在一起討論,這兩個模型:

和隨機森林的並行學習(parallel learning)不同,使用串行學習(sequential learning)不斷地提高的模型的表現能力降低偏差(bias)

在進行預測分類的時候非常快且對於儲存空間的要求低[3]

boosting這個學習方法可以看成一種L1正則化來防止過擬合,因此模型不容易擬合[3]。Python工具庫scikit-learn也提到過其不容易過擬合[2],用較多的基學習器也不礙事

單純對比GBM和xgboost的話,它們的分類性能接近,xgboost有一個額外的正則項進一步降低過擬合。而xgboost的速度更快[4],往往更適合較大的數據集

根據各種各樣實踐和研究來看,隨機森林、GBM和xgboost都明顯優於普通的單棵決策樹,所以從這個角度來看,單棵決策樹可以被淘汰了。

而單棵決策樹最大的護城河在於,它可以被很輕鬆的可視化甚至是提取規則分類規則。而集成學習在這一點是很難做到的[34]。而可解釋化對於工業界很多時候是很重要的,從這個角度來看,決策樹還有一點點立身之本。但這個使用的前提是,一定一定要確定決策樹的表現不錯(比如查看交叉驗證的結果)再來可視化和規則提取,不然很有可能提取到無效甚至是錯誤的規則。

隨機森林的作者曾經實現過可視化,但遠不如決策樹直觀,xgboost支持單棵樹的可視化。從某個角度上來看,或許對xgboost中較為可靠和穩定的單棵樹進行可視化可以徹底淘汰決策樹。

集成樹模型 vs. 神經網絡

神經網絡已經是我們很熟悉的算法了,最大能力就是從複雜的數據中進行特徵表示,也被認為可以近似表示任何函數(假設有特定多的node) [3],現在如此火爆的深度學習就是深度較大的神經網絡的特定叫法。神經網絡和集成樹模型在以下幾點上有較大的不同:

從數據量上來討論:神經網絡往往需要較大的數量,而小數據集上樹模型有明顯的優勢。常常有人問,多小才算小?這也同時需要取決於特徵的數量。但一般來說,幾百幾十個數據的情況下神經網絡很難表現良好。

從特徵工程角度看:神經網絡需要更苛刻的數據準備工作,而樹模型一般不需要以下步驟:(i) 缺失數據彌補(missing value imputation) (ii) 數據類型轉化(categorical to numerical):把類別數據變為數字型 (iii) 數據縮放(data scaling):把不同範圍的數據歸一到[0,1]或者投射到正態分布上 (iv) 更多的參數調整:比如初始化權重,比如選擇合適學習率等

從調參難度來看:集成樹模型遠低於神經網絡。大部分的集成樹模型也僅需要:(i)基學習器數量 (ii) 考慮的特徵數 (iii) 最大深度 等。神經網絡的調參慘劇已經沒什麼好說的,這點上和樹模型差距非常大。

從模型解釋度來看:集成樹模型的解釋度一般更高,比如可以自動生成特徵重要性(feature importance)。神經網絡的特徵雖然也可以一定程度上進行分析,但不大直觀。再早年間,在神經網絡上使用包裹式(wrapper)方法,每次加1或者減1個特徵進行特徵排序也曾存在過,遠不如集成樹模型的嵌入式(embedded)特徵選擇來的方便和直觀。

從模型預測能力來看:拋去調參的難度差異不提,大中型數據上的表現較為接近。隨著數據量增大,神經網絡的潛力越來越大

從項目周期來看:因為在各個方面神經網絡都需要更多的時間,因此其需要的總時間往往遠大於決策樹集成,更別提還需要很好的硬體支持,如GPU。

一般來說,在小數據量多特徵下,集成的樹模型往往優於神經網絡。隨著數據量增大,兩者表現趨於接近,隨著數據量繼續上升,神經網絡的優勢會逐步體現。這個跟很多答主提到的一樣:隨著數據量上升,對模型能力的要求增加而過擬合的風險降低,神經網絡的優勢終於有了用武之地而集成學習的優勢降低。

總結

綜上來看,大部分項目建議使用集成決策樹,首推xgboost,速度快效果好用時少。特定的複雜且數據量大的項目,建議還是老老實實的為神經網絡調參,拿出debug C++ pointer的精神來。

所以暫時來看,已經被替代的是單棵決策樹,而集成決策樹還非常重要甚至變得更為重要。在短時間內,看不到集成決策樹模型被替代的可能

* 另推薦一篇有趣但有點過時的文章[7],其中對比了各種各樣的算法並給出作者的分析。

原文:https://weibo.com/ttarticle/p/show?id=2309404213436883035081#_0

via:全球人工智慧

End

相關焦點

  • 決策樹的復興?結合神經網絡,提升ImageNet分類準確率且可解釋
    周志華老師曾在「西瓜書」中展示過決策樹的示意圖:決策樹示意圖。儘管決策樹有諸多優點,但歷史經驗告訴我們,如果遇上 ImageNet 這一級別的數據,其性能還是遠遠比不上神經網絡。「準確率」和「可解釋性」,「魚」與「熊掌」要如何兼得?
  • 變態「三角戀」?世界知識、大腦和計算是AGI的新「三駕馬車」
    【新智元導讀】「冰鎮椅子」和「彩虹蕉」見過沒?反正神經網絡要淚奔了。近年來,吃數據的人工智慧狹隘性日益凸顯,而來自舊金山的科學家們,認為智能來源於歸納偏差,他們試圖通過已知的世界屬性、大腦的物理結構和算法來構建一種新的世界模型。看到下面這個場景,你會想到啥?
  • 用算法「種」出的草莓裡,藏著年輕人與農業的未來
    用數字種植服務小農 「還是低估了。」 工程師出身的程飈在兩個多月前,參加了「多多農研科技大賽」——一個高原草莓種植的「人機對戰」比賽,要求在 120 天的時間內,用 AI 算法遠程控制草莓的生長,最終綜合比拼草莓的產量、口感、成本等等。同時,有來自國內草莓大縣的頂尖農人作為對照組。 過程是出人意料的。
  • AirPods Max「傷錢包」,這對耳機卻能「治病」
    技術代替藥物和針頭Nēsos 針對免疫系統疾病研發的可穿戴設備 | Nēsos無論是視覺,還是觸覺上,上圖女生所佩戴的都像是一對「入耳式耳機」,但是這款可穿戴設備的功能不是用來播放音樂或打電話,而是向大腦傳遞電信號,以此治療類風溼性關節炎。有些人不了解,類風溼性關節炎是常見的自身免疫性疾病。
  • 一文了解決策樹算法
    數據挖掘在數據挖掘領域,比較經典的分類算法有:決策樹算法、貝葉斯網絡算法、人工神經網絡算法、支持向量機以及其它一些基於關聯規則的算法等。國際權威的學術組織the IEEE International Conference on Data Mining(ICDM)曾在21世紀初期,將兩種決策樹算法(C4.5算法和CART算法)列入數據挖掘領域十大經典算法之中。可見決策樹算法優良的結構特性和算法效率,使其得到更多專家學者的一致認可。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    神經網絡機器翻譯技術成為人工智慧翻譯主流。該技術通過「端到端」的方法將翻譯平行語料進行映射,以「編碼器—注意力機制—解碼器」的結構來解決翻譯問題。 神經機器翻譯有兩個關鍵技術,一個是 gating,另外還有一個是 attention,這兩個特別適合處理語言中長距離調序,生成的譯文要比傳統的方式生成的譯文流利很多。
  • Libra 採用的 HotStuff 算法作者親述:「尤物」誕生記
    共識算法,而 LibraBFT 算法則是「HotStuff」的一個變種。 2018 年暑期期間,他在 VMware Research 實習時提出了「HotStuff」協議中核心算法,並完成了相關論文。 我們邀請 Ted Yin 撰文分享了他提出 「HotStuff」核心算法前前後後的經歷。
  • 馬斯克「獨孤求敗」的自動駕駛路徑,與特斯拉的「無人計程車」(附...
    接近三個小時的發布,特斯拉在試圖告訴現場的華爾街分析師們關於神經網絡和計算機視覺的運作優勢,希望向投資者解釋清楚「為什麼特斯拉不僅僅是一家汽車公司」。其實這不是特斯拉第一次談論「完全自動駕駛計劃」了,但這卻是特斯拉第一次推出完整自研晶片,以及基於完全自動駕駛之後的 Robotaxi(無人駕駛計程車)全新商業模式。
  • 澳門大學陳俊龍:顛覆縱向的「深度」學習,寬度學習系統如何用橫向...
    上世紀 80 年代,早期的神經網絡工作主要集中於解決調參與層次結構問題,特別是梯度下降參數的求解。當時還在美國攻讀學位的陳俊龍就已經涉足神經網絡、模糊系統及遺傳算法的研究。在 90 年代末期,陳俊龍教授基於包約翰教授提出的 RVFLNN 進行了單隱層神經網絡的研究,在增量學習上做出了一些成熟探索。
  • 對標蘋果的「Animoji」,「Afanta」助你實現「一人千面」
    36氪近期了解到的「AFanta」是一家來自矽谷的AI公司,專注於對視頻中的人物做實時的臉部3D建模及操控,目標是成為一家AI+視頻創作分享平臺。創始人秦陽告訴36氪,公司旗下第一款短視頻創作平臺「千面秀」已於春節期間上線。
  • MADNESS「神經」與「瘋狂」——六叔的潮流文化
    透過MADNESS,餘文樂期望「MADNESS BREEDS MADNESS」,以madness這種每個人都應該擁有的「神經」與「瘋狂」特質,孕育出像他一樣能夠創造藝術的同道中人。MADNESS以網絡商店作為一個直接的平臺,致力於提供好的品質給全球的顧客,並把好的體驗分享出去。餘文樂主理的潮牌 MADNESS 今年已經成立五周年。由於是知名藝人及潮流ICON,這使得六叔的人脈資源夠硬、夠廣。
  • 高中生都在研究神經網絡,我這個老師力不從心了
    而看過這位高中生的博客後,不少網友都大讚他是「天才中學生」。甚至有人高呼他的研究比不少研究生還強,未來不可限量……美國高中生,把AI研究到什麼地步,能獲得「天才」的讚譽?到目前為止,他上手的算法,無論是CNN還是GAN,都是來自TensorFlow的免費教程,Isaac的工作,主要是通過實測效果和走訪高校研究人員來弄懂算法的框架和功能模塊。至於神經網絡的數學原理和構建方法,以及如何訓練,Isaac,他都不太了解。
  • 深度學習平臺飛槳獲「創新之星」;通過網絡解剖解釋深層視覺表徵
    【今日資訊頭條 | 百度斬獲首屆多媒體信息識別技術競賽3項A級大獎,飛槳獲頒「創新之星」】來源:機器之心百度飛槳獲頒「創新之星」8 月 9 日,「中國人工智慧高峰論壇」在廈門召開,首屆「中國人工智慧·多媒體信息識別技術競賽」成果也在會上進行頒獎。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。本文是一篇出自倫敦大學學院的圖表徵學習綜述,詳細介紹了圖核、卷積、圖神經網絡、圖嵌入、概率模型共五類圖表徵學習方法的起源與發展,並對圖數據表徵學習方法的最新進展和未來發展方向進行總結和討論。
  • 「暴躁」帶貨主播在線吵架,實屬大數據算法支配下的情非得已
    大數據算法之下的我們 算法連接著屏幕那頭的主播和這頭的我們,我們和電商主播一樣被大數據「算計」著。 打開我媽的抖音,我發現除了界面一樣外,她的抖音和我的抖音是兩個不同的世界。
  • 「愛情就像脂肪,是點點滴滴的積累」,微軟小冰造句天馬行空,三大...
    而在深度學習、神經網絡時代,表示的方法非常之多,最簡單的方法如詞向量甲醛平均,之後出現的方法如卷積神經網、循環神經網以及基於句子的表示等等。用戶輸入和回復候選表示以外,檢索模型也可以嘗試在匹配上做得更細,例如微軟小冰團隊首先讓用戶輸入和回復侯選在每一個詞上都進行交互,然後得到一個充分交互的矩陣,接著把交互的信息從這個矩陣中通過神經網絡抽取出來,最後得出匹配程度。
  • 深度森林第三彈:周志華組提出可做表徵學習的多層梯度提升決策樹
    自去年周志華等研究者提出了「深度森林」以後,這種新型的層級表徵方式吸引了很多研究者的關注。今日,南京大學的馮霽、俞揚和周志華提出了多層梯度提升決策樹模型,它通過堆疊多個回歸 GBDT 層作為構建塊,並探索了其學習層級表徵的能力。
  • 純貝葉斯神經網絡沒有意義?OpenAI科學家何出此言?
    這就對標準論點提出了質疑,標準論點即:當真實先驗分布未知時,「信息不足的先驗」是合適的。什麼是貝葉斯推斷?在 Twitter 討論中,很多研究者認為「貝葉斯」是「不確定性感知」(uncertainty-aware)的同義詞,或者使用結果集合或分布的算法一定是貝葉斯算法。我們想要釐清一點,在我們看來,這種描述有失公允。
  • 科大訊飛胡鬱:中國坐擁「登山型」和「衝浪型」企業,將在中美人工...
    「人工智慧行業企業家峰會」上,國家 863 計劃專家、科大訊飛執行總裁胡鬱發表了「AI 賦能,智贏未來」的演講。大數據是促成人工智慧第三次浪潮的一個關鍵要素,大數據的三點核心:深度神經網絡算法,大數據和漣漪效應,都是指利用真實數據持續學習和進化的方法。
  • SQL Server 2008 數據挖掘的決策樹算法
    【IT168 技術文檔】決策樹算法是由 Microsoft SQL Server Analysis Services 提供的分類和回歸算法,用於對離散和連續屬性進行預測性建模。  對於離散屬性,該算法根據數據集中輸入列之間的關係進行預測。它使用這些列的值(也稱之為狀態)預測指定為可預測的列的狀態。