從前,小夕種了一棵樹

2021-02-18 夕小瑤的賣萌屋

從前,小夕種了一棵樹,種在了小夕的小屋後面~

 

為什麼要種這棵樹呢?因為呀,它可以幫小夕總結歷史經驗,然後幫小夕對當前的局勢做出決策~這樣小夕就可以安心給大家寫文章啦~

 

這棵樹是這樣的。

 

一開始,小夕買了一顆小樹苗,把它栽到地上。

然後呢,小夕不給它澆水,也不給他澆肥料,而是讓他吃歷史經驗。比如呢,今天,小夕讓它幫小夕識別出圖片中的生物是喵還是驢。所以呢,這裡的歷史經驗就是一大堆喵和驢的圖片,並且小夕給它標註好了每張圖片是喵還是驢。

 

 

可是由於樹沒有眼睛呀,不能直接觀察圖片。所以呢,小夕幫它把圖片轉化成了特徵,也就是用幾個特徵來描述每張圖片。

 

於是小夕選了如下幾個特徵來描述每張圖片:

 

1、頭是否是長條形

2、身上有沒有毛

3、有沒有發現鬍鬚

4、醜不醜

5、萌不萌

 

所以,比如小夕就會對下面這張圖片:

 

 

轉化為[False True False False True]特徵向量(即,不是長條頭、有毛、沒發現鬍鬚、不醜、萌)

 

然後小夕一口氣給上千張圖片提取完了特徵,當然,這些圖片都是標註好類別的。

 

小夕就把它們丟給小夕心愛的小樹苗啦~

誒?那小樹苗要怎麼生長呢?

小樹苗喝了口水,說:

我每一步的生長都是非常慎重的,我從不會多長個枝丫或者少長個枝丫。每個樣本這不是有五個特徵嘛,我呢,就會從中挑選出最有價值的一個特徵,來作為我第一次生長的分支。」

小樹苗說:

「你看啊,比如你挑出來的第二個特徵,「身上有沒有毛」,這就是很糟糕的特徵。為什麼呢?我們就來看「有沒有毛」這個特徵。我數了一下,在所有有毛的動物中,50%的動物是喵,50%的動物是驢。而在所有沒有毛的動物中,也是50%的動物是喵,50%的動物是驢。所以「有沒有毛」這個特徵的任何一個取值下,所有類別的樣本數一樣,是完全等概率的,這樣的特徵完全無法用來做分類啊。因為不管這個特徵的值是什麼,它所映射的各個類別都是等概率的。所以這個類別是最糟糕的。」

小樹苗喝了口水,接著說:

但是你用的第三個特徵,「有沒有鬍鬚」,就非常棒。我統計了一下,有鬍鬚的動物中,喵佔了92%,驢佔了8%。而沒有鬍鬚的動物中,喵佔了20%,驢佔了80%。這樣,如果給我一張未知類別的樣本,只需要看「有沒有鬍鬚」這個特徵的話,基本就可以判斷出這個樣本的類別是什麼了!比如說這個樣本的這個特徵的值恰好是「沒有鬍鬚」,那麼我就有80%的把握說這是一頭驢!當然,如果恰好這個樣本的特徵的值是「有鬍鬚」,我就有92%的把握說這個樣本時一隻喵!這麼棒的特徵,當然是首選的啦!所以,我下面要長的枝丫就是叫做「有沒有鬍鬚枝丫」!

小夕:

我可能買了一棵假樹苗。

我。。。應該懂你的意思了。你說的選擇最優特徵的方法實際就是計算條件熵的過程。對於你說的「有沒有毛」這個很糟糕的特徵,由於這個特徵的每個取值下,各個類別都是完全等概率分布的,所以是最無序的,最隨機的特徵,我們稱為「條件熵最大的特徵」。熵最大就是1,所以計算出的「有沒有毛」這個特徵的條件熵肯定是1。

而你說的「有沒有鬍鬚」這個特徵,它的每個取值下,類別分布很隨機,也就是說很有序(想像一下,最有序的狀態就是每個取值下,所有樣本都是同一個類別,多麼有序啊。而類別等概率分布的時候,就是每個特徵下魚龍混雜的時候,啥類別都有,亂糟糟的),這種很有序的特徵,計算出的條件熵肯定很小。最有序的情況下,條件熵就是0啦。

小樹:

好了。但是,我的分類目標是達到100%的準確率。所以,我要進一步挑選特徵了!

基於有鬍鬚的那個分支,我會將這個分支裡的樣本重新計算各個特徵的條件熵(當然鬍鬚這個特徵除外),像之前一樣選擇條件熵最大的特徵作為下一個枝丫!

一直重複這個過程,直到哪一個枝丫下的全部樣本都是同一個類別了,這個枝丫就不再繼續分裂了。 

最終,小樹長成了大樹。

 這時,小夕忙著給大家寫文章呢,但是小夕的一個好閨蜜小婭拿著一張圖片過來了,她想讓小夕幫她看看這是驢還是喵。

 

但是小夕很忙呀,沒空理她,就讓她拿著圖片問後院的決策樹啦~

 

然後小婭去問決策樹這是啥,決策樹說:「它有鬍鬚嗎?」

 

小婭說:「有!」

 

樹:「它萌嗎?」

 

小婭:「一點也不萌!」

 

樹:「它是長臉嗎?」

 

小婭:「是長臉!」

 

樹:「那這就是只驢!」

 

留下一臉懵逼的小婭在樹下凌亂( ̄∇ ̄)

 

這棵神奇的樹叫什麼呢?

 

這棵樹的專業說法叫「ID3決策樹」,為什麼是ID3呢?因為它是通過計算條件熵來選擇最優特徵的。其他經典決策樹如C4.5決策樹、CART決策樹等與ID3的區別僅在於最優特徵選擇的算法。

 

然後對本文總結一下,本文經過了如下步驟,這也是一個簡單的機器學習/數據挖掘任務的經典流程。

 

1、對已標註類別的數據集進行數據預處理與特徵提取

2、訓練決策樹(分類器/機器學習模型)

3、對未知類別的數據集進行數據預處理與特徵提取

4、利用決策樹對未知類別樣本的類別做出決策

 

想要詳細了解ID3決策樹選擇最優特徵的過程(即計算條件熵)的同學,可以Google或者百度一下「條件熵」或者查閱《數據挖掘導論》等機器學習相關的書籍;

想要詳細了解如何代碼實現ID3決策樹的同學,可以搜索各種CSDN博客或者查閱《機器學習實戰》等側重代碼實現的書籍;

對於如何提高決策樹的泛化能力(防止過擬合)等優化技巧,或者其他類型的決策樹,可以看《數據挖掘導論》等經典書籍~

相關焦點

  • 小夕的算法入門之路
    小夕都快要成XX入門指導專業戶了QAQ,小夕是要寫人工智慧和計算機乾貨的啊喂~好吧,問小夕如何入門算法的小夥伴太多了,還是寫一篇文章吧。
  • 木心的詩歌《曠野一棵樹》賞析
    木心有些作品是很好的,尤其文字間透出的雅致情調兒,恰恰有種和現代生活懸河相望的彼岸美,比如《從前慢》。木心的詩歌,文字簡短冷硬,情感孤介、少柔情。只有在回憶過往的文字裡,才閃現出少有的深婉柔情。這大概是木心不幸人生遭遇泣歷出這種文風。
  • 小夕用20張圖,1個動畫,6種語言擊敗了100%!一道經典騰訊面試題
    小夕的公眾號發文方式由於公眾號的改版,如果不經常發文的話,小夕的讀者朋友們會收不到小夕的寫的文字,因此天天發文就很必要但小夕的一篇漫畫算法原創文章,大概需要5-10個小時的耗時,動畫+漫畫的那些圖片製作起來非常費時間!
  • 淨化加熱一體機 Miss Xi熊小夕淨飲機劉楠直播間都為它打Call
    同時該淨飲機還能實現常溫水(25℃)、衝奶(42℃)、蜂蜜水(55℃)、泡綠茶(75℃)、泡咖啡(90℃)、開水(100℃)共6種飲水場景的水溫控制,想喝什麼直接按,就能直接出適合的溫度,這裡特別要提一下衝奶的42℃,是Miss Xi熊小夕團隊經過反覆測驗得出的最適合寶寶衝奶的溫度,即使在深夜,也能讓寶寶3秒就喝上溫度適宜的奶粉。
  • 網紅必備好物熊小夕奶茶機,小紅書達人集體打Call
    要說小紅書目前最受歡迎的單品,熊小夕的小夕姐姐奶茶機必須榜上有名。近日,不少喜歡逛小紅書的小姐姐發現,近百位達人都在刷屏,瘋狂為這款奶茶機打Call,評論區也被「我要買一臺」的聲音攻陷。
  • 七段溫度可調,三種出水量:Miss Xi熊小夕桌面即熱飲水機
    這款即熱飲水機叫Miss Xi熊小夕桌面即熱飲水機,小巧精緻的造型,以及春梅粉的配色,真的是物如其名,擺放於辦公桌面絕對是一個靚麗的風景線,另外,除了我所展示的春梅粉,在平臺上還有另一款朱槿色可選,大家感興趣的可以去看看。
  • 「寫作是一棵樹」
    「寫作是一棵樹」  兒童文學作家王璐琪南寧分享寫作經驗  南國早報南寧訊(記者劉豫)7月7日上午,曹文軒兒童小說獎、冰心兒童文學獎獲得者,國內著名兒童文學作家王璐琪,在廣西圖書館與小讀者們進行了面對面的交流。
  • 國內唯一沒有樹的縣:種不活一棵樹,為什麼會這樣?
    我們可以通過自己的低碳行為積攢能量,積攢一定數量的能量之後,螞蟻森林會替用戶在沙漠地區種下一棵真樹。阿里巴巴還會募集一些志願者,去沙漠地區種樹。一般來說,在雨水充沛、自然環境良好的地方種一棵樹是比較簡單的,而過度乾旱的地區卻恰恰相反。沒有去沙漠種過樹的人永遠也無法體會其中艱辛,樹這種看似堅強的植物,面對惡劣的自然環境也只能放棄生的希望。
  • 春天和秋天,一匹馬在天空奔跑,一棵樹從窗戶裡長出來
    春天和秋天,一匹馬在天空奔跑,一棵樹從窗戶裡長出來 2020-06-10 09:31 來源:澎湃新聞·澎湃號·湃客
  • 為什麼我國黃土高原的「地坑院」民居,都會在院子裡種一棵樹?
    在地坑院的院子當中一般都會種一兩棵樹,我國黃土高原地區屬於溫帶季風氣候,所以種植的樹多屬於溫帶落葉闊葉林,常見的樹種包括梨樹、榆樹、桐樹或石榴樹,樹冠通常高出地面,露出樹的頂部。院子裡種一棵樹的主要目的是為了起到「警示作用」,由於地坑院隱藏在地下,地面上的人們很難發現,利用高出地面的樹冠來提醒人們,以免掉落到坑內。
  • 在故鄉,我就是一棵樹
    在故鄉我就是一棵樹文/劉正國我經常覺得,在故鄉,我就是一棵樹。
  • 我在非洲種了一棵樹
    經他一提醒,我很快就記起了種芒果樹的經過。作者栽種的芒果樹一棵芒果樹那是我第五次到非洲時,在貝寧西北部洛各薩省德威鎮為貝寧該地區種植水稻的中國農技組做援助翻譯時,眼看我的貝寧之旅即將結束,我想總要為自己留下一點在貝寧生活的痕跡,便一時心血來潮,在我們專家組前面通往打穀場路旁邊的一塊荒地上種了一棵芒果樹。
  • 我還是從前那個少年是什麼歌-我還是從前那個少年抖音歌曲介紹
    換種生活  讓自己變得快樂  放棄執著  天氣就會變得不錯  每次走過  都是一次收穫  還等什麼 做對的選擇  沒有一絲絲改變  時間只不過是考驗  種在心中信念絲毫未減  眼前這個少年  還是最初那張臉  面前再多艱險不退卻
  • 廣西「水果之王」木菠蘿,一棵樹掛二十幾個果
    在廣西北海的潿洲島上也種有木菠蘿,潿洲島種木菠蘿已經有百來年的歷史,過去只在自家的莊園裡種植,這些年慢慢的增多可,一棵樹可以掛果少則有十幾二十個(約100公斤),多則有三五十至上百個(200多公斤),每年到了秋季時,果實飄香。木菠蘿成為北海特色的經濟作物,上島來玩的遊客都會吃上一口木菠蘿,拍張美麗的木菠蘿照片。
  • 從前造句和解釋_從前的例句有哪些 - 小孩子點讀
    (出自:統編版一年級下冊-課文2-6、樹和喜鵲)3、從前有一片霧,他是個淘氣的孩子。(出自:統編版二年級上冊-課文6-20、霧在哪裡)4、從前,有個人種了一棵葫蘆。(出自:統編版二年級上冊-課文5-14、我要的是葫蘆)5、從前有個人,養了幾隻羊。
  • 來生願做一棵樹,站在你必經的路口
    雖然一段戀愛的開始,你終沒有陪我走到最後,可我也不曾後悔遇見,若有來生,願做一棵樹,站在你每天必經的路口。只為多看你一眼,知道你好好的,心也踏實了。人生聚散離合都有時候,若有緣,兜兜轉轉,還會回來,若無緣,即使在同一座城市,也不會再見面。
  • 抖音我還是從前那個少年是什麼歌 我還是從前那個少年沒有一絲絲改變
    抖音我還是從前那個少年是什麼歌?最近抖音上有一首歌特別火,很多抖音UP主都在翻唱,這首歌有點沙啞的嗓音唱特別合適,有一種滄桑感,那這首歌是什麼歌呢?下面小編就為玩家帶來抖音我還是從前那個少年是什麼歌,一起來看看吧。
  • 木心的詩歌《從前慢》賞析
    字裡行間,木心的確有種民國文人特有的味道,那腔調現在讀起來有種悠遠感,卻更具傳統中國文化的底氣。(民國文人是很獨特的一個群體,他們沒有古人層積下來的之乎者也的酸腐,卻有著傳統中國文化的深厚底蘊。《從前慢》是木心流傳最廣的一首詩歌,詩中透露詩人對從前慢生活的喜歡與懷念,從前的慢生活不僅僅是節奏慢,也是人與人間那份誠懇熱忱,對待情愛的認真負責,以及生活品味的樸實精緻。
  • 培養一個愛好,就像種植一棵樹
    培養一個愛好,就像種植一棵樹,你付出時間、耐心,它日漸長大,總會回報給你綠蔭和清涼。這都是無心之舉,卻總會給你意外收穫。才女安意如憑藉一本《人生若只如初見》讓大家熟悉,迅速躋身暢銷書作家行列。有誰知道,她的幾本瑰麗文字,都是閒暇之餘的信手「塗鴉」。
  • 守候 只為這個春天④|一棵樹觀景園花已開 靜待「重啟」攬盡山城夜色
    重慶南山一棵樹觀景臺上空無一人,張慶江望著流光溢彩的渝中半島感嘆:「太冷清了。」△疫情管控期間的一棵樹觀景臺張慶江是南山一棵樹景區的一名安保工作人員,自1月24日下午五點閉園以來,他一直期待著重新開門的消息。