學習機器學習,你需要了解這5點

2021-02-13 愛數據原統計網

作者:夢想在起飛

來源:http://www.woshipm.com/ai/2002216.html

機器學習是一種數據分析技術,讓計算機執行人和動物與生俱來的活動:從經驗中學習,也被稱為預測分析;本文作者分享了關於機器學習的流程以及實踐應用,我們一起來看一下。

我所理解的機器學習是一種能夠實現人工智慧的技術,建立能從經驗(數據)中進行學習的模型,從而使這個模型可以達到自行處理此類數據的能力。

也可以理解為:通過大量的數據,訓練出一個能處理此類數據的模型,使得這個模型可以根據已知的數據,準確率很高的判斷出未知的數據,從而使得人類能夠採取正確的方法去處理某些事情。

想要了解機器學習你需要知道以下幾點:

從實際的應用場景出發,要訓練出來一個能夠適應某場景的模型需要經過以下幾步:

場景解析就是將業務邏輯,抽象成為通過算法能夠解決的問題。

比如:做一個心臟病預測系統,那麼就可以抽象為二分類問題——要麼有心臟病,要麼沒有;然後,根據已有的數據看看有沒有目標值,可以判斷出:是監督學習還是無監督學習,還是半監督學習;從而,選擇出能夠處理好此類數據的算法。

(不同場景採用的算法是不同的)高頻的有以下幾種類型的場景:

分類場景:廣告投放預測,網站用戶點擊預測。

聚類場景:人群劃分,產品種類劃分。

回歸場景:商品購買量預測和股票成交額預測。

文本分析類場景:新聞的標籤提取,文本自動分類和文本關鍵信息抽取。

關係圖算法:社交網絡關係,網絡關係挖掘和金融風險控制。

模式識別:語音識別,圖像識別和手寫文字識別

場景解析完,選擇適合處理此類數據的算法後,需要對數據進行預處理——就是對數據進行清洗工作,對空值、亂碼進行處理。

數據預處理的主要目的就是:減少噪音數據對訓練數據的影響。



特徵工程是機器學習中最重要的一部分,因為根據已有的訓練數據,可選用的算法是有限的;那麼在同樣的算法下特徵的選取是不同的,100個人對一件事情會有100種看法,也就有100種特徵,最後特徵的質量決定模型的好壞。

特徵工程需要做的包括:特徵抽象、特徵重要性的評估、特徵衍生、特徵降維。


在經過以上過成後,進入訓練模塊,生成模型。



對生成模型的成熟度進行評估。


在實際運用過程中,需要配合調度系統來使用。

案例場景:每天將用戶當日新增的數據量流入資料庫表裡,通過調度系統啟用離線訓練服務,生成最新的離線模型,然後通過在線預測服務進行實時預測。

結構化數據:機構化數據是指以矩陣結構儲存的數據。

資料庫裡的數據就是以這種結構存在,可以通過二維結構來顯示,如下圖:

結構化數據中,有兩個重要的概念需要介紹一下:特徵列和目標列

上圖裡age,sex,cp列都是特徵列,ifhealth是目標列。

非結構化數據:典型的非結構化數據是圖像、文本、語音等文件;這些數據不能以矩陣的結構儲存,目前的做法也是通過把非結構化的數據轉化為二進位儲存格式。

半結構化數據:半結構化數據是指按照一定的結構儲存,但不一定是二維的資料庫行存儲形態的數據;還有一種是以二維數據形態儲存的,但某些欄位是文本類型,某些欄位是數值類型的,如下圖:

監督學習:是指每個進入算法的訓練樣本數據都有對應的目標值。

如上圖所示,Ifhealth為目標值。

常見的監督學習算法:


無監督學習:就是訓練樣本的數據裡沒有目標列,不依賴於打標好的機器學習算法。

那麼,這樣的數據可能對一些分類和回歸的場景就不太適合了。

無監督學習主要是來解決一些聚類場景的問題。


半監督學習:

通過上面的監督學習和無監督學習的概念,再來看半監督學習就比較好理解了。

也就是說,訓練數據裡只有部分數據是打標的。目前,半監督學習的算法,都是監督學習算法的變形。

強化學習:

強化學習是一種比較複雜的機器學習種類。強調的是:系統與外界不斷的交換,獲得外界的反饋,然後決定自身的行為。

如:無人駕駛,阿爾法狗下圍棋就是強化學習的應用。

過擬合是數據挖掘(通過大量數據,訓練模型的過程也稱為數據挖掘)領域中最常見的問題,是指:通過訓練集訓練了一個模型,這個模型對於訓練集的預測準確率很高,可以達到95%以上;但是換一份兒數據集進行預測,準確率大幅度下降。

出現這種情況的原因可能是:訓練的過擬合現象。

導致過擬合問題的原因有以下三種:

機器學習最終的目的是生成模型

模型生成後需要一些指標來評估這個模型的好壞。

常用到的概念有:精確率召回率F1值ROCAUC幾種。

首先介紹一下精確率,召回率和F1值,這3個指標是由:TP,TN,FP,FN這4個值計算而來的(這裡不做解釋了)。

ROC曲線是常用的二分類場景的模型評估算法曲線,下圖齒狀弧形曲線就是ROC曲線。

如圖所示:

通過ROC曲線可以清晰的展示出來,只要模型曲線越來越接近左上角就說明模型的效果越好。

AUC的值是ROC與橫軸所圍起來的面積(圖中帶陰影的部分),這個AUC的值越大說明模型的效果越好。

AUC的值取0~1之間,通常大於0.5,當AUC的值大於0.9以上時,證明這個模型的效果比較好。

以上對機器學習的流程,和一些概念做了解釋,但距離真正可以上手操作還有很遠的距離;如非結構化數據和半結構化數據,如何轉化為結構化數據?特徵抽象,特徵衍生,特徵降維如何操作?等等,實際的操作問題,接下來也會給大家分享。如果有幫助,別忘了點個再看~

本文為轉載自人人都是產品經理

專欄作者:夢想在起飛

相關焦點

  • 想了解機器學習?你需要知道的十個基礎算法
    由於大數據是目前科技行業最熱門的趨勢,基於大量的數據機器學習在提前預測和做出建議方面有巨大的潛力。一些有關機器學習常見的例子有:Netflix基於你以前看過的電影再給你做出影片的推薦,或者亞馬遜根據你以前買過的書籍再給你進行圖書推薦。如果想了解更多有關機器學習的知識,要從哪裡開始呢?作者第一次入門是在哥本哈根海外交流時選了一門有關人工智慧的課程。
  • 你真的需要機器學習嗎?
    但對於一家公司、一個部門、一款產品和一位產品經理來說,他們需要一個簡單而重要的答案:我真的需要機器學習嗎?你真的需要機器學習嗎?很多公司和科技博客都在一直鼓吹「人工智慧」代表未來,並提出他們會如何運用「機器學習」來改進科技,在競爭中脫穎而出。但是機器學習到底是什麼,你應該怎麼使用它?又或者它只是2017年的一個時髦熱詞而已?
  • 機器學習和深度學習的 5 個關鍵區別
    這類人群就是機器學習工程師。「人工智慧」、「機器學習」和「深度學習」這三個詞經常交替出現,但如果你正在考慮從事人工智慧的職業,了解它們之間的區別是很重要的。如果你看過Netflix,一些流媒體音樂服務會根據你過去聽過的歌曲,或你點讚過的歌曲,為你推薦觀看的內容。這些能力都建立在深入學習的基礎上。谷歌的語音識別和圖像識別算法也使用深度學習。正如機器學習被認為是人工智慧的一種類型,深度學習通常被認為是機器學習的一種類型,有人稱之為子集。
  • 深度學習與機器學習:了解差異
    -------機器學習和深度學習都可以發現數據模式,但是它們涉及截然不同的技術機器學習和深度學習都是人工智慧的形式。準確地說,深度學習是機器學習的一種特定形式。機器學習和深度學習都從訓練和測試模型開始,並經過優化找到一個權重使模型效果更好。
  • 5大在線學習機器學習課程推薦
    史丹福大學的機器學習課程Google Brain的創始人和百度前首席科學家吳恩達的課程在收視率,評論和教學大綱方面都是明顯的贏家。看看這門課程是如何實際建立的Coursera,這似乎並不令人難以置信。雖然它的範圍比原來的斯坦福類更小,但它涵蓋了大量的算法和技術。
  • 2021 年最值得學習的 5 大機器學習程式語言!
    如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握 AI 和機器學習?可供選擇的語言很多,你需要通過戰略選擇最能滿足個人需求,以及保證自己將來能夠在 AI 和機器學習領域順利發展的程式語言。
  • 機器學習的5種「兵法"
    他之所以密集是因為它有著從數學角度描述及解釋概念的傳統。這招很管用,因為數學描述是非常簡潔明了的,這些數學描述也通過與專業領域技術相結合來做分析(例如對一個程序概率性的理解)。很多這些次要的數學技巧與機器學習算法是捆綁在一起的。對於一些想要通過粗略了解機器學習方法來配置及應用它的人來說,這確實太難搞定了。
  • 2021 年最值得學習的機器學習程式語言TOP 5
    如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握
  • 2021年 最值得學習的機器學習程式語言TOP 5
    如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握
  • 機器學習 vs 深度學習到底有啥區別,為什麼更多人選擇機器學習
    目標本文中,我們將深度學習與機器學習作比較。我們將逐一了解他們。我們還會討論他們在各個方面的不同點。除了深度學習和機器學習的比較,我們還將研究它們未來的趨勢。對比介紹深度學習和機器學習1. 什麼是機器學習?通常,為了實現人工智慧,我們會使用機器學習。
  • 五分鐘了解機器學習十大算法
    今天,我們將簡要介紹 10 種最流行的機器學習算法,這樣你就可以適應這個激動人心的機器學習世界了!讓我們言歸正傳!1. 線性回歸線性回歸(Linear Regression)可能是最流行的機器學習算法。線性回歸就是要找一條直線,並且讓這條直線儘可能地擬合散點圖中的數據點。
  • 機器學習系列 | ML需要了解的十大神經網絡架構
    如果你曾學習過機器學習的課程,那麼你應該也接觸過神經網絡。神經網絡是一組特定的算法,它引起了機器學習領域的徹底性的變革。神經網絡啟發於生物神經網絡,當前我們所說的深度神經網絡已被證明十分有用。神經網絡本身就是一般的函數逼近,這也是為什麼他們能被運用於幾乎任何一個關於從輸入到輸出空間的複雜映射的機器學習問題中。
  • 萬字乾貨 | 一文助你了解機器學習
    本文將通過大量案例和通俗易懂的「人話」,講述機器學習建模邏輯和使用場景,讓非數據科學專業的職場人都可以快速了解機器學習是什麼,能做什麼,如何用!通過近十個月的學習和實踐,筆者對機器學習有了初步理解,本文將通過大量案例和通俗易懂的「人話」,講述機器學習建模邏輯和使用場景,讓非數據科學專業的職場人都可以快速了解機器學習是什麼,能做什麼,如何用!
  • 如何使用 Python學習機器學習
    機器學習是一種數據科學的技術也是一種實現人工智慧的一種方式,協助計算機從現有的數據學習,以便預測未來的行為、結果和趨勢。根據學習的方式又可以分為需要解答的監督式學習(Supervised learning)、非監督式學習(Unsupervised learning)和增強學習(Reinforcement learning)等(還有一種混合式的半監督式學習)等子類別。
  • 選機器學習課程怕踩雷?有人幫你選出了top 5優質課
    這本書搭配以下任意一門課程,可以幫助大家強化編程技能,了解如何直接將機器學習應用到項目中。以下是本文的重頭戲:top 5 機器學習課程。如果可以堅持上完整個課程,你將在大約四個月內對機器學習有一個較好的基本了解。之後,你可以再學習感興趣的高階或專項課程,如深度學習、機器學習工程等。這門課程對於新手來說無疑是最好的課程。
  • 機器學習和深度學習有什麼區別?
    例如:Find-S算法決策樹算法(Decision trees)隨機森林算法(Random forests)人工神經網絡通常,有3種類型的學習算法:1,監督機器學習算法用於進行預測。此外,該算法搜索分配給數據點的值標籤內的模式。2,無監督機器學習算法:沒有標籤與數據點相關聯。
  • 一文讀懂深度學習與機器學習的差異
    機器學習和深度學習變得越來越火。突然之間,不管是了解的還是不了解的,所有人都在談論機器學習和深度學習。無論你是否主動關注過數據科學和人工智慧,你應該已經聽說過這兩個名詞了。示例 1:機器學習和根據人的身高估算體重假設你想創建一個能夠根據人的身高估算體重的系統(也許你出自某些理由對這件事情感興趣)。那麼你可以使用機器學習去找出任何可能的錯誤和數據捕獲中的錯誤,首先你需要收集一些數據,讓我們來看看你的數據是什麼樣子的:
  • 機器學習論文復現,這五大問題你需要注意
    論文復現一直是機器學習領域的難題,雖然最近多個學術會議提倡大家提交代碼,但解決論文復現問題仍然任重而道遠。在試圖復現機器學習論文時,我們經常遇到哪些問題呢?新加坡機器學習工程師 Derek Chia 對此進行了總結。我最初接觸機器學習時,花費了大量時間來閱讀論文,並嘗試實現。當然,我不是天才。實現它意味著要執行 git clone 並嘗試運行論文作者的代碼。
  • 想了解機器學習?這 3 種算法你必須要知道
    點擊上方「CSDN」,選擇「置頂公眾號」關鍵時刻,第一時間送達!
  • 親身體驗了幾十門機器學習課程,我發現這5個是最好的
    據說讀完後,你在相互學這方面的直覺會發育的非常敏銳,很多基本機器學習技術能夠做到迎刃而解。2. 動手學TensorFlow之Scikit-Learn篇這本書是對前一本書很好的補充。上一本書主偏理論,這本書偏實踐,使用Python進行機器學習的應用。配合我們上面選出來的5門課程食用,效果拔群。