數據科學新手最適合使用的5大算法

2020-12-18 讀芯術

全文共2600字,預計學習時長7分鐘

圖源:Google

機器學習是數據科學領域最重要的子領域之一。1959年,IBM研究人員ArthurSamuel首次使用了機器學習這一術語。從此以後,機器學習領域引發了很多人的極大興趣。

當你開始數據科學之旅時,遇到的第一個子領域可能就是機器學習。機器學習是用於描述計算機算法集合的名稱,這些算法在運行過程中通過收集信息不斷進行學習和改進。

機器學習算法都是基於某些數據的。最初,該算法通過一些「訓練數據」來建立解決特定問題的直覺。一旦算法通過了學習階段,就可以通過已獲得知識解決基於不同數據集的相似問題。

一般而言,機器學習算法分為4類:

· 監督算法:在運行過程中需要開發人員的監督。為此,開發人員可以標記訓練數據並為要遵循的算法設置嚴格的規則和界限。

· 無監督算法:開發人員不直接控制的算法。在這種情況下,算法的期望結果是未知的,需要由算法定義。

· 半監督算法:該算法結合了監督算法和非監督算法的各個方面。例如,初始化算法時,並非所有訓練數據都將被標記,並且不提供一部分規則。

· 強化算法:此種類型算法使用了一種稱為探索/開發的技術。技術內容很簡單;機器執行一個動作,觀察結果,然後在執行下一個動作時考慮這些結果,依此類推。

以上每種算法都有特定目標。例如,監督學習旨在擴展訓練數據的範圍,並據此預測未來或新數據。另一方面,無監督算法用於組織和篩選數據以使其有意義。

每個類別都有各種旨在執行特定任務的特定算法。本文將介紹每個數據科學家都必須了解的5種基本算法,內容涵蓋機器學習的基礎知識。

1. 回歸

回歸算法是監督算法,用於查找不同變量之間的可能關係,以了解自變量對因變量的影響程度。可以將回歸分析視為一個方程,例如,假設有方程y = 2x + z,y是因變量,則x,z是自變量。回歸分析就是找出x和z在多大程度上影響y的值。

相同的邏輯適用於更高級和更複雜的問題。對於各種問題,回歸算法的類型也有很多。最常用的前五名可能是:

· 線性回歸:最簡單的回歸技術使用線性方法來描述因變量(預測值)和自變量(用於預測的值)之間的關係。

· Logistic回歸:這種類型的回歸用於二進位因變量,被廣泛用於分析分類數據。

· 嶺回歸:當回歸模型變得過於複雜時,嶺回歸會校正模型係數的大小。

· Lasso回歸:Lasso(最小絕對收縮選擇器運算符)回歸用於選擇變量並對其正則化。

· 多項式回歸:這種類型的算法用於擬合非線性數據。使用時最好的預測不是直線,而是一條試圖擬合所有數據點的曲線。

2. 分類

機器學習中的分類是基於預分類的訓練數據集將項歸類的過程。分類被認為是監督學習算法的一種。這些算法利用訓練數據的分類結果,計算出新的項落入已定義類別之一的概率。分類算法的一個著名示例是將傳入的電子郵件分為垃圾郵件或非垃圾郵件。

分類算法有多種類型,最常用的有:

· K近鄰:KNN是一種使用訓練數據集來查找某些數據集中的k個最接近數據點的算法。

· 決策樹:可將其視為流程圖,將每個數據點一次分為兩類,然後再分為兩類,依此類推。

· 樸素貝葉斯:此算法使用條件概率規則計算項屬於特定類別的概率。

· 支持向量機(SVM):在此算法中,根據數據的極性程度對數據進行分類,這可能超出X / Y預測範圍。

圖源:Google

3. 集成

集成算法通過將兩個或多個其他機器學習算法的預測結合來得到更準確的結果。可以通過投票或平均結果來組合結果。投票通常在分類過程中使用,而平均則在回歸過程中使用。

集成算法有3種基本類型:Bagging、Boosting、以及Stacking。

· Bagging:在Bagging中,算法在大小相同的不同訓練集上並行運行,然後使用相同的數據集測試所有算法,並投票確定總體結果。

· Boosting:在Boosting的情況下,算法按順序運行,然後使用加權投票選擇總體結果。

· Stacking:顧名思義,Stacking包含兩個層次,初級學習器是算法的組合,次級學習器是基於基礎層次結果的元算法。

4. 聚類

聚類算法是一組用於對數據點進行分組的無監督算法 同一聚類中的點比不同聚類中的點彼此之間更相似。聚類算法有4種類型:

· 基於質心的聚類:此聚類算法根據初始條件和異常值將數據組織到類中。基於質心的聚類算法中用的最多的就是k均值。

· 基於密度的聚類:在這種聚類類型中,該算法將高密度區域連接到聚類中以創建任意形狀的分布。

· 基於分布的聚類:此聚類算法假定數據由概率分布組成,然後將數據聚類為該分布的各種版本。

· 層次聚類:此算法創建了一個層次數據簇的樹,可以通過在正確的級別上切割樹來改變簇的數量。

5. 關聯

關聯算法是無監督算法,用於發現某些項在特定數據集中一起出現的概率,主要用於購物籃分析。最常用的關聯算法是Apriori。Apriori算法是交易資料庫中常用的挖掘算法。Apriori用於挖掘頻繁項集,並從那些項集生成一些關聯規則。

例如,如果一個人購買牛奶和麵包,那麼他也可能會買一些雞蛋。這可以從各個顧客的先前購買記錄得出。然後算法算出這些項被一起購買的頻繁程度,根據針對該置信度的特定閾值來形成關聯規則。

圖源:Google

機器學習是數據科學中最著名、研究最深入的子領域之一。人們也一直在開發新的機器學習算法,以達到更高的準確性和更快的執行速度。無論採用哪種算法,通常都可以將其歸為以下四類之一:有監督、無監督、半監督和增強算法。每個算法的用途都不一樣。

這些算法經過了深入研究和廣泛使用,你只需要了解如何使用它,而不是如何實現它。大多數著名的Python機器學習模塊(例如ScikitLearn)都包含大多數(如果不是全部)這些算法的預定義版本。

了解其原理後,趕緊掌握用法並開始用起來吧。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 數據科學 | 十大最受歡迎的Python庫
    Python被認為是初學者最容易學習的語言。不僅如此,Python還因為它擁有的動態應用程式集而受歡迎。隨著在人工智慧、機器學習、web開發和桌面應用程式開發等領域的廣泛使用,Python在數據分析市場上佔據了壟斷地位。考慮到Python廣泛的普及和認可,那麼它具有歸因於數據科學的豐富庫也就不足為奇了。科學庫是Python的代名詞!
  • 超星大數據算法期末考試答案
    大數據算法 一、單選題 (題數:40,共 40.0 分)1在內存中的二分搜索樹中,通常使用()來維護樹的平衡。()特點,使其與大數據算法密切相關的。()(1.0分)1.0分我的答案: ×3圖的連通性算法可擴增為求圖G最小生成樹(MST)的算法。
  • 新手大闖關:本科畢業生如何跨專業殺進數據科學行業?
    機緣巧合,你開始重新思考自己的職業發展道路,而數據科學這個前景廣闊的行業進入你的視野。你打算參加一個新手訓練營或是自學課程,然後去工作。這樣的情況,可以找到數據相關的工作(數據分析師/數據科學家/機器學習工程師)嗎?答案是肯定的,而且我覺著這很值,你可能有不同體驗。但這肯定不是容易的事情,既然做出了選擇,艱苦奮鬥的覺悟還是要有的。
  • 100天學習計劃 | 一份詳實的數據科學指南
    讓我來解釋一下100天學習數據科學的計劃。下面是使用Python學習數據科學的逐日計劃,該計劃跨度為100天,每天至少需要花費一個小時第一天:安裝工具只要確保安裝了所需的工具,並且您對接下來幾周/幾個月將要使用的工具感到舒適即可。
  • 任天堂明星大亂鬥:詳細解說最適合新手使用的一些角色!
    任天堂明星大亂鬥這款遊戲中,集結了歷代任天堂遊戲中那些知名角色,其中可使用的角色就有74種。但是作為一款剛出沒有多久的遊戲,很多角色都沒有開發完全,而很多格鬥遊戲的新手在面對這麼多可選角色時也會手足無措。所以今天小編就給那些萌新玩家推薦幾位最適合新手使用的角色!
  • 圖的最短路徑算法-Floyd算法-弗洛伊德算法
    Floyd算法又稱為插點法,是一種利用動態規劃的思想尋找給定的加權圖中多源點之間最短路徑的算法 在計算機科學中,Floyd-Warshall算法是一種在具有正或負邊緣權重(但沒有負周期)的加權圖中找到最短路徑的算法。算法的單個執行將找到所有頂點對之間的最短路徑的長度(加權)。
  • JAVA必須掌握的數據結構和算法
    >哈希函數(Hash)計算key,哈希值除以數組的長度5,求得其餘數。在序列中尋找最小值時使用的是線性查找每輪中交換數字的次數最多為1次。如果輸入數據就是按從小到大的順序排列的,便不需要進行任何交換。選擇排序的時間複雜度也和冒泡排序的一樣,都為O(n2)。
  • 什麼是算法?快速學會使用python編寫算法
    舉個例子,比如我們現在有這麼一列數據 [ 5,7,8,3,1],現在需要程序幫我們進行從小到大進行排序。應該怎麼辦呢?在程序中,我們已經知道數據可以進行加減乘除運算,還可以進行邏輯比較對於這五個數據,我們可以先讓五個數據進行比較,比較最後得到1是最小的,然後將1和首位的5進行交換,現在的結果是[ 1,7,8,3,5],接下來,讓1後面的四個數據,執行同樣的操作,比較得到3是最小的,將3與7交換位置
  • 重中之重:數據科學與機器學習背後的數學理論
    如果你是一名數據科學愛好者,一定想過這些問題:· 我可以在幾乎沒有數學背景的情況下,成為一名數據科學家嗎?· 在數據科學中,哪些基本的數學技能是重要的?有很多好用的包可以用來構建預測模型,或生成數據可視化。
  • 誰是史上最偉大網球運動員?大數據+精準算法的結果是
    網球界有一個終極的問題,那就是——到底誰才是史上最偉大的網球運動員?很多球友在回答這個問題的時候,第一反應就是憑自己的個人喜好和主觀直覺。如果再深入想一想,可能會用大滿貫冠軍數量、佔據世界第一的周數等常見的數據來佐證自己的觀點。作為一個篤信數字的人,我還是習慣用數字來說話。
  • 孤立森林:大數據背景下的最佳異常檢測算法
    原始論文中只包含了最基本的數學,因而對於廣大群眾而言是通俗易懂的。在這篇文章中,我會總結這個算法,以及其歷史,並分享我實現的代碼來解釋為什麼iForest是現在針對大數據而言最好的異常檢測算法。  為什麼iForest是現在處理大數據最好的異常檢測算法  總結來說,它在同類算法中有最好的表現。
  • 阿里三面慘遭被虐,關於數據結構與算法竟然一竅不通!
    以Java為描述語言,介紹計算機編程中使用的數據結構和算法,覆蓋相應競爭性考試的主題,目的不是提供關於數據結構和算法的定理及證明,而是強調問題及其分析,講解必備知識和解題技巧。第5章隊列隊列是一種用於存儲數據的數據結構(與鍊表和棧類似)。數據到達的次序是隊列的關鍵。
  • 微軟數據科學沙龍:摩拜單車的數據科學實踐,解密智能投顧
    ,微軟數據平臺方向MVP) 14:50 - 15:00 茶歇 15:00 - 15:50 主題:摩拜單車的數據科學實踐 演講者:朱俊輝(摩拜單車算法工程師) 15:50 - 16:00 茶歇
  • 面試常問的數據結構十大經典算法
    它的工作原理:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然後,再從剩餘未排序元素中繼續尋找最小(大)元素,然後放到已排序序列的末尾。以此類推,直到所有元素均排序完畢。算法描述n個記錄的直接選擇排序可經過n-1趟直接選擇排序得到有序結果。
  • 「走過」微軟、優步,老工程師告訴你哪些數據結構和算法最重要
    作者:Gergely Orosz機器之心編譯參與:小舟、杜偉數據結構和基礎算法作為計算機科學的必學課程,近幾年卻關注度越來越少。但程式設計師真的不再需要這兩門基礎知識了嗎?航線用一張有向圖來表示,每條邊都有一個表示票價的權重,算出兩個城市之間票價最便宜的航線就是通過每條航線的改進版的 A * 搜索算法實現的。但是使用 Skyscanner,實際算法就不那麼重要了。緩存、爬蟲和處理各種網站負載比解決問題本身要難得多。即便如此,最短路徑問題的變體還是在許多基於組合優化價格的旅行公司中使用。
  • 海量權威數據+科學多元算法,看京東金榜如何打造「網購第一榜單」
    ,或沒做好功課,或衝動下單,或盲目跟風,最肉痛的還是沒有貨比三家導致價格買貴,傷錢又傷心。在全年最後一個購物季12.12到來之際,京東金榜年度盛典將為消費者送上雙份大禮包,既有基於千萬人下單數據而形成的年度12大消費趨勢,讓消費者了解最新消費潮流;又有100大金獎單品做清單,給消費者帶來具體決策指導。從消費趨勢中,大家能看到最時尚的生活需要的是什麼,潮流的風向刮到了哪邊,甚至連健康養生吃什麼都能找到,滲透到生活的方方面面。
  • 浙江農林大學:新增「數據科學與大數據技術」等2個本科專業!
    近日,教育部公布了2019年度普通高等學校本科專業備案和審批結果,我校申報的智能科學與技術專業(080907T)和數據科學與大數據技術專業(080910T)獲教育部備案。同時,動物醫學專業修業年限由四年調整為五年。
  • 算法精準預測,天貓TMIC大促測款助力品牌「科學選品」
    數位化選品消費時代,大促測款創下史上5大記錄 天貓TMIC大促測款首創PK互動選品,並輔助以「千人千面」科學算法精準預測,為品牌提供了科學高效的選品結果,幫助商家選對款、備好貨、備對貨,並在過程中持續優化著資源配置。
  • C語言入門級教程:基礎數據類型與基本算法,學編程從此刻開始!
    今天帶大家了解一下學C語言必備的基本數據類型和基本算法,適合剛學C以及零基礎的小夥伴! 話不多說,我們一起來學習吧~ 數據類型 ● 基本類型 基本類型就是我們在使用C語言時最基礎的數據類型,包括整形(短整型,基本整型,長整型)、字符型、浮點型(單、雙精度)以及枚舉類型。
  • 智能時代的數據倫理與算法倫理──第五屆全國賽博倫理學暨數據...
    大會圍繞「智能時代的數據倫理與算法倫理及其法律規制」這一主題,從數據倫理、算法倫理、人工智慧倫理、共享倫理與媒介倫理等四個層面展開了熱烈而深入的探討。一、數據倫理與醫療大數據倫理中國社會科學院段偉文認為,當前人工智慧的發展的主要應用是數據智能,這使得智能算法在社會生活中所扮演的角色日益重要,並正在導致一種新的數據解析社會的來臨。