這一年來,數據科學家都用哪些算法?

2021-01-13 網際網路數據資訊網

在「數據為王」的今天,越來越多的人對數據科學產生了興趣。數據科學家離不開算法的使用,那麼,數據科學家最常用的算法,都是哪些呢?最近,著名的資料探勘信息網站KDnuggets策劃了十大算法調查,這次調查對數據科學家常用的算法進行排名,並發現最「產業」和最「學術」的算法,還對這些算法在過去5年間(2011~2016)的變化,做了一番詳細的介紹。這次調查結果,是基於844名受訪者投票整理出來。

KDnuggets總結出十大算法及其投票份額如下:

圖1:數據科學家使用的十大算法和方法。

  請參閱文末的所有算法和方法的完整列表。

從調查中得知,受訪者平均使用8.1個算法,與2011年的一項類似調查相比大幅提高。

與用於數據分析/數據挖掘的2011年投票算法相比,我們注意到流行的算法仍然是回歸算法、聚類算法、決策樹和可視化。相對來說最大的增長是以(pct2016/pct2011-1)測定的以下算法:

Boosting,從2011年的23.5%至2016年的32.8%,同比增長40%

文本挖掘,從2011年的從27.7%至2016年的35.9%,同比增長30%

可視化,從2011年的從38.3%至2016年的48.7%,同比增長27%

時間序列分析,從2011年的從29.6%至2016年的37.0%,同比增長25%

異常/偏差檢測,從2011年的從16.4%至2016年的19.5%,同比增長19%

集合方法,從2011年的從28.3%至2016年的33.6%,同比增長19%

支持向量機,從2011年的從28.6%至2016年的33.6%,同比增長18%

回歸算法,從2011年的從57.9%至2016年的67.1%,同比增長16%

在2016年最受歡迎的新算法是:

K-近鄰算法(K-nearest neighbors,KNN),46%份額

主成分分析(Principal Commponent Analysis,PCA),43%

隨機森林算法(Random Forests,RF),38%

最優化算法(Optimization),24%

神經網絡-深度學習(Neural networks-Deep Learning),19%

奇異值矩陣分解(Singular Value Decomposition,SVD), 16%

跌幅最大的算法分別為:

關聯規則(Association rules),從2011年的28.6%至2016年的15.3%,同比下降47%

增量建模(Uplift modeling),從2011年的4.8%至2016年的3.1%,同比下降36%

因子分析(Factor Analysis),從2011年的18.6%至2016年的14.2%,同比下降24%

生存分析(Survival Analysis),從2011年的9.3%至2016年的7.9%,同比下降15%

下表顯示了不同算法類型的用途:監督學習、無監督學習、元分析和其他算法類型。我們排除了NA(4.5%)和其他(3%)的算法。

    表1:按行業類型的算法使用

  我們注意到,幾乎所有人都在使用監督學習算法。政府和產業的數據科學家們比學生或學術界使用了更多的不同類型的算法,產業數據科學家更傾向使用元算法。

接下來,我們分析深度學習的十大算法按行業類型的使用。

    表2:深度學習的十大算法按就業類型的使用

Table 2: Top 10 Algorithms + Deep Learning usage by Employment Type

  為了使差異更為醒目,我們計算特定行業類型相關的平均算法使用量設計算法為Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1。

圖2:按行業的算法使用偏差

  我們注意到產業界數據科學家更傾向使用回歸算法、可視化、統計算法、隨機森林算法和時間序列。政府/非盈利組織更傾向使用可視化、主成分分析和時間序列。學術研究人員更傾向使用主成分分析和深度學習。學生通常使用算法較少,但他們用的更多的是文本挖掘和深度學習。

接下來,我們看看代表整體KDnuggets訪客的地區參與情況。

參與投票者的地區分布如下:

北美,40%

歐洲,32%

亞洲8%

拉美,5.0%

非洲/中東,3.4%

澳洲/紐西蘭,2.2%

與2011年的調查一樣,我們將產業/政府合併為同一個組,將學術研究人員/學生合併為第二組,並計算算法對產業/ 政府的「親切度」:

  親切度為0的算法在產業/政府和學術研究人員/學生的使用情況相同。IG親切度約稿表示該算法越「產業」,越低則表示越「學術」。

其中最「產業」的算法」是:

增量建模(Uplift modeling),2.01

異常檢測(Anomaly Detection),1.61

生存分析(Survival Analysis),1.39

因子分析(Factor Analysis),0.83

時間序列(Time series/Sequences),0.69

關聯規則(Association Rules),0.5

雖然增量建模又一次成為最「產業」的算法,但出乎意料的是它的使用率如此低:區區3.1%,在這次調查中,是使用率最低的算法。

最「學術」的算法是:

神經網絡(Neural networks – regular),-0.35

樸素貝葉斯(Naive Bayes),-0.35

支持向量機(SVM),-0.24

深度學習(Deep Learning),-0.19

最大期望算法(EM),-0.17

    下圖顯示了所有算法以及它們在產業界/學術界的親切度:

圖3:Kdnugets調查:數據科學家使用的流行算法:產業界vs學術界

  下表包含了算法的詳細信息,在2016年和2011年使用它們的受訪者百分比調查,變化(%2016 /%2011 – 1)和行業親切度如上所述。

表3:KDnuggets2016調查:數據科學家使用的算法

下表包含各個算法的詳細信息:

N: 根據使用度排名

Algorithm: 算法名稱

Type:類型。S – 監督,U – 無監督,M – 元,Z – 其他,

2016 % used:2016年調查中使用該算法的受訪者比例

2011 % used:2011年調查中使用該算法的受訪者比例%Change:變動 (%2016 / %2011 – 1)

Industry Affinity:產業親切度(上文已提到)

 

 

來源:大數據雜談  作者:劉志勇

相關焦點

  • 10大機器學習算法,看懂你就是數據科學家
    想成為數據科學家?你得是個博聞強識,又對新鮮事物保持好奇心的人。正因為如此,數據科學家會掌握幾乎所有的常見算法,並精通其中一門,這樣可以快速適應新領域的問題。今天我們就來聊聊,每一位數據科技家都應該了解的10大機器學習算法。
  • 算法工程師和數據科學家處理大規模的交易數據
    這一次,終於可以搭建一個三個多月的長期服務,來幫助新入門的開發者更快學習自動駕駛。人工智慧並不是計算機科學的延伸,但藉助人工智慧來讓機器達到真正的自主性,是前沿技術探索的目標。基於深度學習的自動駕駛方法,不僅能改善開發人員在交通中的控制,同時也能解決路況複雜情況下的駕駛難題。
  • 深度剖析:數據科學家需懂的5種聚類算法
    在數據科學中,我們可以使用聚類分析,通過在應用聚類算法時查看數據點落入哪些組,從數據中獲得一些有價值的見解。今天,我們將看看數據科學家需要知道的5種流行的聚類算法以及它們的優缺點!  K均值(K-Means)聚類  K-Means可能是最知名的聚類算法。它在很多介紹性的數據科學和機器學習課程中都有教過。
  • 我們到底該如何學習《數據結構與算法》
    前言:我們到底該不該學習算法與數據結構?1、真的應該學習這個問題本身就不是個問題,所有人都在強調數據結構與算法比較重要,但是好像平時也沒用到,無法直觀的去感受它的重要性,於是把學習重心放在了常見的哪些框架身上,似乎只要熟悉了哪些框架的API,編程就會所向披靡。
  • 數據科學家們必須知道的5種聚類算法
    聚類是一種無監督學習方法,也是一種統計數據分析的常用技術,被廣泛應用於眾多領域。在數據科學中,我們可以通過聚類算法,查看數據點屬於哪些組,並且從這些數據中獲得一些有價值的信息。今天,我們一起來看看數據科學家需要了解的5種流行聚類算法以及它們的優缺點。
  • 數據科學家應該知道的頂級機器學習算法
    按學習風格分組的機器學習算法算法可以用多種方式對問題進行建模,因為它涉及與體驗的交互。但是,無論我們要如何調用輸入數據都沒有關係。而且,算法在機器學習和人工智慧中很流行教科書。也就是說,首先要考慮一種算法可以適應的學習方式。通常,機器學習算法只能具有幾種主要的學習方式。而且,我們還將通過它們。另外,我們很少有適合他們的算法和問題類型的例子。
  • 微軟、優步,老工程師告訴你哪些數據結構和算法最重要
    值得肯定的,所有這些都出自他的第一手經驗,藉此希望表達他的觀點,即通用數據結構和算法知識並不只是「為了面試」,而是你在快速成長的創新型科技公司工作時,可能會經常遇到的東西。Gergely Orosz 表示自己曾經用過非常小的算法子集,但幾乎包含了所有的數據結構。
  • 最新出爐——數據科學家最常使用的十大算法
    基於調查,KDnuggets總結出了數據科學家最常使用的十大算法,它們分別是:我們注意到幾乎所有人都在使用監督學習算法。政府和工業界數據科學家比學生或者學術研究院使用更多不同的算法,而且工業界數據科學家更傾向於使用元算法。下面,我們繼續通過僱員的類型來分析最流行的10個算法和深度學習。
  • 清華機器學習科學家李建:如何用深度學習來解析時空大數據?
    李建,清華大學交叉信息研究院助理教授、杉數科技科學家,美國馬裡蘭大學博士、國內機器學習領域最頂尖的前沿科學家之一,國際學術會議VLDB 2009和ESA 2010最佳論文獎獲得者,清華211基礎研究青年人才支持計劃以及教育部新世紀人才支持計劃青年學者,主要研究方向為算法設計與分析、機器學習與深度學習、隨機優化與組合優化等。
  • 英國科學家開發機器學習新算法 已用其確認50顆系外行星
    新機器學習算法確認50顆系外行星據物理學家組織網25日報導,英國科學家開發出一種新的機器學習算法,已用其確認了50顆系外行星。這是天文學家首次使用機器學習技術分析潛在行星樣本,並確定哪些是真實的,哪些是「假」或假陽性,從而計算出每顆候選行星為一顆真正行星的概率。最新研究結果發表於《皇家天文學會月刊》上,該研究還首次對此類行星驗證技術進行了大規模比較。研究人員表示,他們的結論為未來使用多種驗證技術(包括他們的機器學習算法)統計並確認系外行星的發現提供了堅實基礎。
  • 英國科學家開發新算法,「第二地球」不遠了
    一直到今天,每一年都有幾十顆系外行星被發現,其中也有很多被科學家們選定是「第二地球」的候選者。 在尋找系外行星的道路上,不僅讓人類對於宇宙有了更深刻的了解,同時,也證明太陽系在浩瀚的宇宙中不過是一粒塵埃,就連太陽系所在的銀河系之中,恆星系統也要以「億」為單位來計算。
  • 英國科學家開發新算法,「第二地球」不遠了
    一直到今天,每一年都有幾十顆系外行星被發現,其中也有很多被科學家們選定是「第二地球」的候選者。在尋找系外行星的道路上,不僅讓人類對於宇宙有了更深刻的了解,同時,也證明太陽系在浩瀚的宇宙中不過是一粒塵埃,就連太陽系所在的銀河系之中,恆星系統也要以「億」為單位來計算。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。一、數據科學家的主要職責  數據科學家主要職責:與有關部門一起定義要解決的問題;獲取數據(使用SQL);探索性的數據分析、特徵工程、模型構建、預測(使用Python、Jupyter Notebook、各種算法);根據工作場景,將代碼編製成.py文件和/或用於部署的模型。實施自動化統計的行業,使用各種模型來進行分類和預測。
  • 凱西·奧尼爾:盲目信仰大數據的時代必須結束 | 算法密碼
    如今這已成為一股世界性潮流:在中國,北京等一線城市也啟用算法和大數據來協助降低犯罪率。「它們看上去足夠高效,也足夠公平。」凱西說,「起碼從表面上看,它們只是預測事情,而不會考慮人種、種群等因素。」讓人類保留最後一步算法取得裁決地位的領域在不斷增多,除了上述的教育和執法領域外,金融、法律、資訊、招生、求職、個人信用等都相繼被圈進其權力範圍。締造者的初衷本不值得懷疑——要擺脫人腦的偏見和運算短板,用算法、模型、機器學習重塑一個更加客觀的世界。
  • <人人都是數據科學家>從新開始用Python學習數據科學P4
    上周一<人人都是數據科學家>P3篇大家學習如何用Pandas在Python中進行探索型數據分析。P4篇讓我們來探索各種變量的分布吧!PS :下載項目案例數據方法 如下:您可以在我們官方公眾號「金科應用研院」-「在線學習」平臺-"深度閱讀專區"下載數據集。
  • 美科學家研究一種新算法來分析——解析夢境
    據《科學》網站近日報導,美國諾基亞貝爾實驗室的科學家建立了一種新算法來分析人的夢境,並通過機器自動分析了來自「夢境銀行」(DreamBank.net)網站的24000份數據,證實了這種算法的有效性。該成果如被應用於心理學領域,可以通過定性、定量地分析夢境中的角色、交互關係和情感,來幫助心理學家快速判斷做夢者的潛在壓力源和心理健康問題。
  • 吳信東:數據挖掘算法的經典與現代
    作者 | 蔣寶尚編輯 | 叢 末6月6日,中國計算機學會(CCF)主辦的中國計算機學會青年精英大會(CCF YEF)在線上舉行,在「經典流傳的機器學習與數據挖掘算法」技術論壇上,明略科技首席科學家、明略科學院院長吳信東;UCLA 副教授孫怡舟;微軟雷蒙德研究院高級研究科學家東昱曉;CCF高級會員、清華大學計算機系長聘副教授朱軍;CCF高級會員、
  • 大數據招聘,我就這樣被算法選中
    他們的工作屬於大數據的範疇,大數據就是利用計算機來收集和分析各種各樣的信息,執行許許多多的任務,不管是推薦圖書、在網站上投放有針對性的廣告,還是預測治療效果或股票價格。 讓算法幫你,發現那些未被人發現的人才近來,越來越多的學者和企業家將大數據應用在人力資源管理和人才搜尋的過程中,創建了一個叫做勞動力科學的新領域。
  • 圖解:數據科學家、數據工程師和軟體工程師之間的區別
    他還繪製了一張工具圖,來呈現他們在日常工具使用上的不同。對於新手,也可以通過這張圖來看典型的「數據科學家」、「數據工程師」和「軟體工程師」都要掌握哪些工具。Jake Stein:隨著數據的爆炸式增長,對數據處理的專家技能需求也隨之井噴。這帶來的結果之一,是更精細的分工。
  • 20世紀最偉大的算法有哪些呢?
    20世紀最偉大的算法有哪些呢?作為一名數據分析師,經常會用到一些算法,這些算法為日常的工作帶來了很大的便利。本文介紹了經典算法,一起來看看有沒有你熟悉的吧~蒙特卡洛方法統計模擬方法蒙特·卡羅方法,也稱統計模擬方法,是二十世紀四十年代中期由於科學技術的發展和電子計算機的發明,而被提出的一種以概率統計理論為指導的一類非常重要的數值計算方法。