2020 Kaggle年度報告發布:90%數據科學家堅持終生學習

2020-12-24 機器之心Pro

機器之心報導

作者:蛋醬、魔王

近日,Kaggle 正式發布了 2020 年度報告,總共調查了 2 萬多名開發者,但美國實體清單上的個人 / 實體代表除外。

Kaggle 是重要的數據建模和數據分析競賽平臺。近日,Kaggle 發布了第四次年度報告,試圖從中一窺社區趨勢。該調查涉及 20036 名 Kaggle 會員,此報告主要聚焦其中當前職位為「數據科學家」的受訪者,約佔 13%(2675 名)。

值得注意的是,想要成為參與調查並獲得所設獎項,必須滿足以下條件:

年滿 18 歲(或滿足你所居住地區的成年年齡);不是克裡米亞、古巴、伊朗、敘利亞、朝鮮或蘇丹的居民;不是受美國出口管控條例制裁的個人 / 實體代表。因此,這份報告可能會缺少相當一部分來自中國的 Kaggle 數據科學家的情況。

在眾多回答中,Kaggle 總結了以下要點:

群體畫像

數據科學領域仍然存在嚴重的性別不均衡,大部分從業人員為男性;大部分數據科學家年齡在 35 歲以下;過半數據科學家有碩士學位。教育和僱傭情況

大多數數據科學家在正式教育之外繼續學習;大多數數據科學家碼齡不超過十年;過半數據科學家具備三年以下的機器學習經驗;美國的數據科學家比其他國家的同行掙更多錢。技術

與 2019 年的調查結果相比,2020 年更多的數據科學家使用雲計算;scikit-learn 是 2020 年最流行的機器學習工具,超過五分之四的數據科學家使用 scikit-learn;Tableau 和 PowerBI 是最流行的商業智能工具。下面,我們來看每個層面的具體細節。

數據科學家群體畫像

性別

數據科學領域仍然存在較大的性別差距,82% 為男性,相比去年的 84%,略有下降。

年齡

與去年的調查結果類似,數據科學家多為 30 歲左右,約 60% 的受訪者年齡在 22-34 歲,只有 1/5 的職業數據科學家是 40 歲及以上。

國家

在本次報告中,印度開發者所佔的比例最多(21.8%),美國緊隨其後(14.5%),再往下是巴西和英國。

教育

高等教育

數據科學家大多有碩士學位,68% 獲得了碩士或博士文憑,不到 5% 的學歷在高中及以下。

終生學習

數據科學和機器學習是快速變化的領域,90% 以上的 Kaggle 數據科學家保持終生學習的習慣。其中約 30% 接受的是傳統高等教育課程,更多是通過線上材料學習。線上學習渠道中最常用的媒介是 Coursera、Udemy 和 Kaggle Learn。受訪者中很多數據科學家選擇多個學習渠道,平均數量為 2.8。

數據科學和機器學習經驗

編程經驗

大多數 Kaggle 數據科學家都有編程經驗。有 20 年以上編程經驗的數據科學家僅有大約 8%,去年才開始編程的數據科學家佔比約 9%。只有不到 2% 表示自己從未寫過代碼。

與全球受訪者相比,美國數據科學家的編程經驗要多得多。在美國,編程經驗超過 10 年的佔比 27%,而全球範圍內這一比例僅為 22%。

機器學習經驗

大多數 Kaggle 數據科學家都是機器學習領域的新手。約 55% 的數據科學家機器學習經驗不到三年,具備十年及以上機器學習經驗的數據科學家佔比不到 6%。

薪資水平

調查結果顯示,在國家 / 地區的最常見工資中,美國公司可能支付的金額更高,德國和日本緊隨其後。地區差別是存在的,比如來自印度的受訪群體 90% 表示年收入不足 5 萬美元,美國公司最有可能支付六位數的薪水。

技術

交互開發環境

基於 Jupyter 的 IDE 仍然是數據科學家的首選工具,大約 75% 的 Kaggle 數據科學家都在用它,但與去年的 83% 相比有所下降。VS Code 位居第二,僅佔約 33%。這是它與 Visual Studio 分離的第一年,兩者今年合計佔比超過 43%,而 2019 年不足 30%。

方法 & 算法

數據科學家最常用的算法是線性回歸和 logistic 回歸,緊隨其後是決策樹和隨機森林。在更加複雜的方法中,梯度提升和卷積神經網絡是最受歡迎的方法。

基於 Python 的工具仍然在機器學習框架這一項上佔據主導,從統計結果可以看出,scikit-learn 適用於大部分項目,82.8% 的數據科學家都在使用它。各有 50% 左右的數據科學家使用過 TensorFlow 和 Keras,尤其是用於深度學習項目之中。

梯度提升庫 xgboost 排名第四,使用率和 2019 年相似。排名第五的 PyTorch 從 2019 年的 26% 左右上升到了 30% 以上。在今年的調查中,最受歡迎的工具是基於 R 的 Tidymodels,佔比達到 7% 以上。

企業雲計算

這個領域有三個主要成員(不難猜),它們是 AWS、谷歌雲平臺、微軟 Azure。值得注意的是,越來越多的數據科學家開始採用全部上雲的方式。在 2019 年的調查中,大約 25% 的人沒有使用雲計算,但在 2020 年,這一比例下降到了 17%。

在雲服務用戶中,如果問到他們使用的特定產品,最常見的答案是計算雲伺服器,其次是無伺服器技術,約有五分之一的人未提到雲產品。

在使用 AWS 等雲服務的用戶中,有一半以上表示自己沒有使用雲上的機器學習工具,而使用的群體中,Amazon SageMaker 是最受歡迎的選項,其次是 Google Cloud AI/ML。

企業大數據

在資料庫方面,數據科學家並沒有明顯的偏好。最常被提及的是 MySQL(35.6%),其次是 PostgreSQL (28.86%) 和 SQL Server (24.93%)。

報告連結:https://www.kaggle.com/c/kaggle-survey-2020

相關焦點

  • kaggle grandmaster 專訪:不要被太多資源分心,最好的學習方法是...
    我意識到 kaggle Kernel 是任何試圖學習和實踐數據科學的人最有價值的工具之一。Shivam 的 Kernel 主頁2018 年 4 月,我參加了由 Donorschoose、Kaggle 和 Google 組織的「數據科學的良好競爭」活動。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
  • 大氣所等發布全球海洋變暖2020年度報告
    全球海洋變暖2020年度報告發布 2021-01-15 大氣物理研究所 海洋研究所 【字體:大 中 小】 ,發布了國際上第一份涵蓋2020整年的全球海洋環境(溫鹽)變化研究報告。
  • 小米移動發布報告 套餐榮獲2020年度「人氣王」
    小米移動發布了2020小米移動年度報告。報告顯示,截止到2020年底,小米移動流量使用環比增長25%。其中學生群體全年人均使用流量達165GB,是小米移動用戶流量消費的主力軍。此外,小米移動「吃到飽」套餐榮獲2020年度「人氣王」。
  • Kaggle Grandmaster 的 NLP 方法
    數據科學新手 Dean Sublett 和數據科學家,Kaggle Grandmaster Abhishek 進行了交流,並寫了一篇關於他的 kaggle Kernel 的文章,AI 開發者編譯整理。
  • 高德地圖發布2020年度交通報告
    近日,高德地圖發布的《2020年度中國主要城市交通分析報告》首次對外發布「全國十大熱門上班路」榜單,其中北京市「龍域西一路-西二旗北路-後廠村路」駕車上班熱度最高,排名第一,報告還顯示,2020年全國主要城市交通擁堵同比2019年下降2.5%。
  • 新東方國際教育培訓發布《2020-2021年度報告》,獨家解析2021留學...
    2020年12月25日,新東方國際教育培訓中心發布《2020-2021國際教育年度報告》,旨在通過對全年留學考試情況分析,為廣大考生提供科學專業的備考建議及留學規劃。
  • 抖音發布2020數據報告
    1月5日,抖音發布《2020抖音數據報告》(以下簡稱「報告」)。數據報告從用戶表達、內容價值等多個維度,展現了過去一年抖音的變化。報告披露,截止2020年12月,抖音日均視頻搜索量突破4億。
  • 數據科學入門前需要知道的10件事
    成為數據科學家的規劃路線是什麼?我應該選什麼課程來學習數據科學?對於未知的學科,琳琅滿目的學習資源,美好的工作機會,應該怎樣去努力?本文作者是研究數據挖掘和生物醫學方向,目前就職於泰國的一所研究大學的全職生物信息學副教授。
  • 《2019-2020年度黑龍江省旅遊產業發展報告》發布
    30日,由黑龍江省文化和旅遊廳指導,黑龍江省旅遊投資集團主辦,黑龍江文旅規劃設計研究院編制,攜程研究院文旅研究中心支持,共同編撰而成的《2019-2020年度黑龍江省旅遊產業發展報告》(以下簡稱《報告》)首次重磅發布。《報告》的發布填補了黑龍江省旅遊產業系統性基礎研究領域的空白,為社會各界了解黑龍江省文化和旅遊發展情況提供了重要參考。
  • 加拿大《2020年度移民報告》新鮮發布
    2020年10月30日,加拿大政府發布了《2020年度移民報告》。 發布此報告是為了向國會和公眾提供加拿大最新移民動態的概述。
  • 國際研究團隊發布全球海洋變暖2020年度報告
    1月13日,由中國科學院大氣物理研究所牽頭,聯合全球13個研究單位的20位科學家組成的國際研究團隊,發布了國際上第一份涵蓋2020整年的全球海洋環境(溫鹽)變化研究報告。報告指出,2020年海洋升溫持續,成為有現代海洋觀測記錄以來海洋最暖的一年;海洋「鹹變鹹,淡變淡」的鹽度變化態勢加劇,海水垂向層化持續加強。全球變暖90%以上的熱量被海洋吸收,海洋熱含量成為判斷全球是否變暖的最佳指標之一。
  • 年終盤點:2020中國結婚產業「數據報告」
    精選美團、騰訊、婚禮紀等眾多平臺,以及結婚產業觀察出品的20份數據報告,供同學們參考學習,你一定用得上!2020年,行將閉合。這一年,我們經歷了太多以往無法想像的事件。《結婚產業觀察》作為行業風向標,持續記錄著行業變化,似乎對2020年更加深有體會。它承載著結婚行業的2020、婚禮宴會人的2020。
  • 同程旅行發布2020年度國內居民旅行消費報告
    同程旅行發布了《2020年度國內居民旅行消費報告》,《報告》數據顯示,2020年前10個月民航、鐵路客運的恢復速度相對較快,9月份後均恢復到了2019年同期的85%以上。同時,受國際疫情形勢影響,國際航班量大幅減少,居民國際旅行需求大幅萎縮,旅行消費開啟「內循環」模式。
  • 想在Kaggle中脫穎而出?先聽聽這位GrandMaster怎麼說
    選自Medium作者:Sanyam Bhutani機器之心編譯參與:Geek AI、張倩本文作者 Sanyam Bhutani (https://hackernoon.com/@init_27) 是一名機器學習和計算機視覺的自由職業者、數據科學家。
  • 抖音發布2020數據報告:日活躍用戶突破6億,湖南省新化縣入選獲贊最...
    1月5日,抖音發布了《2020抖音數據報告》。報告披露,截止2020年12月,抖音日均視頻搜索量突破4億,湖南省新化縣入選獲贊最多縣城top10。
  • 抖音發布2020數據報告 日均視頻搜索量破4億
    1月5日,抖音發布《2020抖音數據報告》(以下簡稱「報告」)。報告從用戶表達、內容價值等多個維度,展現了過去一年抖音的變化。報告顯示,截至2020年12月,抖音日均視頻搜索量突破4億。
  • 新東方在線聯手萬事達卡發布《2020-2021出國考試年度報告》
    2020年12月18日,新東方在線聯合萬事達卡發布《2020-2021出國考試年度報告》(下稱《報告》),深度解析留學考試新變革,精準預測考試新動向,為廣大學生提供指導性方向和建議。《報告》由新東方在線近百位優秀教師歷時100天編寫,通過調研數萬名學員的考試實際情況,結合考試的基本政策信息和全新的政策變化進行全面分析,同時由新東方教研中心的優秀教師向考生們分享備考建議。
  • 參賽3年,斬獲6金3銀2銅:Kaggle Grandmaster親授實戰經驗
    學新東西還得靠外部驅動,像在 kaggle 打 image,nlp,或是 moculer 這種圖形結構數據比賽的時候,不管是 github 還是 kaggle 論壇,能學習參考的代碼主要都是 pytorch,這就逼自己去學習了,但首先是得自己渴望拿個好名次。也可以用工作或者發表的動力,比如做一個 pytorch 的項目展示給同事或者學習夥伴們,反正感覺都得狠狠逼自己一回。
  • 大師也作弊,昔日Kaggle Grandmaster面臨終身禁賽,僱主:此人今後與...
    於是乎,Kaggle 源源不斷地吸引了成千上萬的開發者來參加競賽,許多數據科學家在 Kaggle 上投入了大量的時間和精力。在諸如機場安全、衛星數據分析這類的任務上,不乏數十年經驗的優秀團隊加入比賽。在機器學習愛好者們心中,Kaggle 是一個燈塔般的存在。