機器之心報導
作者:蛋醬、魔王
近日,Kaggle 正式發布了 2020 年度報告,總共調查了 2 萬多名開發者,但美國實體清單上的個人 / 實體代表除外。
Kaggle 是重要的數據建模和數據分析競賽平臺。近日,Kaggle 發布了第四次年度報告,試圖從中一窺社區趨勢。該調查涉及 20036 名 Kaggle 會員,此報告主要聚焦其中當前職位為「數據科學家」的受訪者,約佔 13%(2675 名)。
值得注意的是,想要成為參與調查並獲得所設獎項,必須滿足以下條件:
年滿 18 歲(或滿足你所居住地區的成年年齡);不是克裡米亞、古巴、伊朗、敘利亞、朝鮮或蘇丹的居民;不是受美國出口管控條例制裁的個人 / 實體代表。因此,這份報告可能會缺少相當一部分來自中國的 Kaggle 數據科學家的情況。
在眾多回答中,Kaggle 總結了以下要點:
群體畫像
數據科學領域仍然存在嚴重的性別不均衡,大部分從業人員為男性;大部分數據科學家年齡在 35 歲以下;過半數據科學家有碩士學位。教育和僱傭情況
大多數數據科學家在正式教育之外繼續學習;大多數數據科學家碼齡不超過十年;過半數據科學家具備三年以下的機器學習經驗;美國的數據科學家比其他國家的同行掙更多錢。技術
與 2019 年的調查結果相比,2020 年更多的數據科學家使用雲計算;scikit-learn 是 2020 年最流行的機器學習工具,超過五分之四的數據科學家使用 scikit-learn;Tableau 和 PowerBI 是最流行的商業智能工具。下面,我們來看每個層面的具體細節。
數據科學家群體畫像
性別
數據科學領域仍然存在較大的性別差距,82% 為男性,相比去年的 84%,略有下降。
年齡
與去年的調查結果類似,數據科學家多為 30 歲左右,約 60% 的受訪者年齡在 22-34 歲,只有 1/5 的職業數據科學家是 40 歲及以上。
國家
在本次報告中,印度開發者所佔的比例最多(21.8%),美國緊隨其後(14.5%),再往下是巴西和英國。
教育
高等教育
數據科學家大多有碩士學位,68% 獲得了碩士或博士文憑,不到 5% 的學歷在高中及以下。
終生學習
數據科學和機器學習是快速變化的領域,90% 以上的 Kaggle 數據科學家保持終生學習的習慣。其中約 30% 接受的是傳統高等教育課程,更多是通過線上材料學習。線上學習渠道中最常用的媒介是 Coursera、Udemy 和 Kaggle Learn。受訪者中很多數據科學家選擇多個學習渠道,平均數量為 2.8。
數據科學和機器學習經驗
編程經驗
大多數 Kaggle 數據科學家都有編程經驗。有 20 年以上編程經驗的數據科學家僅有大約 8%,去年才開始編程的數據科學家佔比約 9%。只有不到 2% 表示自己從未寫過代碼。
與全球受訪者相比,美國數據科學家的編程經驗要多得多。在美國,編程經驗超過 10 年的佔比 27%,而全球範圍內這一比例僅為 22%。
機器學習經驗
大多數 Kaggle 數據科學家都是機器學習領域的新手。約 55% 的數據科學家機器學習經驗不到三年,具備十年及以上機器學習經驗的數據科學家佔比不到 6%。
薪資水平
調查結果顯示,在國家 / 地區的最常見工資中,美國公司可能支付的金額更高,德國和日本緊隨其後。地區差別是存在的,比如來自印度的受訪群體 90% 表示年收入不足 5 萬美元,美國公司最有可能支付六位數的薪水。
技術
交互開發環境
基於 Jupyter 的 IDE 仍然是數據科學家的首選工具,大約 75% 的 Kaggle 數據科學家都在用它,但與去年的 83% 相比有所下降。VS Code 位居第二,僅佔約 33%。這是它與 Visual Studio 分離的第一年,兩者今年合計佔比超過 43%,而 2019 年不足 30%。
方法 & 算法
數據科學家最常用的算法是線性回歸和 logistic 回歸,緊隨其後是決策樹和隨機森林。在更加複雜的方法中,梯度提升和卷積神經網絡是最受歡迎的方法。
基於 Python 的工具仍然在機器學習框架這一項上佔據主導,從統計結果可以看出,scikit-learn 適用於大部分項目,82.8% 的數據科學家都在使用它。各有 50% 左右的數據科學家使用過 TensorFlow 和 Keras,尤其是用於深度學習項目之中。
梯度提升庫 xgboost 排名第四,使用率和 2019 年相似。排名第五的 PyTorch 從 2019 年的 26% 左右上升到了 30% 以上。在今年的調查中,最受歡迎的工具是基於 R 的 Tidymodels,佔比達到 7% 以上。
企業雲計算
這個領域有三個主要成員(不難猜),它們是 AWS、谷歌雲平臺、微軟 Azure。值得注意的是,越來越多的數據科學家開始採用全部上雲的方式。在 2019 年的調查中,大約 25% 的人沒有使用雲計算,但在 2020 年,這一比例下降到了 17%。
在雲服務用戶中,如果問到他們使用的特定產品,最常見的答案是計算雲伺服器,其次是無伺服器技術,約有五分之一的人未提到雲產品。
在使用 AWS 等雲服務的用戶中,有一半以上表示自己沒有使用雲上的機器學習工具,而使用的群體中,Amazon SageMaker 是最受歡迎的選項,其次是 Google Cloud AI/ML。
企業大數據
在資料庫方面,數據科學家並沒有明顯的偏好。最常被提及的是 MySQL(35.6%),其次是 PostgreSQL (28.86%) 和 SQL Server (24.93%)。
報告連結:https://www.kaggle.com/c/kaggle-survey-2020