(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)
網際網路創業方興未艾,人工智慧的浪潮又接踵而來,而貫穿其中的數據科學則在這更迭交替中顯得愈發重要。近日,全球最大的數據平臺 Kaggle 向約 16000 名數據科學領域的從業者發放了調查問卷,就薪資水平、人員構成和使用工具等行業問題進行了詳細的歸納和總結,最後以報告的形式分享給大家。對數據科學感興趣或有志於進入這一行業的朋友可以從中一探究竟。
數據科學從業者畫像
年齡:平均年齡為 30 歲,但國家間略有不同,例如印度的平均年齡就比澳大利亞年輕了9歲,而中國受訪者的平均年齡為 25 歲。
工作狀態:受訪者中有全職工作的佔 65.7%,正在找工作的佔 12.7%。而在中國,這兩個數字分別為 53.5% 和 17%。
職位:數據科學領域的工作劃分非常繁雜,比如在伊朗和馬來西亞,最普遍的頭銜是「科學家」或「研究員」,而在中國,最流行的頭銜則是「機器學習工程師」。
年薪:全球數據科學從業者的平均年薪是 55441 美元,美國的數據科學從業者平均薪資最高,達 11 萬美元,而這一數字在中國只有 29835 美元(或許和樣本數量較少有關)。
學歷:數據科學從業者中比例最高的是碩士,但博士的薪水顯然更高。
數據科學從業者工作內容
數據科學方法使用:邏輯回歸是數據科學從業者在工作之中最常用的數據科學方法,但在軍事和國家安全領域,使用更多的則是神經網絡。
語言使用:Python 依舊是數據科學家最常用的語言,而 R 語言也很流行。
數據類型:關係型數據是開發者在工作中最常用的數據類型,而在學術研究和國防安全領域,文本型數據使用的更多。
代碼分享:58.4% 的受訪者在工作中使用 Git 分享他們的代碼。但大公司中的開發者更傾向於使用電子郵件來分享他們的代碼,而創業公司則對雲的方式情有獨鍾。
工作障礙:髒數據(dirty data)顯然又名列榜首。通俗的講,當一個事務正在訪問數據,並且對數據進行了修改,而這種修改還沒有提交到資料庫中,這時,另外一個事務也訪問這個數據,然後使用了這個數據。因為這個數據是還沒有提交的數據,那麼另外一個事務讀到的這個數據是髒數據,依據髒數據所做的操作可能是不正確的。
數據科學新手入行
語言選擇:數據顯示 Python 和 R 語言依舊是推薦程度最高的兩種語言,而 Python 的受追捧程度又是 R 語言的兩倍之高。
學習資源:數據科學是一個快速變化的領域,不斷的學習已經成為了一種必需的技能,而目前行業內的人會更多通過 Stack Overflow Q&A,Conferences 和 Podcasts 來進行學習。除此以外,官方的文檔和觀看 Youtube 視頻也不失為有效地學習途徑。
開源數據獲取:dataset aggregators、https://www.kaggle.com/datasets
找工作:首選方法是直接聯繫招聘者或建立自己的人脈網絡
報告下載:https://www.kaggle.com/surveys/2017
調查數據下載:https://www.kaggle.com/kaggle/kaggle-survey-2017
作為一個集合社群、競賽、用數據解決問題三個核心於一身的平臺,不論是企業、某個領域的研究組織、甚至是政府機構,都可以把數據集(dataset)跟想要解決的問題丟到 Kaggle 上去,請數據專家來幫忙解答。
從另一個角度來看,Kaggle 上聚集了眾多對機器學習、人工智慧有興趣的人,包括數據科學家、統計高手、工程師或者是學生,他們利用數據採礦、深度學習、統計等方式搭建出解答問題的模型或算法,勝出者就有機會獲得禮品、獎金或是工作機會,當然也有不少參加比賽的人是純粹出自興趣。
例如,全球最大衛星影像公司 Planet,主要是透過衛星影像監控亞馬遜雨林的變化,但他們發現還是有些問題無解,例如無法分辨雨林的減少是人為造成還是自然因素,所以在 Kaggle 上舉辦比賽,希望可以有更好的算法來保護亞馬遜雨林,吸引了不少關注生態議題的人參與。
正因為 Kaggle 上高手雲集,吸引不少大型企業、機構都到此舉辦比賽,比如Google、Facebook、Airbnb、沃爾瑪、Benz、Bosch、英特爾、西班牙國際銀行(Santander)、歐洲量子物理研究所(CERN)等,而且獎金額度更已有突破百萬美元等級的案例。
圖丨Kaggle上獎金排名前五的競賽
Kaggle 創始人 Anthony Goldbloom 在澳洲墨爾本大學畢業後,曾經在《經濟學人》雜誌當過實習記者,之後進入澳洲聯邦政府財政部(Australian Treasury)、澳洲儲備銀行(RBA)擔任經濟計量學家。當時他就預見數據科學將在未來扮演重要的角色,就在澳洲曾建立了一個數據科學家的線上社群。但他心想,為何不把數據開放,讓大家通過比賽的方式找到最好的算法?
圖丨Kaggle 創始人 Anthony Goldbloom
所以,他把公司搬到矽谷從而創立了 Kaggle,依靠社群成功累積了龐大的用戶, Goldbloom 在接受澳洲媒體採訪時表示,「Kaggle 今日已經擁有一百萬用戶,未來幾年還會成長十倍甚至百倍,因為這個領域的人才需求缺口還很大。」他曾被評為 2013 年《麻省理工科技評論》全球 35 歲以下青年科技創新人士,而 Kaggle 在今年加入 Google,更是近年創業領域的成功範例。
然而,想要參與到 Kaggle 的比賽中卻並非易事,因為一道道挑戰題目都難度極高。而 DT 君通過對競賽命題人、Kaggle 數據科學家甘志雯(Wendy Kan)的專訪,也了解到整個比賽的流程。
圖丨甘志雯
舉例來說,當企業或機構單位想要在 Kaggle 舉辦比賽,會先接觸到 Kaggle 類似產品經理角色的人員展開初步溝通,合作共識達成後,就會開始由數據科學家接手。他們與企業溝通,理解對方想要解決什麼樣的問題、擁有什麼樣的數據、怎麼衡量模型的效益、評價指標有哪些等等。
所以客戶會將龐大的數據交給甘志雯,她必須在很短的時間內熟悉這些數據,並且設計出適合這份數據的比賽規則和目標。
但她經常會遇到客戶說:「這些數據很機密,但我又很想辦這比賽,怎麼辦?」所以就要得幫他們想出適當的方法。直到雙方都認同後,就會把數據整合為比較乾淨的模式,也就是數據清理(Data Cleansing),去除錯誤或不一致的數據。最後再把這些數據放到 Kaggle 平臺上讓使用者取用。一般 Kaggle 上的比賽賽程最多是 2~3 個月,參賽者必須在期間內遞交自己設計的算法。
圖丨甘志雯在演講
對於身為一個出考題的人,在採訪時 DT 君問她:有沒有什麼可以在 Kaggle 贏高分的秘技?甘志雯說,「多學, 就算你很有經驗也不一定會贏。」多參加比賽、多在 Kaggla 或社群平臺與其他人交流,另外網絡上有不少課程可以利用,多上且多聽。
她認為,數據科學一直都存在於日常生活中,過去,可能是統計學家或IT人員才會使用,不過近年隨著科技的進步,電腦的計算能力進步很多,再加之網絡的普及,大家可以比以前更容易地獲取數據並進行分析。