數據科學家成長指南:從入門到被逼瘋

2021-02-25 新智元


來源:Medium

編輯:元子

【新智元導讀】人工智慧的火爆帶動了對數據科學家的大量需求。看到急缺的崗位和高薪,誰能不動心呢?可是你確定想好要成為一名數據科學家了嗎?你知道成為一名DS,需要具備什麼技能嗎?那就請準備好,下面我們要開車了!

 

你可能已經從媒體鋪天蓋地的報導中,了解到數據科學家這個抬頭非常火。

根據UiPath數據顯示,2018年12113個崗位爭奪AI人才,數據科學家需求量排名第二。

於是很多人萌生了入行、或者轉行做數據科學家的念頭。那麼接著就帶來一個問題:如何成為一名數據科學家呢?

接下來,由《Getting Started with SQL》(O』Reilly)和《Learning RxJava》(Packt) 二書的作者、美國西南航空的企業顧問Thomas Nield,獻上這份《2019年數據科學家成長指南》。

廢話不多說,馬上進入戰鬥。

不要把工作後寶貴的時間,浪費在考證上。「數據科學」不過是「商業分析」的一個分支,而且通常學校的知識總是和當前的科技前沿脫節。如果真的想學建議去Coursera或者可汗學院自學。

當然,證書多了終歸是好事嘛。如果你非要去學校考證,建議考物理或者運籌學的研究生。我了解到很多一流的數據科學家,基本都是這倆專業畢業的。

花個幾年時間研究生畢業後,明天就會更好?反正有個數據科學初創公司的創始人說:

博士學歷不重要;碩士學歷無可無不可;學士畢業必須有,因為用人單位最低要求就是大學畢業。

https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253

Round 2:成為一個數據科學家真的需要了解這麼多領域嗎?

這是一張6年前的圖,裡面甚至連TensorFlow都沒有。

而且我覺得,數據科學發展到現在,已經非常碎片化和細分化了。根本沒必要搞的這麼複雜。

Round 3:我應該學哪門語言呢?需要從Linux入手嗎?

數據科學家是一個跨平臺物種,作業系統不重要。

語言的話,Scala早就過氣了,R解決數學問題非常爽,Python才是萬能的。一條Python在手,數據科學跟我走。

不過需要了解一些庫,類似Pandas用來處理數據幀,matplotlib用來創建圖表。

Round 4:學會Python很關鍵!學不會也沒關係

Python學起來超簡單。不過,你可能也不用非得學會Python。

作為人類,要善用工具。數據科學不止眼前的腳本和機器學習,還有遠方的數據可視化。這個時候顯然Tableau更好用,也更美觀。

Tableau

不過涉及到數據清洗、管理、轉換、加載等,就需要用到Alteryx了,滑鼠拖拽就能搞定。

新智元點評:所以買個Tableau就可以稱為數據科學家了?

從淘寶買個激活碼豈不是要變成二手科學家?

Round 5:明明靠Excel和PPT就能搞定,為什麼非要學Python呢?

首先,能為你的簡歷增加光環。

其次,之前也說過,Python簡直萬能。通過Jupyter notebook逐步完成每個數據分析階段,讓每一步都可視化,就像你正在創建一個可以與他人分享的故事。 

劃重點:畢竟,溝通和講故事才是數據科學的重要組成部分。

數據科學和軟體工程很大程度可以劃等號。不同之處在於,數據科學必須有數據,軟體工程就不一定了。

Wiki網頁是一個非常好的數據來源,抓取網頁並使用Beautiful Soup解析他們,就得到了大量非結構化文本數據。

非機構化數據才能激發我們的想像力,結構化數據只能固化我們的邏輯能力。

如今像谷歌Facebook這樣的大廠,擁有大量的非機構化數據,他們就像裁判一樣,「數據科學」的定義權掌握在他們手裡。剩下我們這些運動員,只好用無聊的SQL咯。

利用非結構化數據,大廠可以通過挖掘用戶內容、郵件、故事,用於廣告或者其他途徑。

而我們也可以利用非結構化數據,對社交媒體上的帖子進行,做一些NLP應用比如聊天機器人。

NoSQL更擅長存儲這類數據。但是對於數據科學家來說,NoSQL也不是必須要掌握的,除非做數據工程師。而且現在Apache Kafka比NoSQL更火,所以你也知道該學什麼了。

有的人可能不知道,數據科學家分為兩種角色。數據工程師使用生產系統並幫助使數據和模型可用;而數據科學家則負責機器學習以及數學建模。

這個時候,利用樸素貝葉斯算法,就可以去預測文本的分類。我打算建議從具有均值和標準差的正態分布開始。也許用z分數和線性回歸計算一些概率或兩個。

Round 7:學會線性代數很重要。不會的話……也行吧

傳統智慧認為線性代數是許多數據科學的基石,因此掌握線性代數很重要。將矩陣相乘和相加(稱為點積),將一直伴隨著你。

聽起來很無聊對吧,但這就是機器學習在做的事情。當你進行線性回歸或構建自己的神經網絡時,你將使用隨機權重值進行大量矩陣乘法和縮放。

不過實際上,你可能也不需要學習線性代數,因為有像TensorFlow和 scikit-learn這樣的框架和庫,幫你解決掉最枯燥乏味的線代部分。

呃,實際上,也別用TensorFlow,用Keras。

Round 8:棒。總之都能用Excel實現,所以會用Excel就可以被稱為數據科學家了?

機器學習通常在做兩個任務:回歸,或者分類。但技術上來說,分類就是回歸。

決策樹、神經網絡、支持向量機、邏輯回歸、線性回歸都執行某種形式的曲線擬合。

所以,我們也可以不負責任的說:機器學習只是回歸。神經網絡實際上只是具有一些非線性函數的多層回歸。圖像識別也是回歸。

因為這些優化問題已經在很長一段時間內得到了令人滿意的解決,而且這些方法在很早以前也沒太多人討論。

運籌學已經提供了許多機器學習使用的優化算法。同時也為常見「AI」問題提供了許多解決方案。

AI炒作重新點燃了機器學習及其解決的問題類型:圖像識別,自然語言處理,圖像生成等。

機器學習,深度學習…今天被炒作的任何東西,通常都不能解決離散優化問題,人們嘗試過,但效果非常不理想。

所以有人說深度學習是否已經達到了極限,AI寒冬又雙來了。

Round 10:AI玩遊戲已經超神,接下來會取代人類工作嗎?

首先我們要明確一點。人們已經找到了一些巧妙的回歸應用,例如計算圍棋和象棋最優移動(離散優化也可以做),或自動駕駛的汽車計算轉向的方向。 

但是,回歸只能將這麼多的應用組合起來,完成單一任務。

現在我們好好思考一下,你會擔心職業星際爭霸選手威脅到你的工作嗎?你覺得打星際,和你打Excel之間,有多少重疊的交集呢?

如果你連人類星際選手都不怕,你為什麼還怕一個回歸呢?AI玩星際再強,它也只會玩星際。

Round 11:一句話解釋什麼是數據科學家,讓你爺爺也能聽懂

數據科學的界限正在模糊。它可以是任何東西,也可以什麼都不是。成為數據科學家你需要掌握很多東西,但就算沒掌握也不會致命。

天哪❗️

不過幸好,這個世界上還是有人能說明白到底什麼是數據科學和數據科學家的。一句話解釋數據科學家:


數據科學家是比軟體工程師更懂統計、比統計學家更懂軟體工程的一個人。

所以,2019年,你還想做數據科學家嗎?


更多閱讀

【加入社群】

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2   入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 男演員要演蟲子 整日藏在沙發下睡覺鳴叫「逼瘋」妻子
    但是,一位為了沉浸到昆蟲角色中的男演員卻把妻子「逼瘋」了。   據英國《鏡報》12月23日報導,一名女子在社交平臺上講述了自己被丈夫「逼瘋」的故事,向網友徵求意見自己的做法是否太過分了。   該女子稱,她的丈夫是一名成功的演員,和許多一線明星合作拍電影。但由於新型冠狀病毒大流行,今年丈夫幾乎沒有工作。
  • 被陰雨「逼瘋」的南方人終於可以……
    被陰雨「逼瘋」的南方人終於可以…… 2020-12-19 21:59:15 來源:
  • 買家秀與賣家秀,令人佩服,賣家:快被逼瘋了,跪求刪圖
    賣家:快被逼瘋了,跪求刪圖奇葩買家秀:只能說這個太會玩兒,cosplay也不是這樣玩兒的,這迷之微笑也是醉了。真是讓人覺得慎得慌,連賣家看了也直呼快來救駕。奇葩買家秀:這張買家秀還算正常,只是女生胖了一些!所以說,女生一定要瘦了再穿裙子才好看的!賣家:快被逼瘋了,跪求刪圖奇葩買家秀:再看這套衣服,難道是專門為了顯示買家的肥臀嗎?多少有些辣眼睛。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。
  • 乾貨滿滿|不容錯過的數據科學入門數學指南
    作者 | Randall Hall 來源 | 機器之心 想要入行數據科學而又不知如何開始嗎?先看看這篇使用的數據科學入門數學指南吧!數學就像一個章魚:它的「觸手」可以觸及到幾乎所有學科。數據科學就屬於後者。如果你想從事數據科學工作,你就必須解決數學問題。如果你已經獲得了數學學位或其它強調數學技能的學位,你可能想知道你學到的這些知識是否都是必要的。而如果你沒有相關背景,你可能想知道:從事數據科學工作究竟需要多少數學知識?在本文中,我們將探討數據科學意味著什麼,並討論我們到底需要多少數學知識。讓我們從「數據科學」的實際含義開始講起。
  • 《漫漫長夜》故事模式新手入門指南
    《漫漫長夜》故事模式比起生存模式,該模式是新手上手遊戲的好選擇,其中包括了一些基礎教學,能讓玩家逐漸了解遊戲,下面小編就為大家帶來一篇「Donald」分享的故事模式新手入門指南,一起來看看吧。 《漫漫長夜》故事模式比起生存模式,該模式是新手上手遊戲的好選擇,其中包括了一些基礎教學,能讓玩家逐漸了解遊戲,下面小編就為大家帶來一篇「Donald」分享的故事模式新手入門指南
  • 老大爺養平頭哥做寵物,還沒3個月大爺快被逼瘋,什麼東西?
    老大爺養平頭哥做寵物,還沒3個月大爺快被逼瘋,什麼東西?來源:萌寵一家親 原標題:老大爺養平頭哥做寵物,還沒3個月大爺快被逼瘋
  • 有機體:入門級嬉皮士速成指南
    「有機體生存指南」覆蓋生活方方面面,它全方位無死角向我們展示了什麼是正經的生活方式。
  • 高小微:能把人逼瘋了!這道小學算術題,居然會讓手機計算器「智障」
    高小微:能把人逼瘋了!>往期回顧/熱點/關注來源:好奇實驗室原標題:《高小微:能把人逼瘋了
  • 戰艦世界閃擊戰新手入門攻略 艦船選擇及玩法指南
    戰艦世界閃擊戰這款遊戲受到了很多玩家的喜歡,本次就為大家帶來了戰艦世界閃擊戰新手入門攻略,包括艦船選擇及玩法指南,非常全面的內容,想了解的朋友可以參考,希望能幫到大家。
  • 示波器基礎原理入門指南(上)
    本入門指南旨在對數字示波器進行描述,出於實用目的以指導用戶在絕大多數應用場合中使用數字示波器來替代模擬示波器。本入門指南簡要介紹了示波器的起源、模擬示波器到數字示波器的歷史、數字示波器的類型及其主要子系統、示波器關鍵指標以及其測量方法。
  • 《缺氧》自動化入門指南
    自動化是《缺氧》中非常關鍵的一步,在進入後期後必須要做的就是自動化,能節約大量的人力和時間,許多玩家還不清楚自動化要怎麼做,下面小編就為大家帶來一篇「熱情的caosb」分享的自動化入門指南,一起來學習一下吧。自動化入門指南一般我們都是通過線路的顏色來這條線路是否激活,紅色表示抑制,綠色表示激活,看下面兩個圖。
  • 權力的遊戲:與其說小惡魔逼瘋了龍媽,不如說是龍媽背叛自己理想
    其實小編我覺得與其說是小惡魔逼瘋了龍媽,不如說是龍媽背叛自己的理想。首先我想問龍媽的志向是什麼?當一個解放全大陸勞苦大眾的聖人,但是她沒意識到,當聖人是有代價的,你要忍下一切常人所不能忍的痛苦,經歷無數磨難,然後就算你承受了這一切,最後也有可能會失敗,沒這點覺悟你當什麼聖人?別跟我說小惡魔瓦裡斯背叛了龍媽,人家當年宣誓對你效忠的時候,你自己說你要當一個怎麼樣的女王來著?
  • 用於進行Meta分析以合成相關數據的非技術性入門
    心理科學中的Meta分析本文的目的是提供一個簡短的Meta分析非技術性入門,以指導讀者完成從預註冊到結果發布的整個過程。在心理學中發表最多Meta分析的25種期刊中,超過一半建議使用PRISMA指南,或相關Meta分析報告標準(MARS)(圖2)。因此,本文將演示如何按照PRISMA指南進行Meta分析。
  • 李世石「神之一手」 逼瘋「阿爾法狗」
    原標題:李世石「神之一手」 逼瘋「阿爾法狗」 昨天下午在韓國首爾四季酒店進行的谷歌「阿爾法圍棋」與人類棋手代表、世界冠軍李世石的「人機大戰」第4局出現了令人驚異的情況,李世石在劣勢下弈出的「神之一手」令機器判斷失據,隨後「阿爾法圍棋」像是發瘋似的下出一連串莫名其妙的虧損著法,局勢瞬間逆轉,李世石終於在先輸
  • 光合作用氣體交換分析的入門指南
    點擊藍色字免費訂閱,每天收到這樣的好資訊本文介紹了光合作用氣體交換分析的入門指南及其在植物表型分析和精確灌溉中的應用a.Kok(1948)和b.Laisk(1977)估算光(Rd)呼吸,黑暗呼吸(Rn)和CO2光補償點(Γ*)的實例研究人員在文中提出了一種利用葉氣交換和Chl-Flr技術,計算CO2 從細胞間隙到葉綠體內羧化位點的葉肉電導的基本概念和計算方法
  • 石器時代M寵物成長攻略:寵物改造成長指南[視頻][多圖]
    想要讓寵物成長的更好要怎麼做?寵物的成長是很重要的,成長和戰鬥力有著直接的關係,想要提高寵物的成長可以通過改造來達成,下面分享的就是寵物改造成長的攻略指南,各位趕緊來看一看具體的攻略吧。石器時代M寵物改造指南1。寵物成長的重要性毋庸置疑,直接影響戰力。也是本遊戲最氪的一個部分。哪些榜上總成長A的極品老虎、金豬怎麼來的?
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 一篇讀懂中古包丨給小白的入門避坑指南
    文/鯨靈中古(精品中古工作室)中古包的入門指南,看這一篇就夠了!中古包避坑指南最後來說下中古包如何避坑,無良商家有哪些常見套路。中古包商家串貨是很正常的事情,有些小賣家本身就是從大中古商那邊拿貨,大中古商加了一手價給到小賣家,小賣家自己還要掙錢,就會再加一手價,如果再趕上同行串貨,那這隻包到你手上時已經不知道是第幾手了,你拿到的價格肯定是溢價後的。解決方法也還是那句話,儘量找靠譜的、實體經營有日本一手貨源的中古商。
  • 能把人「逼瘋」的三個反人類設計,我最服圖四讓人感到「絕望」!
    大家好今天小編給大家帶來的是「能把人「逼瘋」的三個反人類設計,我最服圖四讓人感到「絕望」!」說到反人類設計真的是讓人頭疼不已,因為有的設計師真的是讓人猜不透,不知道是不是故意,咱也不敢說咱也不敢問,來和小編看看反人類設計的三張圖吧。