數據科學修煉手冊:成為一名數據科學家應具備哪些品質?

2020-12-19 讀芯術

全文共2320字,預計學習時長8分鐘

圖源:unsplash

作為一門逐漸成熟的新興領域,與數據科學相關的很多領域開始變得備受青睞,比如數據工程,數據分析以及機器學習和深度學習。數據科學家們必須帶著具有科學性、創造性和研究性的思維,從各路數據集中提取有用信息,以解決客戶面臨的潛在挑戰。

生活會不斷衍生出數據,涉及零售、交通、金融和醫療健康領域。觸手可及的各類計算產品和人工智慧的飛速發展將一群通過獲取、分析和利用原始數據的數據科學家們推到了聚光燈下。

2016年,數據科學家們選出了在北美洲最受歡迎的50種工作,這份榜單是參考收入潛力、工作滿意度以及在Glassdoor招聘網站上的需求量等各項指標得出的結果。

所以成為一名數據科學家應具備哪些品質呢?

為了搞清楚這個問題,我採訪了Ben Chu,他是路孚特實驗室的一名資深數據科學家。Chu有人工智慧領域的背景,擅長處理語言、語義和圖表,並且在新加坡的路孚特實驗室有著兩年的工作經驗。

1.保持好奇

Chu在訪談的一開始就提到,數據科學家應該像調查員一樣思考。你要時刻保持好奇,永遠都想知道「為什麼?」「就好像自己是一個偵探,通過這些數據拼湊細節以尋找新的線索。」

圖源:unsplash

在金融界,數據科學家們從一系列數據集中提取信息,以供客戶參考並幫助制定決策。數據科學家們會把目光鎖定在客戶想要解決的問題上面,然後從他們獲得的數據中抽絲剝繭,得出線索。

通過和Chu的交談,我領悟到了抓重點的重要性,調查背景也是很重要的。如果不能解決潛在問題,即使是再完美的分析也無助於此。有時候你需要轉回來,嘗試新的方法,重新思考問題。核心在於要保持好奇,愛上提問。

2.有創造力

數據科學並不僅僅指一種科學的方法,這個稱號其實會誤導大家。你不一定要有科研背景,但必須有創新性思維——另一種思維是解決問題的關鍵。

「我經常在兩種思維之間來回切換,是通過科學性思維還是創造性思維來探索更多的新的不同的解決方式。有邏輯的、科學的思考對於結論產出的幫助是必不可少的,但具備創造性思維也同樣重要:我也將成功和失敗的案例視為觀察新模式的線索。」

3.學習如何編碼

你需要紮實的編碼技能,才能預處理不同的數據源,並且能夠使用各種數據處理技術,來解決棘手或不完整的數據。你得能夠創建一個機器學習管道,這要求你知道如何構建模型,如何使用工具和框架來評估和分析其性能。

圖源:unsplash

與大多數數據科學家一樣,Chu使用Python,因為裡面有許多很贊的包可用於操作和建模數據。事實上,GalasWalk在2017的上半年為數據科學家提供了10000份招聘信息,發現Python、R和SQL這三種特殊技能是數據科學中大多數職位空缺的根本原因。

Ben Chu的團隊依賴於開源的機器學習軟體包,如Tensorflow、Pytorch和BERT。

「我們主要將Confluence用作文檔工具;MLFlow、Amazon Sagemaker、Scikit Learn、Tensorflow、PyTorch和BERT用於機器學習;Apache Spark用於在大型數據集上構建快速數據管道;Athena用作處理後數據的存儲資料庫。我們還使用Superset連接數據,輕鬆構建儀錶板以輸出圖表,使其更直觀。」

4.科學思考

數據科學家們會運用不同的工具來管理流程、數據、進行注釋和編碼。「我必須十分努力,時刻衡量並追蹤自己的進度,這樣才有機會開展復盤工作,嘗試新的方向,不斷比對結果。」

「重要的是要時刻秉持科學的原則,在分析時參考相應的數據,實驗和文獻,以便隨時調整結論。我需要把這些資料整理好,所以我會用Notion作為初步保存所有筆記、論文和可視化的基本工具。

圖源:unsplash

Chu強調,不僅要保留目前的調查記錄,還要保留以前所有調查結果的記錄。「這就像是一本數據科學日誌。每當遇到類似的情況時,我都會把值得參考的要點保存好,下次再遇到問題時可以有指導。」

5.擔心「冒名頂替症候群」,大可不必

Chu現在是路孚特實驗室的資深數據科學家,但他年少時曾想成為一名音樂家,並且對語言特別著迷。「對於我在自然語言處理領域的工作,這需要我對語言學有較深的了解,特別是語義學和語言的細微差別。」

他解釋說,一個數據科學團隊需要一系列技能——他和他的同事擁有從不同背景發展而來的重疊技能。

「你需要的技能將取決於工作領域。比如我需要對金融領域有很好的了解,數據分析目前應用於防詐騙領域,通過建立異常檢測方法來檢測交易數據中不符合規範的欺詐『行為』」。

「像我這樣的數據科學家需要懂得如何處理各種孤立的金融數據。關鍵是要建立各種數據之間的聯繫,如果不知道它們之間的聯繫的話,就無法建立一個成功的模式。」

圖源:unsplash

做一名計算機科學家或數學家並不是進入數據科學領域的必要條件。沒有人精通所有領域。你可能有法律、經濟或科學背景。這些背景決定了你的思考方式。如果能靈活運用各種知識並將其系統化,那麼在使用工具、框架和數據集時,就能夠熟悉這些工具、框架和數據集的細節。

如何開始

對於那些熱衷於數據科學技能的人,Chu提供了一些實用的技巧,這些技巧很容易學會。你可以尋找研究社區,參加網絡研討會,並在網上尋找找到培訓課程。一旦可以進行當面交流,Chu建議你在數據科學領域活躍起來。

「參加會議和編程馬拉松,這將幫助你研究建立一個強大的網絡,讓你有機會說出自己的想法,啟發研究和回答疑問」。

圖源:unsplash

數據科學是一個全新的領域,而且還在處於不斷成熟階段。隨著機器學習和深度學習工程師的出現,數據科學家、數據工程師和數據分析員等各種不同的職位也出現了,也許你會發現自己更適合或者更喜歡另一個職位呢。

一切都在不斷變化之中,永葆好奇心和創造力,繼續探索吧!

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 準備好進入數據科學領域了嗎?先問問自己這14個問題 - 大數據_CIO...
    數據行業被認為是增長最快、價值數十億美元的行業之一。許多公司和組織正嘗試充分利用已有數據,確定仍需捕獲和存儲哪些數據。與此同時,數據科學家仍然迫切需要了解數字,挖掘針對棘手業務問題的可能解決方案。最近一項研究表明,2020年大多數高科技工作需要數據科學技能。   數據科學領域確實有很多令人興奮的機會。
  • 重中之重:數據科學與機器學習背後的數學理論
    如果你是一名數據科學愛好者,一定想過這些問題:· 我可以在幾乎沒有數學背景的情況下,成為一名數據科學家嗎?· 在數據科學中,哪些基本的數學技能是重要的?有很多好用的包可以用來構建預測模型,或生成數據可視化。
  • 準備好進入數據科學領域了嗎?先問問自己這14個問題
    3.數據科學家的職業前景數據科學家的職業前景非常樂觀。IBM預測,到2020年,數據科學家的需求量將激增28%。最近使用LinkedIn求職工具進行的一項研究表明,2020年大部分的高科技工作需要具備數據科學技能,包括商業分析、機器學習和雲計算。
  • 100天學習計劃 | 一份詳實的數據科學指南
    我遇到過許多對學習數據科學充滿熱情的人,但僅僅幾周後,他們就放棄了學習。我想知道為什麼一個人對一個領域如此熱情卻不去追求它?通過與他們中的一些人交談,我了解到人們放棄學習的主要原因是:這些甚至會嚇到一個有經驗的數據科學家,難怪他們會讓試圖學習數據科學的人放棄。上面的每一個話題就像一片海洋,當有人試圖快速掌握它們時,他們會感到沮喪並放棄學習。
  • 如何制定一個成功的數據科學培訓計劃 - 大數據_CIO時代網 - CIO...
    數據科學家目前仍很短缺。一些公司通過設立培訓計劃以重新培訓員工去擔任數據科學職位,從而填補這一空缺。   那些知道如何幫助組織機構充分利用其信息資源的技術專業人員(尤其是數據科學家)目前需求量很大而供應短缺。
  • 這五個數據科學家和機器學習工程師油管博主,你必須關注
    2.肯恩·傑他是最有趣的數據科學油管人物之一,有五年數據科學領域工作經驗。大多數數據科學家可能已經很熟悉肯恩·傑了,也許你看過他簡歷和作品集中的一個視頻,也許你看過他的「從零開始的數據科學項目」系列視頻。
  • 數據:從「物品」到「資產」,它成為現代科學的基石
    哪些數據最可靠?數據所有者是誰?過去 150 年裡,人們對數據的認識發生了天翻地覆的變化。曾經,數據被視為是穩定的對象,其重要性僅由少數專業人員說了算。而現在,數據卻成了可重複利用的商品。數據的價值取決於其在不同背景下能發揮多大的作用,以及能否與其它條件形成合力。
  • 給數據科學家判死刑:5年後將被機器學習取代
    【新智元導讀】數據科學家會被機器學習取代嗎?雖然現在的數據科學家崗位需求非常熱,但是所從事的工作領域,正好面臨機器學習的不斷挑戰。福布斯作者認為,數據科學家工作的5個領域,未來5-10年會被機器學習取代,Reddit網友對此進行了激烈的討論。數據科學崗位正在面臨巨大的變革。
  • 成為一名催眠師,要具備哪些條件?
    關注我,讓我成為你的專屬小太陽吧 「催眠師」一個聽起來「高、大、上」的職業,但如果你想成為一名合格的、優秀的催眠師,你不光只是學會催眠知識和療法那麼簡單
  • 數據新聞不是文字報導的「翻版」 應統一內容與形式
    數據日益成為新的生產要素,如何科學、合理利用數據,讓數據賦能內容,更準確高效地傳遞信息、發現趨勢,愈發成為各行業人才的必備技能。優質數據內容應具備哪些要素?人工智慧技術將如何影響數據內容生產?浙江大學傳媒與國際文化學院有哪些數據人才培養秘籍?新浪新聞、封面新聞聯合推出「未來媒體訪談」問道中外新聞學院院長系列節目。
  • 記者vlog|世衛首席科學家:應讚賞中國分享新冠肺炎數據
    世界衛生組織首席科學家蘇米婭·斯瓦米納坦近日接受新華社記者專訪時表示,中國在分享新冠肺炎相關數據和樣本中展現的開放和透明度值得讚賞。斯瓦米納坦說,在發現新冠病毒後的幾天之內,中國科研人員迅速將該病毒的基因序列分享到公共平臺上。
  • 王嘉華:一份選調「新生」的「蓄能」修煉手冊
    在前輩們的幫助下,我逐漸找準「新生」定位,為自己編排了一份「蓄能」修煉手冊,願與大家分享。分享之前,對這份手冊先作個簡要說明。既稱「蓄能」修煉手冊,何以蓄?答:以日常親歷的基層工作蓄;蓄何能?答:圍繞常為人道的「後浪」一詞,從物理學角度出發,蓄浪能背後的內能、動能、勢能和風能;如何蓄?答:以「做學問」之態上好基礎課、必修課、專業課和實踐課。
  • 微軟數據科學沙龍:摩拜單車的數據科學實踐,解密智能投顧
    ,微軟數據平臺方向MVP) 14:50 - 15:00 茶歇 15:00 - 15:50 主題:摩拜單車的數據科學實踐 演講者:朱俊輝(摩拜單車算法工程師) 15:50 - 16:00 茶歇
  • 第四範式戴文淵提AI發展三大挑戰:數據科學家數量少、數據隱私保護...
    記者 | 林北辰17月9日下午,2020世界人工智慧大會科學前沿全體會議上,第四範式創始人兼執行長戴文淵參與圓桌論壇,在演講中提出了當下人工智慧發展面臨的三個挑戰:第一是數據科學家門檻高因此,這是典型適合人工智慧的場景,AI充分利用線上的用戶行為數據,可以實現個性化的營銷以及精準匹配的推送。但核心問題是,行業中數據科學家數量遠遠不夠,就算是MIT的數據科學家也不能夠解決所有企業的所有需求和問題。
  • Science最新:如何成為一名合格的科學家
    2020年8月5日,Science發表了一篇文章,講述了對待科研生活的一些建議—如何才能成為一名合格的科學家。小編將文章核心內容總結如下,希望可以幫助到科研路上的各位同學們。 真正的科學發現需要時間,會遇到很多坎坷,甚至爭議。
  • 數據故事化:從數據感知到數據認知
    0 引言  作為大數據時代的新興活動,數據的故事化呈現已經成為數據科學及相關研究領域的熱門話題之一。有研究調查發現,能夠記住「故事」的人數可以達到63%,但是能夠記住孤立的統計數據的人數只有5%[1]。
  • 在數據科學領域中,你需要多少數學知識?
    引言  如果你有心學習數據科學,那麼你一定會在腦海中想過下面的問題:  沒有或者只有很少的數學知識,我能做一個數據科學家嗎? 數據科學必需的數學工具有哪些?  有很多優秀的包可用於建立預測模型或者數據可視化。
  • 數據科學孤島如何破壞應用程式現代化
    AI或數據科學團隊的設備不足,無法獨立完成工作。他們只是對業務或應用程式沒有足夠的深入了解,這些知識將無法部署模型以導致交付業務成果的生產運營。這對數據科學家來說一點也不難。我曾經是一個。但是成功團隊的秘訣在於多樣性。數據科學是一項團隊運動。數據科學家需要與了解業務和應用程式的人們並肩工作。這就是為什麼。
  • 鏟屎官修煉手冊
    鏟屎官修煉手冊 2018年02月01日 15:09作者:徐明德編輯:徐明德文章出處:泡泡網原創 要說2018年最時髦的祝福,不是「萬事如意」,也不是
  • 專業篇:數據科學與大數據技術——萬物分析的大數據
    那麼,究竟什麼是大數據?數據科學與大數據技術是一個什麼樣的專業?大數據分析與人工智慧時代有著怎樣的聯繫?希望本文能夠給各位家長及考生帶來一定的啟發。一、大數據 ≠ 大的數據談到大數據,我們往往想到的是海量的數據或者很大很複雜的數據,但其實大數據並不等於大的數據。