全文共2320字,預計學習時長8分鐘
作為一門逐漸成熟的新興領域,與數據科學相關的很多領域開始變得備受青睞,比如數據工程,數據分析以及機器學習和深度學習。數據科學家們必須帶著具有科學性、創造性和研究性的思維,從各路數據集中提取有用信息,以解決客戶面臨的潛在挑戰。
生活會不斷衍生出數據,涉及零售、交通、金融和醫療健康領域。觸手可及的各類計算產品和人工智慧的飛速發展將一群通過獲取、分析和利用原始數據的數據科學家們推到了聚光燈下。
2016年,數據科學家們選出了在北美洲最受歡迎的50種工作,這份榜單是參考收入潛力、工作滿意度以及在Glassdoor招聘網站上的需求量等各項指標得出的結果。
所以成為一名數據科學家應具備哪些品質呢?
為了搞清楚這個問題,我採訪了Ben Chu,他是路孚特實驗室的一名資深數據科學家。Chu有人工智慧領域的背景,擅長處理語言、語義和圖表,並且在新加坡的路孚特實驗室有著兩年的工作經驗。
1.保持好奇
Chu在訪談的一開始就提到,數據科學家應該像調查員一樣思考。你要時刻保持好奇,永遠都想知道「為什麼?」「就好像自己是一個偵探,通過這些數據拼湊細節以尋找新的線索。」
在金融界,數據科學家們從一系列數據集中提取信息,以供客戶參考並幫助制定決策。數據科學家們會把目光鎖定在客戶想要解決的問題上面,然後從他們獲得的數據中抽絲剝繭,得出線索。
通過和Chu的交談,我領悟到了抓重點的重要性,調查背景也是很重要的。如果不能解決潛在問題,即使是再完美的分析也無助於此。有時候你需要轉回來,嘗試新的方法,重新思考問題。核心在於要保持好奇,愛上提問。
2.有創造力
數據科學並不僅僅指一種科學的方法,這個稱號其實會誤導大家。你不一定要有科研背景,但必須有創新性思維——另一種思維是解決問題的關鍵。
「我經常在兩種思維之間來回切換,是通過科學性思維還是創造性思維來探索更多的新的不同的解決方式。有邏輯的、科學的思考對於結論產出的幫助是必不可少的,但具備創造性思維也同樣重要:我也將成功和失敗的案例視為觀察新模式的線索。」
3.學習如何編碼
你需要紮實的編碼技能,才能預處理不同的數據源,並且能夠使用各種數據處理技術,來解決棘手或不完整的數據。你得能夠創建一個機器學習管道,這要求你知道如何構建模型,如何使用工具和框架來評估和分析其性能。
與大多數數據科學家一樣,Chu使用Python,因為裡面有許多很贊的包可用於操作和建模數據。事實上,GalasWalk在2017的上半年為數據科學家提供了10000份招聘信息,發現Python、R和SQL這三種特殊技能是數據科學中大多數職位空缺的根本原因。
Ben Chu的團隊依賴於開源的機器學習軟體包,如Tensorflow、Pytorch和BERT。
「我們主要將Confluence用作文檔工具;MLFlow、Amazon Sagemaker、Scikit Learn、Tensorflow、PyTorch和BERT用於機器學習;Apache Spark用於在大型數據集上構建快速數據管道;Athena用作處理後數據的存儲資料庫。我們還使用Superset連接數據,輕鬆構建儀錶板以輸出圖表,使其更直觀。」
4.科學思考
數據科學家們會運用不同的工具來管理流程、數據、進行注釋和編碼。「我必須十分努力,時刻衡量並追蹤自己的進度,這樣才有機會開展復盤工作,嘗試新的方向,不斷比對結果。」
「重要的是要時刻秉持科學的原則,在分析時參考相應的數據,實驗和文獻,以便隨時調整結論。我需要把這些資料整理好,所以我會用Notion作為初步保存所有筆記、論文和可視化的基本工具。
Chu強調,不僅要保留目前的調查記錄,還要保留以前所有調查結果的記錄。「這就像是一本數據科學日誌。每當遇到類似的情況時,我都會把值得參考的要點保存好,下次再遇到問題時可以有指導。」
5.擔心「冒名頂替症候群」,大可不必
Chu現在是路孚特實驗室的資深數據科學家,但他年少時曾想成為一名音樂家,並且對語言特別著迷。「對於我在自然語言處理領域的工作,這需要我對語言學有較深的了解,特別是語義學和語言的細微差別。」
他解釋說,一個數據科學團隊需要一系列技能——他和他的同事擁有從不同背景發展而來的重疊技能。
「你需要的技能將取決於工作領域。比如我需要對金融領域有很好的了解,數據分析目前應用於防詐騙領域,通過建立異常檢測方法來檢測交易數據中不符合規範的欺詐『行為』」。
「像我這樣的數據科學家需要懂得如何處理各種孤立的金融數據。關鍵是要建立各種數據之間的聯繫,如果不知道它們之間的聯繫的話,就無法建立一個成功的模式。」
做一名計算機科學家或數學家並不是進入數據科學領域的必要條件。沒有人精通所有領域。你可能有法律、經濟或科學背景。這些背景決定了你的思考方式。如果能靈活運用各種知識並將其系統化,那麼在使用工具、框架和數據集時,就能夠熟悉這些工具、框架和數據集的細節。
如何開始
對於那些熱衷於數據科學技能的人,Chu提供了一些實用的技巧,這些技巧很容易學會。你可以尋找研究社區,參加網絡研討會,並在網上尋找找到培訓課程。一旦可以進行當面交流,Chu建議你在數據科學領域活躍起來。
「參加會議和編程馬拉松,這將幫助你研究建立一個強大的網絡,讓你有機會說出自己的想法,啟發研究和回答疑問」。
數據科學是一個全新的領域,而且還在處於不斷成熟階段。隨著機器學習和深度學習工程師的出現,數據科學家、數據工程師和數據分析員等各種不同的職位也出現了,也許你會發現自己更適合或者更喜歡另一個職位呢。
一切都在不斷變化之中,永葆好奇心和創造力,繼續探索吧!
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範