數據科學是什麼?怎樣才能成為一名數據科學家?
數據科學的歷史可以追溯到20世紀60年代,但是在當時並未引起學術界的注意。在這個研究被《哈佛商業評論》評為「21世紀最性感的工作」之後,數據科學激起了廣大公眾的興趣!那麼數據科學到底是什麼?怎樣才能成為一名數據科學家?
說到數據科學,我們腦海裡可以立即聯想到一些相關的學科如基礎的計算機科學,網絡工程,編程,和數學。實際上「數據科學」通常被認為是下列學科的組合:計算機科學、統計、專業領域。
計算機科學
1. 計算機科學與編程導論:主要介紹機器語言、C語言和C++語言的編程模式,遞歸、資料庫和程序性能的基本內容,介紹計算理論的基本概念。
2. 計算機系統工程:該學科涵蓋了計算機軟體和硬體系統工程的主題,控制複雜性的技術;採用客戶機-伺服器設計、虛擬內存和線程,具有很強的模塊化;網絡;並行活動的原子性和協調;復甦和可靠性;私隱、保安及加密;以及計算機系統對社會的影響。
3.計算結構:數字系統工程概論。從MOS電晶體開始,學習一系列的積木-邏輯門,組合和順序電路,有限狀態機,計算機,最後在硬體和軟體方面的完整系統。
4. 算法介紹:它涵蓋了用於解決計算問題的常見算法、算法範例和數據結構。
5. 人工智慧:介紹人工智慧的基本知識表示、問題解決和學習方法。
6. 使用C/ c++ /Java進行面向對象編程
數學和統計
1. 應用數學:面向計算機科學和工程的離散數學導論。
2. 概率論與統計(與R程序設計):關於概率論與統計及其應用的基本介紹。主題包括:隨機變量、概率分布、貝葉斯推理、假設檢驗、置信區間和線性回歸。
3.線性代數(用R編程或其他數學工具):本課程涵蓋矩陣理論和線性代數。
4. 統計/機器學習(與R編程):介紹數據科學的核心算法,如線性和非線性回歸的類型,分類技術,如logistic回歸,樸素貝葉斯,支持向量機,決策樹(香草決策樹,隨機森林,推進),無監督學習方法,如聚類,神經網絡介紹。
5. 高級機器學習(使用Python編程):專為對人工智慧更感興趣的學生而設,重點關注用於圖像/文本處理的神經網絡。
專業領域
理想情況下,這些應該基於工作興趣/領域,這樣每個學生都可以選擇一個專業領域(例如,網絡開發、移動應用開發、市場分析、供應鏈、金融、製造等)。
數據科學專業課程
這裡的核心主題應該是:
1. 數據收集和清理:這應該包括使用開放源碼工具(如Python/R)從web抓取數據、連接資料庫等。還有用於創建分析數據集的數據清理和ETL概念,如重複數據刪除、整合、缺失數據估計技術。
2. 數據可視化和報告:使用SAS/SAP或R/Python等工具創建BI儀錶板,通過可視化和數據故事演示演示洞察力。
3.數據科學應用1 / 2:完成以業務為中心的端到端數據科學項目。這一主題在最後幾年可能應該重複兩次。它應該非常重要地包括連接到真實的資料庫和在生產環境中部署模型,而不僅僅是對靜態數據集的特殊分析。
4. 高級數據計算:這裡的學生應該使用開源和專有工具(如Hadoop/Spark、HANA或其他MPP資料庫)創建具有大規模數據的項目
必要的話,還包括以下內容:
1. 網絡工程基礎。理由:一個畢業生應該了解計算機網絡,能夠在一個組織中工作,管理,並在必要時改進網絡和數據架構。課程包括:網絡工程、資料庫、數據倉庫。
2. 研究方法:能夠系統地設計項目,從假設生成到提出業務建議,使用定量和定性的方法。
3.非結構化數據分析:學生應該了解文本挖掘、自然語言處理、社交媒體挖掘、web挖掘等應用的基礎知識。這些也可以以選修課的形式。
看到這裡,是不是感到非常繁瑣,甚至已經產生了放棄的念頭,其實這是大多數人的想法,但是當你深入其中的時候,你會感覺如此繁多的課程都是相互聯繫的。
當然,最重要的一點學會愛上枯燥的數據。數據科學是一個廣泛而模糊的領域,這使得它很難學習。真的很難,如果沒有動力,你會半途而廢,並認為自己做不到,但錯不在你,而在教學上。
你需要一些能讓你發現統計學、線性代數和神經網絡等主題之間的聯繫的東西。它可以防止你糾結於「我接下來要學什麼?」的問題。甚至你可以找到你興趣的切入點,比如有個朋友學習數據科學的切入點是預測股票市場,他對股票市場很著迷,因此他自然而然地學會愛上數據,這樣就有動力去學習任何我需要的東西來讓我的程序變得更好。當然,並不是每個人都熱衷於預測股市,但是找到讓你想要學習的東西真的很重要。
最後,要成為一名數據科學家,你需要不斷地向他人分享你的分析結果。做到這一點的技巧就是一個好的數據科學家和一個偉大的數據科學家之間的區別。你可以從與他人的合作中學到很多東西,在數據科學中,團隊合作在工作環境中也非常重要。