被稱為21世紀最性感的工作,我們要如何學習「數據科學」?

2020-08-30 超弦

數據科學是什麼?怎樣才能成為一名數據科學家?

數據科學的歷史可以追溯到20世紀60年代,但是在當時並未引起學術界的注意。在這個研究被《哈佛商業評論》評為「21世紀最性感的工作」之後,數據科學激起了廣大公眾的興趣!那麼數據科學到底是什麼?怎樣才能成為一名數據科學家?

說到數據科學,我們腦海裡可以立即聯想到一些相關的學科如基礎的計算機科學,網絡工程,編程,和數學。實際上「數據科學」通常被認為是下列學科的組合:計算機科學、統計、專業領域。

計算機科學

1. 計算機科學與編程導論:主要介紹機器語言、C語言和C++語言的編程模式,遞歸、資料庫和程序性能的基本內容,介紹計算理論的基本概念。

2. 計算機系統工程:該學科涵蓋了計算機軟體和硬體系統工程的主題,控制複雜性的技術;採用客戶機-伺服器設計、虛擬內存和線程,具有很強的模塊化;網絡;並行活動的原子性和協調;復甦和可靠性;私隱、保安及加密;以及計算機系統對社會的影響。

3.計算結構:數字系統工程概論。從MOS電晶體開始,學習一系列的積木-邏輯門,組合和順序電路,有限狀態機,計算機,最後在硬體和軟體方面的完整系統。

4. 算法介紹:它涵蓋了用於解決計算問題的常見算法、算法範例和數據結構。

5. 人工智慧:介紹人工智慧的基本知識表示、問題解決和學習方法。

6. 使用C/ c++ /Java進行面向對象編程

數學和統計

1. 應用數學:面向計算機科學和工程的離散數學導論。

2. 概率論與統計(與R程序設計):關於概率論與統計及其應用的基本介紹。主題包括:隨機變量、概率分布、貝葉斯推理、假設檢驗、置信區間和線性回歸。

3.線性代數(用R編程或其他數學工具):本課程涵蓋矩陣理論和線性代數。


4. 統計/機器學習(與R編程):介紹數據科學的核心算法,如線性和非線性回歸的類型,分類技術,如logistic回歸,樸素貝葉斯,支持向量機,決策樹(香草決策樹,隨機森林,推進),無監督學習方法,如聚類,神經網絡介紹。

5. 高級機器學習(使用Python編程):專為對人工智慧更感興趣的學生而設,重點關注用於圖像/文本處理的神經網絡。

專業領域

理想情況下,這些應該基於工作興趣/領域,這樣每個學生都可以選擇一個專業領域(例如,網絡開發、移動應用開發、市場分析、供應鏈、金融、製造等)。

數據科學專業課程

這裡的核心主題應該是:

1. 數據收集和清理:這應該包括使用開放源碼工具(如Python/R)從web抓取數據、連接資料庫等。還有用於創建分析數據集的數據清理和ETL概念,如重複數據刪除、整合、缺失數據估計技術。

2. 數據可視化和報告:使用SAS/SAP或R/Python等工具創建BI儀錶板,通過可視化和數據故事演示演示洞察力。

3.數據科學應用1 / 2:完成以業務為中心的端到端數據科學項目。這一主題在最後幾年可能應該重複兩次。它應該非常重要地包括連接到真實的資料庫和在生產環境中部署模型,而不僅僅是對靜態數據集的特殊分析。


4. 高級數據計算:這裡的學生應該使用開源和專有工具(如Hadoop/Spark、HANA或其他MPP資料庫)創建具有大規模數據的項目

必要的話,還包括以下內容:

1. 網絡工程基礎。理由:一個畢業生應該了解計算機網絡,能夠在一個組織中工作,管理,並在必要時改進網絡和數據架構。課程包括:網絡工程、資料庫、數據倉庫。

2. 研究方法:能夠系統地設計項目,從假設生成到提出業務建議,使用定量和定性的方法。

3.非結構化數據分析:學生應該了解文本挖掘、自然語言處理、社交媒體挖掘、web挖掘等應用的基礎知識。這些也可以以選修課的形式。


看到這裡,是不是感到非常繁瑣,甚至已經產生了放棄的念頭,其實這是大多數人的想法,但是當你深入其中的時候,你會感覺如此繁多的課程都是相互聯繫的。

當然,最重要的一點學會愛上枯燥的數據。數據科學是一個廣泛而模糊的領域,這使得它很難學習。真的很難,如果沒有動力,你會半途而廢,並認為自己做不到,但錯不在你,而在教學上。

你需要一些能讓你發現統計學、線性代數和神經網絡等主題之間的聯繫的東西。它可以防止你糾結於「我接下來要學什麼?」的問題。甚至你可以找到你興趣的切入點,比如有個朋友學習數據科學的切入點是預測股票市場,他對股票市場很著迷,因此他自然而然地學會愛上數據,這樣就有動力去學習任何我需要的東西來讓我的程序變得更好。當然,並不是每個人都熱衷於預測股市,但是找到讓你想要學習的東西真的很重要。

最後,要成為一名數據科學家,你需要不斷地向他人分享你的分析結果。做到這一點的技巧就是一個好的數據科學家和一個偉大的數據科學家之間的區別。你可以從與他人的合作中學到很多東西,在數據科學中,團隊合作在工作環境中也非常重要。

相關焦點

  • 它為何是「21世紀最性感的工作」?一文讀懂數據科學的發展
    顯然,我們現在所討論的數據科學,已經使用了像數據挖掘、機器學習和人工智慧等一系列的技術。在某些方面上,數據科學徹底改變了這個世界。自 21 世紀初以來,數據存儲量呈指數級增長,這在很大程度上要歸功於處理和存儲技術的進步,即在規模上既高效又具有成本效益。「實時」 收集、處理、分析和顯示數據信息的能力,提供了前所未有的機會來進行新形式的知識發現,數據科學家可以使用人工智慧、機器學習和深度學習等顛覆性技術。
  • 21世紀最性感的數據科學家,原來只是一群沮喪的天氣預報員
    《哈佛商業評論》在2012年的一篇文章中,將數據科學家稱為「21世紀最性感的工作」,而性感意味著具有非常需要的稀有品質。通常情況下,招聘這些人既困難又昂貴,而且由於他們服務的市場競爭非常激烈,所以難以保留。截至2019年1月,在線求職網站確實發布了一份報告,顯示數據科學家的需求同比增長29%,自2013年以來增長344%。
  • 最性感的工作?數據科學不一定適合你
    圖源:unsplash就算沒看過《哈佛商業評論》的那篇文章,但一定知道其中的著名論斷:「數據科學家是21世紀最性感的工作」。 很多人正尋求找到符合自己的興趣的職業,也有人很多人考慮轉行面對他們來說,成為一名數據科學家很可能是其心嚮往之的一條大道。大部分人可能只聽說過各種關於數據科學的溢美之辭,但本文打算潑潑冷水,筆者將提供4個為什麼你不適合成為數據科學工作的原因。
  • 數據科學家:21世紀「最性感的職業」!
    數據科學家:21世紀「最性感的職業」! 大數據時代的來臨,統計學變得越來越火,不管是機器學習, 人工智慧,還是大數據分析,基本功都是統計學。Google, Facebook,Amazon等國際巨頭,國內蓬勃發展的網際網路企業,對於數據分析師(Data Scientist)的需求都十分火熱。
  • 數據科學很性感?不,其實它非常枯燥
    大數據文摘出品來源:medium編譯:睡不著的iris很多人把數據科學(或者機器學習)工作描繪的令人嚮往,激勵自己和別人加入其行列。大家把數據科學想得非常完美,事實上它容易讓人感到「枯燥」。
  • 21世紀是我們科學家領銜人類科學發展的世紀
    21世紀是我們科學家領銜人類科學發展的世紀:30年河東,30年河西。20世紀人類科學發展由西方興起。那麼21世紀人類科學發展將由我們東方領銜,因為我們真正想去做就能做到最好或領銜,因為我們5000年歷史文化積澱底蘊與自信擺在那兒,也就是說,我們民族優秀的智力潛質智力潛能擺在那兒,只等風調雨順的時節去開啟它。
  • 施一公:生命科學,21世紀最活躍的學科
    原標題:生命科學,21世紀最活躍的學科   施一公 (資料圖片)   20世紀80年代初,曾經有人預言:「21世紀將是生物學的世紀」。生物學的世紀到來了嗎?關於這個問題,專業人士與普通民眾的認識存在較大的分歧。要想回答這個問題,我們首先應該了解什麼是生命科學。   生命科學(生物學)是自然科學的一個分支學科,按照高考招生專業的大類劃分,它屬於理科。從本質上說,生命科學是研究生命現象,揭示生命活動規律和生命本質的科學。
  • 21世紀了,我們的信仰應該是科學
    而科學就不一樣了,科學是建立在我們的實驗經驗和現實規律之上,有完整的推理結論,也是我們能夠理解和感受的確實存在的感覺,所以科學是一種我們看得見摸得著的信仰。也就是俗話說的:「眼見為實」!所以,科學也是一種信仰,讓我相信除非讓我感覺到,或者讓我明白!這就是科學的態度。而不是迷信某個權威的話語,或者宗教的教條主義。這樣的信仰,我們自己都無從得知,所以就叫做迷信!
  • 什麼樣的人適合學習數據分析?小白如何自學數據分析?
    主圖時下的大數據時代與人工智慧熱潮,有很多人對數據分析感興趣,卻下手無從。零基礎小白剛接觸數據分析會有這樣的疑問,沒有數學基礎,可以學習數據分析嗎?如何找到一份數據分析的實習呢?帶著這些問題,我們一起來看今天要探討的問題。什麼叫數據分析?什麼樣的人適合學習數據分析?應該學習哪些內容?需要用到哪些學習資料?自學數據分析如何安排時間?不是相關專業,如何打造簡歷?
  • 21世紀科學社會主義的新發展
    英國文學家狄更斯曾以「這是最好的時代,也是最壞的時代」描述工業革命發生後的世界。習近平在世界經濟論壇2017年年會開幕式上的主旨演講中引用狄更斯的這句名言,並指出:「今天,我們也生活在一個矛盾的世界之中。」繼續解決工業化時期業已產生的問題並回應21世紀出現的新問題、新挑戰,仍然需要馬克思主義為我們提供科學方法和總體思路。
  • 施一公撰文談生命科學:21世紀最活躍的學科—新聞—科學網
    生物學的世紀到來了嗎?關於這個問題,專業人士與普通民眾的認識存在較大的分歧。要想回答這個問題,我們首先應該了解什麼是生命科學。 生命科學(生物學)是自然科學的一個分支學科,按照高考招生專業的大類劃分,它屬於理科。從本質上說,生命科學是研究生命現象,揭示生命活動規律和生命本質的科學。
  • 2020年的這場疫情,讓我相信了21世紀是生物科學的世紀
    醫護人員  我在十多年前高考過後填報志願的時候,我記得老師說過一句話:「21世紀是生物科學的世紀」。我本身是理科生,在數學物理化學生物這幾門學科裡最感興趣的是生物,我填報了生物專業。從此我開始了生物專業的學習生涯,我們平常會做很多化學、生物學的相關實驗,實驗課都必須穿上學校發的白大褂,和醫生一樣的白大褂,這是我至今為止第一次穿上白大褂,雖然不是醫生,做實驗搞研究也很重要。
  • 計算神經科學:21世紀的前沿科學
    大腦連接組學和神經生理學的數據分析需要新的數學工具;計算機建模有助於探究大腦工作原理假說的細節並對特定的預測進行檢驗;理論工作可以幫助我們從數學上理解大腦運作的一般性原理。除了在基礎研究中的貢獻,計算神經科學還有助於為精神病學的發展建立堅實的理論基礎,為腦科學與人工智慧搭建合作的橋梁。
  • 專訪|思想史家彼得·沃森:21世紀或許也是科學的世紀
    我開始寫作《20世紀思想史》的時候是1997年,當時21世紀即將到來,於是我就產生了寫一部20世紀歷史的想法。我們有很多關於20世紀政治的歷史著作,但沒有一部思想史,這就是我寫作此書的初衷。我沒有特意考慮此書的篇幅,我的工作方式是和各個領域的歷史學家交流,詢問他們在各自的領域裡,20世紀最重要的三種思想是什麼。與他們的討論是我寫作《20世紀思想史》的基礎。
  • 腦科學,21世紀的新趨勢
    誰會貢獻自己健康的活體大腦呢,又如何創造更多技術手段去測量呢,這些難題無疑成了當前腦科學研究的重大阻力。21世紀是腦科學的世紀,人工智慧已成為腦科學研究的新趨勢。如今腦科學的研究主要聚焦在細胞和分子層面,對思維、情感、意識等高級功能的認識還非常膚淺。研究大腦已成為當前最具挑戰性的科學問題。然而越是未知的領域,越是能激發我們的探索欲。
  • 我們到底該如何學習《數據結構與算法》
    第二:工作現在的大廠api框架基本上背後的邏輯就是基於算法實現的。其實算法的種類有很多,比如說機器學習、神經網絡算法,還有java中的排序算法,網際網路的商品推薦、股票預測其背後的邏輯都是算法。就算是熟悉的那些框架,背後的邏輯也是數據結構與算法。我們敲代碼解決問題的過程當中也是算法的集中體現。
  • 生物科學類專業:「21世紀將是生物學的世紀」
    而21世紀人類面臨的六大難題:人口、食品、健康、環境、資源、能源都與生物科學密切相關。根據普通高等學校本科專業目錄,生物科學類下設生物科學、生物技術、生物信息學、生態學四個二級學科,下面我們具體來看一下其專業信息及就業前景。
  • 21世紀為什麼還沒出現偉大的科學理論?
    看完上個世紀前20年的輝煌,我們再來看下21世紀的前20年,人類有哪些偉大的科學理論出現?估計我們是想不出來的,不管是引力波,希格斯玻色子還是量子力學,它們都是上個世紀科學家提出的東西。到了21世紀,我們只不過是在驗證過去的理論。這個時候,很多人就會產生這樣的一個疑惑:為什麼21世紀都過去了五分之一,還沒有出現能夠比肩牛頓,愛因斯坦的偉大科學家?
  • 解讀神奇的離子醫學:21世紀最尖端的科學
    原標題:解讀神奇的離子醫學:21世紀最尖端的科學   如今,現代醫療不斷引進新的科學技術,有著顯著的進步和發展。然而仍有一些疾病受限於醫療水平難以治癒。離子醫學的出現,對一些慢性疾病諸如糖尿病、腫瘤、心臟病、類風溼等代謝、免疫類疾病的治療有了新的進展。
  • 21世紀十大待解科學謎團:量子糾纏的意義
    過去幾百年科學的發展很迅速。不過,時至今日,還有許多未解之謎,本世紀我們剩86年去解開他們。 10.生命是如何起源的? 這個問題看起來似乎並不難,卻總是解決不了。對於生命基本構成是如何在原始條件下產生,或者是如何從太空來到地球的,不斷有各種新發現冒出來。