100天學習計劃 | 一份詳實的數據科學指南

2020-12-13 雷鋒網

字幕組雙語原文:100天學習計劃 | 一份詳實的數據科學指南

英語原文:A Complete Guide to Learn Data Science in 100 Days

翻譯:雷鋒字幕組(不再聯繫791)


你是否對學習數據科學感興趣,但不知道從哪裡開始?如果是,那你來對地方了。

我遇到過許多對學習數據科學充滿熱情的人,但僅僅幾周後,他們就放棄了學習。我想知道為什麼一個人對一個領域如此熱情卻不去追求它?通過與他們中的一些人交談,我了解到人們放棄學習的主要原因是:

這些甚至會嚇到一個有經驗的數據科學家,難怪他們會讓試圖學習數據科學的人放棄。上面的每一個話題就像一片海洋,當有人試圖快速掌握它們時,他們會感到沮喪並放棄學習。真正的事實是,要想成為一名成功的數據科學家或成為一名數據科學家,你甚至需要掌握更多。 

如何學習數據科學

要成為一名數據科學家,你需要從以下條目中學到足夠多的知識: 

在下面的視頻中,我提到了學習數據科學的分步指南。我已經解釋了達到數據科學不同專業水平所需的知識深度。

https://youtu.be/5zec-qxfMvg

如何計劃學習?哪些主題應該首先涉及?

讓我來解釋一下100天學習數據科學的計劃。下面是使用Python學習數據科學的逐日計劃,該計劃跨度為100天,每天至少需要花費一個小時

第一天:安裝工具

只要確保安裝了所需的工具,並且您對接下來幾周/幾個月將要使用的工具感到舒適即可。如果選擇Python則安裝Anaconda,其中還會安裝IDEs Jupyter筆記本和Spyder。如果你選擇' R ',然後安裝RStudio。試著在IDE中玩一玩,並熟練地使用它。比如,嘗試理解包/庫的安裝、執行部分代碼、清理內存等等。

第2天到第7天:數據科學的基礎編程

下一步是學習基本的編程,下面是一些應該學習的主題:

第8天到第17天: Pandas 庫

了解 Pandas 庫,在 Pandas 中需要了解的一些主題是:

  • 創建數據幀,從文件讀取數據,並將數據幀寫入文件

  • 從數據框架中索引和選擇數據

  • 迭代和排序

  • 聚合和分組

  • 缺失值和缺失值的處理

  • Pandas 的重命名和替換

  • 在數據幀中連接、合併和連接

  • 總結分析,交叉表格,和樞軸

  • 數據,分類和稀疏數據

花10天時間徹底學習以上主題,因為這些主題在執行探索性數據分析時非常有用。在介紹這些主題時,請嘗試深入粒度細節,比如理解合併和連接、交叉表和樞軸之間的差異,這樣不僅可以了解它們中的每一個,還可以知道在何時和何處使用它們。

我為什麼要學 Pandas?如果您從事任何數據科學項目,它們總是從探索性數據分析開始,以便更好地理解數據,而您在 Pandas 中介紹的這些主題將會派上用場。另外,因為Pandas有助於從不同的來源和格式讀取數據,所以它們速度快、效率高,還提供了對數據集執行各種操作的簡單功能。

第18天到第22天:Numpy Library

學會 Pandas 之後,下一個需要學習的重要庫是Numpy。學習Numpy的原因是與List相比它們非常快。在Numpy中要涉及的主題包括:

  • 數組的創建

  • 索引和切片

  • 數據類型

  • 連接與分離

  • 搜索和排序

  • 過濾所需的數據元素

為什麼學習Numpy很重要?Numpy能夠以快速和高效的方式對數據執行科學操作。它支持機器學習算法中常用的高效矩陣運算,panda庫也廣泛使用了Numpy。

第23天到第25天:可視化

現在,我們需要花一些時間來理解和使用一些關鍵的可視化庫,比如ggplot、Plotly和Seaborn。使用示例數據集並嘗試不同的可視化,如柱狀圖、線形/趨勢圖、盒狀圖、散點圖、熱圖、餅狀圖、柱狀圖、氣泡圖和其他有趣的或交互式可視化。

數據科學項目的關鍵是與涉眾交流洞察力,而可視化是實現這一目的的很好的工具。

第26天到第35天:統計、實現和用例

下一個要討論的重要主題是統計學,探索常用的描述性統計技術,如平均值、中位數、眾數、範圍分析、標準差和方差。

然後介紹一些更深層次的技術,比如識別數據集中的異常值和測量誤差範圍。

作為探索各種統計測試(如下所示)的最後一步,了解這些統計測試在現實生活中的應用:

  • F-test  

  • ANOVA  

  • 卡方測試

  • T-Test

  • Z-Test  

第36天到第40天:用於數據分析的SQL

現在是學習SQL的時候了,這很重要,因為在大多數企業用例中,數據將存儲在資料庫中,了解SQL將極大地幫助從系統中查詢所需的數據進行分析。

您可以先安裝一個開源資料庫,比如MySQL,它會附帶一些默認資料庫,只需要處理數據並學習SQL。如果你能集中學習以下內容,那就太好了:

  • 從表中選擇數據

  • 基於鍵連接來自不同表的數據

  • 對數據執行分組和聚合功能

  • 使用case語句和篩選條件

第41 - 50天:探索性數據分析(EDA)

在任何數據科學項目中,大約80%的時間用於此活動,因此最好花時間徹底學習此主題。為了學習探索性數據分析,這裡不涉及一組特定的功能或主題,但是數據集和用例將驅動分析。因此,最好使用一些來自kaggle中主辦的比賽的樣本數據集,學習如何執行探索性分析。

學習探索性數據分析的另一種方法是編寫關於數據集的問題,並嘗試從數據集為它們找到答案。比如,如果我考慮最受歡迎的鐵達尼號數據集,然後嘗試尋找問題的答案,比如哪種性別/年齡/甲板的人有更高的死亡概率等等。你進行全面分析的能力會隨著時間的推移而提高,所以要有耐心,慢慢地自信地學習。

到目前為止,您已經學習了數據科學家所需的所有核心技能,現在可以學習算法了。

數學怎麼了?

是的,了解線性代數和微積分是重要的,但我寧願不花時間學習數學概念,但當他們需要,你可以參考和溫習你的技能,高中水平的數學將是足夠的。例如,假設你正在學習梯度下降法在學習算法的同時你可以花時間學習它背後的數學知識。 因為如果你開始學習數學中的重要概念,那麼它可能是非常耗時的,而且通過在需要的時候學習,你會學到足夠的時間所需要的東西,但是如果你開始學習數學中的所有概念,那麼你將會花費更多的時間,學到的東西將遠遠超過所需要的。 

第51天到第70天:監督學習和項目實施

在開始的10天裡,學習一些關鍵的算法,理解它們背後的數學原理,然後在接下來的10天裡,專注於通過開發一個項目來學習。這節課要講的一些算法有:

  • 線性回歸和邏輯回歸

  • 決策樹/隨機森林

  • 支持向量機(SVM)

在最初的10天裡,重點應該是理解你所選擇的算法背後的理論。然後花些時間了解每個算法比其他算法更適合的場景,比如當數據集中有很多分類屬性時,決策樹是最好的。

然後選擇一個解決的例子在Kaggle,你將能夠找到大量解決的例子嘗試重新執行他們,但仔細理解每一行代碼,並理解他們的原因。到目前為止,您已經獲得了良好的理論知識,以及從解決的示例的工作知識。

最後一步,選擇一個項目,並實現一個有監督的學習算法,從數據收集、探索性分析、特性工程、模型構建和模型驗證開始。肯定會有很多問題和問題,但當你完成項目時,你會對算法和方法有很好的了解。

第71天到第90天:無監督學習和項目實施

現在是時候關注非監督學習了,類似於在監督學習中使用的方法,先花幾天時間理解你在非監督學習中選擇的算法背後的概念,然後通過實施一個項目來學習。

這裡要講的算法是,

  • 聚類算法-用於在數據集中識別聚類

  • 關聯分析——用於識別數據中的模式

  • 主成分分析——用於減少屬性的數量

  • 推薦系統-用於識別相似的用戶/產品並進行推薦

最初的日子裡,應把重點放在理解上面的算法和技術也了解他們每個人的目的,他們可以使用的場景像主成分分析通常用於數據集降維,當你工作在一個非常大的列數和你想要減少,但仍保留信息和推薦系統在電子商務流行基於客戶的購買模式可以推薦他們可能感興趣的其他產品來增加銷量。

當您熟悉了可以使用它們的理論和場景後,就可以選擇一個已解決的示例,並通過逆向工程來學習,即理解每一行代碼並重新執行它們。

作為最後一步,現在是選擇用例並基於您目前所學實現的時候了。在完成項目/用例時,你會學到很多東西,你會對這些算法有更好的理解,這將永遠伴隨著你。

第91天到第100天:自然語言處理基礎

利用這段時間關注非結構化/文本數據的分析和用例。值得花時間在這裡的事情很少

就是這樣!現在,您已經介紹了所有重要的概念,可以申請任何數據科學工作了。我已經在我的YouTube頻道上開始了為期100天的學習數據科學的教程,如果你感興趣,請加入我,在這裡開始你的學習數據科學的教程。

https://youtu.be/VaXijSN_SJc

常見問題

有人能在100天內成為數據科學家?

是的,就像任何人都可以在幾天內學會遊泳一樣,任何人都可以在100天甚至更短的時間內學會數據科學。但是就像遊泳一樣,要想成為一名優秀的遊泳運動員或者奧運會遊泳運動員,必須通過努力和不斷的練習,數據科學也是一樣,通過不斷的練習和努力,你才能成為一名專家。

如果我沿著這教程走下去,我能學到多少?

在教程結束時,您將有足夠的知識來從事典型的數據科學項目。這樣,您就打破了學習障礙,因此只需付出最小的努力和最少的支持,您就能夠繼續學習數據科學中的高級主題。

結束前的最後信息

一開始,事情可能看起來太複雜,不要不知所措,只要一步一個腳印,繼續你的學習之旅,這可能需要一些時間,但你一定會到達你的目的地。


雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業轉變與技術創新的見解。

團隊成員有大數據專家,算法工程師,圖像處理工程師,產品經理,產品運營,IT諮詢人,在校師生;志願者們來自IBM,AVL,Adobe,阿里,百度等知名企業,北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Github 首選數據科學入門指南
    來源:開源最前線(ID:OpenSourceTop) 最近,在 Github 上發現了一份數據科學的
  • 一份完整的數據科學競賽指南!
    在過去幾年時間內,筆者靠著個人天賦和不懈努力,從0到1地走通了數據科學競賽方法論,培養了一直數據科學競賽的團隊,並作為隊長率多名選手參與了近20次數據科學競賽,獲得前5名5次,前10名8次,賽題方向包括金融、交通、信息安全、廣告推薦、運籌優化等。考慮到近幾年在數據科學競賽裡取得的豐厚的成果,我將自己的獨門秘笈進行了詳細總結並開源之,希望可以幫助更多同學快速上手相關比賽。
  • 高清圖解:神經網絡、機器學習、數據科學一網打盡|附PDF
    今天,新智元要為大家推薦一個超實用、顏值超高的神經網絡+機器學習+數據科學和Python的完全圖解,文末附有高清PDF版連結,支持下載、列印,推薦大家可以做成滑鼠墊、桌布,或者印成手冊等隨手攜帶,隨時翻看。
  • 想學習數據科學?我們整理了一份優質編程入門課程清單
    並且制定了一份數據科學編程方向的課程清單,其中很多課程我已經上過,其他課程均根據網站評分和評論等進行了篩選。對於本課程指南,我花了 20 多個小時查找截至 2016年 8 月前所有在線編程課程的簡介,並從其大綱和評論中提取關鍵信息,對其進行評分。除了開源的 Class Central  社區和它數以千計的課程評分及評論的資料庫,我沒有藉助其他任何幫助。
  • 【TD精選】學習數據科學的102個資源
    35 - 數據科學(EdX)https://www.coursera.org/specializations/statisticsEdx的這套學習計劃可以幫助您獲得認證——如果您願意為此付費。36 -Insight數據科學獎學金http://insightdatascience.com/Insight數據科學獎學金是一種特殊的數據科學教育獎勵計劃——它授予博士後。對已經表現出技術能力的學生,通過獎學金幫助他們接觸行業知識,彌合學術界和行業之間的差距。
  • 一份數據工程師必備的學習資源,乾貨滿滿
    (給數據分析與開發加星標,提升數據技能)英文:PRANAV DAR,翻譯:張玲,轉自:數據派(ID:datapi)
  • 2020年數據科學與大數據技術專業填報指南
    這裡,我們整理了一份關於大數據相關專業的報考指南,如果你也想進入這個科技最前線,不妨先看完本文再決定報考哪個院校。 該專業以統計學、數學、計算機為三大支撐性學科,生物、醫學、環境科學、經濟學、社會學、管理學為應用拓展性學科。此外還需學習數據採集、分析、處理軟體,學習數學建模軟體及計算機程式語言等,知識結構是有專業知識和數據思維的複合跨界人才。
  • 一份數據工程師必備的學習資源,乾貨滿滿(附連結)
    數據倉庫是收集、存儲和檢索所有原始數據的地方,如果沒有數據倉庫,一個數據科學家做的所有任務就會變得要麼太昂貴,要麼太大,以至於無法拓展。ETL(提取、轉換和載入)是數據工程師構建數據管道所遵循的步驟,它實際上是一份關於如何處理、轉換收集來的原始數據以備分析的藍圖。數據工程師通常有著工程背景,與數據科學家不同的是,這個角色不需要太多的學術和科學知識。
  • 【翻譯】數據科學面試終極指南(4)
    前文傳送門:  【翻譯】數據科學面試終極指南(1)【翻譯】數據科學面試終極指南(2)【翻譯】數據科學面試終極指南(3)數據科學面試題行為試題請說明你以前做過的數據科學項目? 目的:了解求職者對相關知識的理解程度,曾做過什麼樣的貢獻。測試描述工作內容的能力,以及能否把數據科學項目經歷與對公司產生的影響聯繫起來。
  • 我的一年數據科學學習之旅
    啊哈,這是我的最愛😊因為我把大部分時間都浪費在這裡:Tetiana Ivanova 在 6 個月內找到了一份工作。Kelly Peng 辭去數據分析師工作一年之後,她找到了工作。Natassha Selvaraj 找到了一份工作,她正在大學裡讀書。Mikko Koskinen 甚至沒有打算成為一名數據科學家。
  • 信奧指南 | NOIP 2020 賽季新手備賽學習指南
    隨著人工智慧、大數據等新一輪科技革命和產業變革的深入推進,計算機科學基礎教育的人才選拔與培養逐漸受到重視。
  • 在過去的一年裡,我是如何自學數據科學的?
    作者: Harrison Jansma編譯: MikaCDA 數據分析師原創作品,轉載需授權在過去的一年裡,我自學了數據科學。我學習了數百個在線資源課程,每天學習6-8個小時,同時還在做一份兼職工作謀生。
  • 2020年數據科學與大數據技術專業填報指南(附院校及專業介紹)
    這裡,我們整理了一份關於大數據相關專業的報考指南,如果你也想進入這個科技最前線,不妨先看完本文再決定報考哪個院校。「數據科學與大數據技術」本科專業是 2016 年我國高校設置的本科專業,專業代碼為 080910T,學位授予門類為工學、理學,修業年限為四年,課程教學體系涵蓋了大數據的發現、處理、運算、應用等核心理論與技術,旨在培養社會急需的具備大數據處理及分析能力的高級複合型人才。
  • 這是一份寒假求生實用指南!
    這是一份寒假求生實用指南!,可以讓自己的寒假計劃和執行情況一目了然,學習更有目標感!,全面提升思想覺悟、文明素質、科學素養,相信認真學習的朋友們一定會收穫滿滿!終極黃金指南除了養成良好的學習習慣,合理安排時間給自己充電以外,寒假求生指南的靈魂當然就是哄老爸老媽開心了!
  • 一份Python入門學習指南
    近期,數據科學網站KDnuggets發布了2018數據科學和機器學習工具調查結果:Python榮登第一,成為最受青睞的分析、數據科學、機器學習工具
  • 冠軍之選 | 一份全面的國內外數據可視化書籍閱讀指南!
    她曾與世界上一些最以數據為驅動的組織以及一些極具使命感卻沒有數據的機構一起工作。她在這兩種情況下,幫助這些組織與機構優化他們的信息和想法。「你可以構建複雜的模型和豐富多彩的可視化效果,並將大量的數據加載到這些可視化之中。但是如果你的 TA 不能了解這些可視化的作品,那有什麼意義呢?最終數據可視化應該傳達或強調數據發生的事情。它應該講述一個故事。
  • 幼兒保育教育科學知識「宅家」學「《3-6歲兒童學習與發展指南...
    新冠病毒肺炎疫情期間,國家開放大學積極響應教育部「停課不停學」倡議,於2月8日通過國開享學吧網站(xiangxue8.com),面向社會免費開放優質在線培訓課程——「《3-6歲兒童學習與發展指南》解讀」(以下簡稱「《指南》解讀」)。截至3月26日,網站累計瀏覽量530餘萬次(PV),訪客已達100.4萬人次(UV),覆蓋學員40.6萬名,平均每天訪客數2萬人以上。
  • 2020年數據科學與大數據技術專業填報指南(附院校及專業介紹)
    這裡,我們整理了一份關於大數據相關專業的報考指南,如果你也想進入這個科技最前線,不妨先看完本文再決定報考哪個院校。該專業以統計學、數學、計算機為三大支撐性學科,生物、醫學、環境科學、經濟學、社會學、管理學為應用拓展性學科。此外還需學習數據採集、分析、處理軟體,學習數學建模軟體及計算機程式語言等,知識結構是有專業知識和數據思維的複合跨界人才。
  • 人工智慧,深度學習,數據科學的最新書籍推薦
    為了滿足廣大讀者的好奇心,我們曾整理過一系列人工智慧方面的書籍,如今我們又進行了更新,為大家帶來人工智慧、深度學習、數據科學的11本最新書籍。這些書都是知識性的作品,毫無虛構成分。以下介紹沒有特定的順序。1.
  • 最詳實的錄取數據告訴考生,考入廈門大學要多少分
    最詳實的錄取數據告訴考生,考入廈門大學要多少分 原創柒佰伴老馬2020-11-24 20:57:10 這篇文章裡,老馬想和您一起聊的是廈門大學。