100天學習計劃 | 一份詳實的數據科學指南

2020-11-30 雷鋒網

字幕組雙語原文:100天學習計劃 | 一份詳實的數據科學指南

英語原文:A Complete Guide to Learn Data Science in 100 Days

翻譯:雷鋒字幕組(不再聯繫791)


你是否對學習數據科學感興趣,但不知道從哪裡開始?如果是,那你來對地方了。

我遇到過許多對學習數據科學充滿熱情的人,但僅僅幾周後,他們就放棄了學習。我想知道為什麼一個人對一個領域如此熱情卻不去追求它?通過與他們中的一些人交談,我了解到人們放棄學習的主要原因是:

這些甚至會嚇到一個有經驗的數據科學家,難怪他們會讓試圖學習數據科學的人放棄。上面的每一個話題就像一片海洋,當有人試圖快速掌握它們時,他們會感到沮喪並放棄學習。真正的事實是,要想成為一名成功的數據科學家或成為一名數據科學家,你甚至需要掌握更多。 

如何學習數據科學

要成為一名數據科學家,你需要從以下條目中學到足夠多的知識: 

在下面的視頻中,我提到了學習數據科學的分步指南。我已經解釋了達到數據科學不同專業水平所需的知識深度。

https://youtu.be/5zec-qxfMvg

如何計劃學習?哪些主題應該首先涉及?

讓我來解釋一下100天學習數據科學的計劃。下面是使用Python學習數據科學的逐日計劃,該計劃跨度為100天,每天至少需要花費一個小時

第一天:安裝工具

只要確保安裝了所需的工具,並且您對接下來幾周/幾個月將要使用的工具感到舒適即可。如果選擇Python則安裝Anaconda,其中還會安裝IDEs Jupyter筆記本和Spyder。如果你選擇' R ',然後安裝RStudio。試著在IDE中玩一玩,並熟練地使用它。比如,嘗試理解包/庫的安裝、執行部分代碼、清理內存等等。

第2天到第7天:數據科學的基礎編程

下一步是學習基本的編程,下面是一些應該學習的主題:

第8天到第17天: Pandas 庫

了解 Pandas 庫,在 Pandas 中需要了解的一些主題是:

  • 創建數據幀,從文件讀取數據,並將數據幀寫入文件

  • 從數據框架中索引和選擇數據

  • 迭代和排序

  • 聚合和分組

  • 缺失值和缺失值的處理

  • Pandas 的重命名和替換

  • 在數據幀中連接、合併和連接

  • 總結分析,交叉表格,和樞軸

  • 數據,分類和稀疏數據

花10天時間徹底學習以上主題,因為這些主題在執行探索性數據分析時非常有用。在介紹這些主題時,請嘗試深入粒度細節,比如理解合併和連接、交叉表和樞軸之間的差異,這樣不僅可以了解它們中的每一個,還可以知道在何時和何處使用它們。

我為什麼要學 Pandas?如果您從事任何數據科學項目,它們總是從探索性數據分析開始,以便更好地理解數據,而您在 Pandas 中介紹的這些主題將會派上用場。另外,因為Pandas有助於從不同的來源和格式讀取數據,所以它們速度快、效率高,還提供了對數據集執行各種操作的簡單功能。

第18天到第22天:Numpy Library

學會 Pandas 之後,下一個需要學習的重要庫是Numpy。學習Numpy的原因是與List相比它們非常快。在Numpy中要涉及的主題包括:

  • 數組的創建

  • 索引和切片

  • 數據類型

  • 連接與分離

  • 搜索和排序

  • 過濾所需的數據元素

為什麼學習Numpy很重要?Numpy能夠以快速和高效的方式對數據執行科學操作。它支持機器學習算法中常用的高效矩陣運算,panda庫也廣泛使用了Numpy。

第23天到第25天:可視化

現在,我們需要花一些時間來理解和使用一些關鍵的可視化庫,比如ggplot、Plotly和Seaborn。使用示例數據集並嘗試不同的可視化,如柱狀圖、線形/趨勢圖、盒狀圖、散點圖、熱圖、餅狀圖、柱狀圖、氣泡圖和其他有趣的或交互式可視化。

數據科學項目的關鍵是與涉眾交流洞察力,而可視化是實現這一目的的很好的工具。

第26天到第35天:統計、實現和用例

下一個要討論的重要主題是統計學,探索常用的描述性統計技術,如平均值、中位數、眾數、範圍分析、標準差和方差。

然後介紹一些更深層次的技術,比如識別數據集中的異常值和測量誤差範圍。

作為探索各種統計測試(如下所示)的最後一步,了解這些統計測試在現實生活中的應用:

  • F-test  

  • ANOVA  

  • 卡方測試

  • T-Test

  • Z-Test  

第36天到第40天:用於數據分析的SQL

現在是學習SQL的時候了,這很重要,因為在大多數企業用例中,數據將存儲在資料庫中,了解SQL將極大地幫助從系統中查詢所需的數據進行分析。

您可以先安裝一個開源資料庫,比如MySQL,它會附帶一些默認資料庫,只需要處理數據並學習SQL。如果你能集中學習以下內容,那就太好了:

  • 從表中選擇數據

  • 基於鍵連接來自不同表的數據

  • 對數據執行分組和聚合功能

  • 使用case語句和篩選條件

第41 - 50天:探索性數據分析(EDA)

在任何數據科學項目中,大約80%的時間用於此活動,因此最好花時間徹底學習此主題。為了學習探索性數據分析,這裡不涉及一組特定的功能或主題,但是數據集和用例將驅動分析。因此,最好使用一些來自kaggle中主辦的比賽的樣本數據集,學習如何執行探索性分析。

學習探索性數據分析的另一種方法是編寫關於數據集的問題,並嘗試從數據集為它們找到答案。比如,如果我考慮最受歡迎的鐵達尼號數據集,然後嘗試尋找問題的答案,比如哪種性別/年齡/甲板的人有更高的死亡概率等等。你進行全面分析的能力會隨著時間的推移而提高,所以要有耐心,慢慢地自信地學習。

到目前為止,您已經學習了數據科學家所需的所有核心技能,現在可以學習算法了。

數學怎麼了?

是的,了解線性代數和微積分是重要的,但我寧願不花時間學習數學概念,但當他們需要,你可以參考和溫習你的技能,高中水平的數學將是足夠的。例如,假設你正在學習梯度下降法在學習算法的同時你可以花時間學習它背後的數學知識。 因為如果你開始學習數學中的重要概念,那麼它可能是非常耗時的,而且通過在需要的時候學習,你會學到足夠的時間所需要的東西,但是如果你開始學習數學中的所有概念,那麼你將會花費更多的時間,學到的東西將遠遠超過所需要的。 

第51天到第70天:監督學習和項目實施

在開始的10天裡,學習一些關鍵的算法,理解它們背後的數學原理,然後在接下來的10天裡,專注於通過開發一個項目來學習。這節課要講的一些算法有:

  • 線性回歸和邏輯回歸

  • 決策樹/隨機森林

  • 支持向量機(SVM)

在最初的10天裡,重點應該是理解你所選擇的算法背後的理論。然後花些時間了解每個算法比其他算法更適合的場景,比如當數據集中有很多分類屬性時,決策樹是最好的。

然後選擇一個解決的例子在Kaggle,你將能夠找到大量解決的例子嘗試重新執行他們,但仔細理解每一行代碼,並理解他們的原因。到目前為止,您已經獲得了良好的理論知識,以及從解決的示例的工作知識。

最後一步,選擇一個項目,並實現一個有監督的學習算法,從數據收集、探索性分析、特性工程、模型構建和模型驗證開始。肯定會有很多問題和問題,但當你完成項目時,你會對算法和方法有很好的了解。

第71天到第90天:無監督學習和項目實施

現在是時候關注非監督學習了,類似於在監督學習中使用的方法,先花幾天時間理解你在非監督學習中選擇的算法背後的概念,然後通過實施一個項目來學習。

這裡要講的算法是,

  • 聚類算法-用於在數據集中識別聚類

  • 關聯分析——用於識別數據中的模式

  • 主成分分析——用於減少屬性的數量

  • 推薦系統-用於識別相似的用戶/產品並進行推薦

最初的日子裡,應把重點放在理解上面的算法和技術也了解他們每個人的目的,他們可以使用的場景像主成分分析通常用於數據集降維,當你工作在一個非常大的列數和你想要減少,但仍保留信息和推薦系統在電子商務流行基於客戶的購買模式可以推薦他們可能感興趣的其他產品來增加銷量。

當您熟悉了可以使用它們的理論和場景後,就可以選擇一個已解決的示例,並通過逆向工程來學習,即理解每一行代碼並重新執行它們。

作為最後一步,現在是選擇用例並基於您目前所學實現的時候了。在完成項目/用例時,你會學到很多東西,你會對這些算法有更好的理解,這將永遠伴隨著你。

第91天到第100天:自然語言處理基礎

利用這段時間關注非結構化/文本數據的分析和用例。值得花時間在這裡的事情很少

就是這樣!現在,您已經介紹了所有重要的概念,可以申請任何數據科學工作了。我已經在我的YouTube頻道上開始了為期100天的學習數據科學的教程,如果你感興趣,請加入我,在這裡開始你的學習數據科學的教程。

https://youtu.be/VaXijSN_SJc

常見問題

有人能在100天內成為數據科學家?

是的,就像任何人都可以在幾天內學會遊泳一樣,任何人都可以在100天甚至更短的時間內學會數據科學。但是就像遊泳一樣,要想成為一名優秀的遊泳運動員或者奧運會遊泳運動員,必須通過努力和不斷的練習,數據科學也是一樣,通過不斷的練習和努力,你才能成為一名專家。

如果我沿著這教程走下去,我能學到多少?

在教程結束時,您將有足夠的知識來從事典型的數據科學項目。這樣,您就打破了學習障礙,因此只需付出最小的努力和最少的支持,您就能夠繼續學習數據科學中的高級主題。

結束前的最後信息

一開始,事情可能看起來太複雜,不要不知所措,只要一步一個腳印,繼續你的學習之旅,這可能需要一些時間,但你一定會到達你的目的地。


雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業轉變與技術創新的見解。

團隊成員有大數據專家,算法工程師,圖像處理工程師,產品經理,產品運營,IT諮詢人,在校師生;志願者們來自IBM,AVL,Adobe,阿里,百度等知名企業,北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 招辦面對面 | 計劃招生3991人,新增智能科學與技術、數據科學與大...
    2020年招生變化及亮點  (一)繼續全部按專業招生,利於考生直接進入心儀專業就讀,新增智能科學與技術,數據科學與大數據技術2個專業,動物醫學專業從4年制改變為5年制,有利於學生的培養發展。  (四)我校2020年有8個專業及1個小班選考科目僅限物理:計算機科學與技術、工業設計、機械設計製造及其自動化、土木工程、智能科學與技術、電子信息工程、物聯網工程、數據科學與大數據技術及新工科求真實驗班2;1個專業僅限化學:高分子材料與工程;1個專業僅限地理:測繪工程。  (五)為鼓勵優秀學生報考,學校設立新生獎學金,最高可以拿到8萬,有關獎勵規定可見我校招生章程。
  • 圖解《3—6歲兒童學習與發展指南》科學領域
    2012年教育部頒布《3-6歲兒童學習與發展指南》(以下簡稱《指南》),通過提出3-6歲各年齡段兒童學習與發展目標和相應的教育建議,幫助幼兒園教師和家長了解3-6歲幼兒學習與發展的基本規律和特點,建立對幼兒發展的合理期望,實施科學的保育和教育,讓幼兒度過快樂而有意義的童年。
  • 如何制定一個成功的數據科學培訓計劃 - 大數據_CIO時代網 - CIO...
    數據科學家目前仍很短缺。一些公司通過設立培訓計劃以重新培訓員工去擔任數據科學職位,從而填補這一空缺。   那些知道如何幫助組織機構充分利用其信息資源的技術專業人員(尤其是數據科學家)目前需求量很大而供應短缺。
  • 海量權威數據+科學多元算法,看京東金榜如何打造「網購第一榜單」
    12大消費趨勢&100金獎單品 站穩潮流一線的消費指南此前,人民網通過微博發起了一則主題為#2020最後悔的網購行為#的投票,許多曾經因消費決策失誤後悔下單的網友都在選項中找到了自己的身影一份公正、專業、權威的榜單,將避免網購決策失誤,在下單之前給消費者帶來靠譜指南,這也是京東金榜年度盛典將要為消費者要帶來的解決之道。在全年最後一個購物季12.12到來之際,京東金榜年度盛典將為消費者送上雙份大禮包,既有基於千萬人下單數據而形成的年度12大消費趨勢,讓消費者了解最新消費潮流;又有100大金獎單品做清單,給消費者帶來具體決策指導。
  • 「邯鄲市復興區」「六朵金花」撐起防疫數據一片天——疫情防控...
    這裡是邯鄲市復興區二六七二街道疫情防控指揮部數據組,不大的辦公室,固話和手機鈴聲、交流聲、敲打鍵盤聲此起彼伏;這裡是夜晚如白晝的地方,自指揮部成立以來,數據組辦公室的燈就從未熄滅過。在這間小小的辦公室裡,數據組的六位女同志每天匯總著轄區疫情防控最核心、最重要的數據。
  • 數據科學與大數據技術專業哪家強?考取難度排名前100院校出爐!
    數據科學與大數據技術距今僅發展了5年,現發展基本穩定且還處於探索階段。數據科學與大數據技術專業考取難易度排名前100的院校中211及以上院校佔29%,重點院校佔55%。表1 數據科學與大數據技術專業考取難易度排名Top100數據來源:2018年全國普通本科批錄取數據(西藏數據缺失)註:1.本排名代表各院校此專業的綜合考取難度排名
  • 《數據安全能力成熟度模型》實踐指南:數據分級分類
    DSMM將數據安全成熟度劃分成了1-5個等級,依次為非正式執行級、計劃跟蹤級、充分定義級、量化控制級、持續優化級,形成一個三維立體模型,全方面對數據安全進行能力建設。02實踐指南組織建設組織機構在條件允許的情況下應該設立一個數據分類分級部門並招募相關人員,負責公司整體的數據分類分級工作,包括負責定義組織機構整體的數據分類分級安全原則和操作指南、推動相關指南的落地情況、
  • 浙大學子曬出700份居家計劃:學習健身做菜陪家人多管齊下
    「7點50分起床做運動,8點開始學習,10點進行40分鐘的運動……」這是人文學院陸丹琦給自己定下的新學期上網課前的作息計劃。這些天,浙江大學團委舉辦了一場「居家作息」徵集活動,這是繼「最美學習筆記大賽」之後推出的又一項優良學風建設活動。
  • 寫給大人的百科全書——評《阿西莫夫最新科學指南》
    讀大學、讀研究生、讀博士,從直接背誦結論到學習解決問題的辦法,再到提出別人沒想過的問題。在一個方向鑽研得越深,視野就越是狹窄;離「人才」之名越近,離「全才」之名就越遠。難免會羨慕,當初似乎無所不知的自己。偶爾也是要開拓下視野的,這是我推薦《阿西莫夫最新科學指南》的第一個理由。《阿西莫夫最新科學指南》,圖自douban不過,即使想開拓視野,又談何容易。
  • 最詳實的錄取數據告訴考生,考入河海大學要多少分
    學校水利工程、環境科學與工程2個學科入圍一流學科建設名單。工程學、環境/生態學、計算機科學、材料科學、地球科學5個學科進入ESI世界排名前1%。在全國第四輪學科評估中,水利工程學科以優異成績獲評A+;土木工程、環境科學與工程2個學科位列A-,躋身全國前10%;馬克思主義理論、管理科學與工程、工商管理3個學科獲評B+,位列全國前20%。
  • 開學季指南:訊飛智能學習機幫助孩子自主學習更輕鬆
    1對1的A.I.家庭教師 輔導孩子學習不用愁 憑藉科大訊飛多年來在行業中的實踐與沉澱,訊飛智能學習機X2 Pro打造出一套高效的智慧學習方法,藉助人工智慧大數據分析技術,通過1對1的A.I.家庭教師的方式,幫助學生快速找到薄弱環節,進而有針對性地學習和鞏固,科學高效地提高學習成績。
  • 播撒科學種子:犀牛鳥中學科學人才培養計劃啟動
    近日,犀牛鳥中學科學人才培養計劃在線啟動,哈佛大學和清華大學教授、北京雁棲湖應用數學研究院院長丘成桐,騰訊公司副總裁王巨宏出席啟動儀式並致辭。清華大學計算機系教授胡事民、西安交通大學自動控制研究所副教授鍾德星、騰訊產學合作負責人劉婷婷等在線上見證儀式,來自全國13個省市30餘所中學的近100名優秀學生由此開啟他們的科學研究新徵程。
  • 這裡有一份免費線上聽課指南,請查收
    學生孩子們的健康安全得到了保障,但學習問題成為了家長們心中擔心的問題。對此,國內眾多網際網路教育平臺、音視頻分享平臺及高校等相關教育機構紛紛行動,免費開放線上課程及學習資源,讓所有在學生階段的人群做到「停課不停學」。中新經緯也總結了一份《免費線上聽課不完全指南》,供各年齡段學生及家長參考。
  • UMU創始人李東朔邀你加入學習圈,探討學習的科學
    UMU創始人李東朔學習科學是建立在腦科學和認知學基礎上發展出的一門實證科學,研究學習行為如何發生,什麼樣的學習行為真正有效果。網際網路的高速發展滲入學習領域,手機、平板在日常中的使用為學習帶來了新的學習場景,新的學習場景如何利用,以及新的學習技術是否有效都是學習科學關注的範疇。
  • 博文視點大咖直播伴你讀No.3:數據分析學習之道
    但很多人對於大數據的職位體系不了解,不知道自己該不該轉行學習大數據,不知道自己是否要轉大數據專業,那麼如何才能找到一條從入門到進階的最佳學習路線呢?本場直播將從數據分析師成長過程中的幾個階段為你提供成長建議!
  • 生命科學數據分析軟體GraphPad加速中國市場開拓
    為更好的服務和支持中國客戶,GraphPad公司計劃在中國推出全新的渠道計劃、專門的服務和支持、本地化的網站、以及官方微信服務號GraphPad是全球領先的生命科學行業數據分析和可視化軟體的提供商,該公司今天宣布了一系列加快在華業務增長的措施和計劃
  • 362個超詳實3D實操動畫演示,專攻一建,二建實務,考試必備
    今天給大家整理了362個超詳實一建,二建3D實操動畫演示,解決缺乏現場工程實踐問題,突破案例難題,從死記硬背的煩惱中解脫出來。362個超詳實3D實操動畫演示,專攻一建362個超詳實一建,二建3D實操動畫演示
  • 考前100天如何提高100分?非英語專業必看!
    這意味著距離7月份的考試還有30天左右,距離9月份還有100天左右。那麼考前100天如何讓四六級提高100分及以上呢?尤其是非英語專業學生,考前提分攻略一定要看!1.計劃+行動,完美結合有不少畢業生調侃道,自己大學四年最認真的時候也就是期末考試和英語四六級了。這確實說到了大學生學習的痛點了。
  • Dataiku在《高德納2020年數據科學和機器學習平臺魔力象限》報告中...
    此次入選是Dataiku連續第四年進入高德納報告,也是第一年入選領導者象限紐約2020年2月18日 /美通社/ -- 今天,全球最先進的企業AI(人工智慧)平臺之一Dataiku,入選《高德納2020年數據科學和機器學習平臺魔力象限》(Gartner
  • MonkeySo X數字計劃新年限定璀璨禮盒燃爆上市
    火爆全網的「MonkeySo X數字計劃」在新年之際,推出了節日氛圍濃厚的1788新年限定璀璨禮盒,紅色包裝非常討喜,熱情而溫暖。禮盒包含了3天12餐,嚴格控卡控糖,為您科學搭配營養全餐。國家級認證營養師1對1指導,根據不同的年齡、BMI、體力活動等因素,專屬制定方案來實現能量差,調控身體平衡。