如果能重來,我選擇這樣學習數據科學……

2021-01-11 讀芯術

全文共6131字,預計學習時長16分鐘

圖源:unsplash

筆者非技術背景出身,因此在開始數據科學生涯時,或多或少是自己在單打獨鬥的。我花了大量的時間了解應該從哪裡開始,首先學習什麼,以及利用哪些資源。

在過去的兩年裡,筆者學到了一些希望有人能早早教導我的事情,比如應該首先關注編程還是統計,應該利用什麼資源學習新技能,以及如何學習新技能等等。因此,本文旨在為那些正在數據科學道路上迷茫徘徊的人提供一些指導和見解。

一名有抱負的數據科學家通常會希望能完全理解各種機器學習算法、數據科學思想等的概念和細節。

因此,筆者建議在學習機器學習算法或數據科學應用程式之前先從構建區塊開始。如果對微積分和積分、線性代數和統計都沒有基本的了解,那麼你將很難理解各種算法背後的機制。同樣,如果對Python沒有基本的了解,那麼你將很難在現實中應用所學知識。

數學和統計

和任何事情一樣,在接觸到有趣的內容之前首先要學習基礎知識。請相信筆者,在學習機器學習算法之前先掌握數學和統計學的話,將會輕鬆許多。筆者推薦你回顧一下三個主題:微積分/積分、統計和線性代數(順序不限)。

1.積分

當涉及概率分布和假設檢驗時,積分是必不可少的。雖然不必要成為此領域的專家,但學習積分的基本原理益處多多。

下面這些資源,前兩篇文章的適用對象是那些想要了解什麼是積分或那些只需要複習的人。如果你對積分一無所知,筆者建議學習可汗學院的課程。最後,還可以通過連結裡的練習題來磨練技能。

· 積分入門(文章)

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fan-integrals-crash-course-for-data-science-cf6e6dd7c046

· AP微積分速成課程 (文章)

https://www.albert.io/blog/how-to-solve-integrals-ap-calculus-crash-course/

· 可汗學院:積分學 (課程)

https://www.khanacademy.org/math/integral-calculus

· 練習題 (從第六單元開始)

https://www.albert.io/ap-calculus-ab-bc?utm_source=blog&utm_medium=blog&utm_campaign=ap-calculus

2.統計

你應該投入大部分的時間學習統計。畢竟,數據科學家實際上是現代統計學家,而機器學習是統計學的現代術語。

如果有時間,筆者建議你去學習喬治亞理工學院的「統計方法」課程,它涵蓋了概率基礎、隨機變量、概率分布、假設檢驗等。(https://mediaspace.gatech.edu/playlist/dedicated/74258101/1_g5xwvbde/1_iw8fk73m)

如果沒有時間學習上述課程,筆者建議你務必要去看一下可汗學院關於統計學的視頻。(https://www.khanacademy.org/math/statistics-probability)

3.線性代數

如果你想繼續深入學習,線性代數特別重要。但除此之外,了解其他基本的機器學習概念,如主成分分析和推薦系統,也是有好處的。關於線性代數,筆者還是推薦可汗學院!

圖源:unsplash

程序設計基礎

編程的重要性也十分重要,對編程有基本的了解將使工作變得更簡單,特別是在實踐時。因此,筆者建議在深入研究機器學習算法之前,花點時間學習基本的SQL和Python。

1.SQL

先學習Python還是SQL完全取決於自己,但如果要問筆者,我會從SQL開始。為什麼?因為如果你所在的公司從事數據工作,即使你不是數據科學家,學習起來也很容易,而且很有用。

如果完全不熟悉SQL,筆者建議閱讀Mode的SQL教程,因為它非常簡潔並且全面。(https://mode.com/sql-tutorial/introduction-to-sql/)

如果想學習更高級的概念,可以查看筆者的資源列表,在你可以學習進階的SQL。(https://towardsdatascience.com/6-incredible-resources-to-learn-advanced-sql-364fe0889dcd)

下面是一些可以用於實踐SQL的資源:

· leetcode

https://leetcode.com/problemset/database/

· hackerrank

https://www.hackerrank.com

· 案例研究

https://docs.google.com/document/d/1_-pPj_HusumXskhsXFOccimhDSloWkAyEdCOxv7mZFY/edit#heading=h.sspk8oxbveqv

2.Python

筆者從Python開始學習編程的,而且很可能會在餘下的職業生涯中堅持使用Python。就開源貢獻而言,它遙遙領先,而且學習起來簡單,你可以把它和R語言一起學。

就我個人而言,筆者發現通過「實踐」來學習Python更有幫助。話雖如此,體驗過幾個Python速成課程之後,筆者發現以下課程是最全面的,而且免費!

· Python編程入門-喬治亞理工學院

https://www.edx.org/professional-certificate/introduction-to-python-programming

3.Pandas

可以說,Python中需要了解的最重要的庫是Pandas,它專門用於數據操作和分析。下面的兩項資源,掌握起來會很快。第一個連結是使用Pandas的教程,第二個連結提供了許多練習題,可以使用它們來鞏固你學到的知識:

· 與Kaggle一起學習Pandas

https://www.kaggle.com/learn/pandas

· 使用習題練習Pandas

https://github.com/guipsamora/pandas_exercises

機器學習算法和概念

圖源:unsplash

如果已經到了這一步,意味著你已經打下了基礎,準備好學習有趣的東西了。這一節將分為兩個部分:機器學習算法和機器學習概念。

1.機器學習算法

接著你可以了解各種機器學習算法,以及它們的工作原理和使用方法了!

· 線性回歸

喬治亞理工學院:

https://www2.isye.gatech.edu/~sman/courses/6739/SimpleLinearRegression.pdf

StatQuest:

https://www.youtube.com/watch?v=nk2CQITm_eo&ab_channel=StatQuestwithJoshStarmer

· 邏輯回歸——StatQuest

https://www.youtube.com/watch?v=yIYKR4sgzI8&ab_channel=StatQuestwithJoshStarmer

· k近鄰算法——MIT

https://www.youtube.com/watch?v=09mb78oiPkA&ab_channel=MITOpenCourseWare

· 決策樹——StatQuest

https://www.youtube.com/watch?v=7VeUPuFGJHk&ab_channel=StatQuestwithJoshStarmer

· 樸素貝葉斯

Terence Shin:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fa-mathematical-explanation-of-naive-bayes-in-5-minutes-44adebcdb5f8

Luis Serrano:

https://www.youtube.com/watch?v=Q8l0Vip5YUw&ab_channel=LuisSerrano

· 支持向量機

SVM教程:

https://www.svm-tutorial.com/2014/11/svm-understanding-math-part-1/

Alice Zhao:

https://www.youtube.com/watch?v=N1vOgolbjSc&ab_channel=AliceZhao

· 神經網絡——Terence Shin

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fa-beginner-friendly-explanation-of-how-neural-networks-work-55064db60df4

· 隨機森林——StatQuest

https://www.youtube.com/watch?v=J4Wdy0Wc_xQ&ab_channel=StatQuestwithJoshStarmer

· Adaboost算法

Terence Shin:

https://towardsdatascience.com/a-mathematical-explanation-of-adaboost-4b0c20ce4382?source=friends_link&sk=956d985b9578c3d272e3851a53ee822a

StatQuest:

https://www.youtube.com/watch?v=LsK-xG1cLYA&t=9s&ab_channel=StatQuestwithJoshStarmer

· 梯度提升——StatQuest

https://www.youtube.com/watch?v=3CC4N4z3GJc&t=1s&ab_channel=StatQuestwithJoshStarmer

· 極端梯度提升——StatQuest

https://www.youtube.com/watch?v=OtD8wVaFm6E&t=1s&ab_channel=StatQuestwithJoshStarmer

· 主成分分析——StatQuest

https://www.youtube.com/watch?v=FgakZw6K1QQ&ab_channel=StatQuestwithJoshStarmer

2.機器學習的概念

這裡還有一些基本的機器學習概念供你回顧,筆者強烈建議你閱讀下面這些概念,許多面試問題都基於這些主題。

· 權衡偏差與方差

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Funderstanding-the-bias-variance-tradeoff-165e6942b229

· 正則化

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fregularization-in-machine-learning-76441ddcf99a

· 混淆矩陣和相關指標

https://towardsdatascience.com/understanding-the-confusion-matrix-and-how-to-implement-it-in-python-319202e0fe4d?source=friends_link&sk=434d5a02fcaec213208c2eeb1174b5c6

· AUC和ROC(視頻)

https://www.youtube.com/watch?v=4jRBRDbJemM

· 自助抽樣:

https://towardsdatascience.com/what-is-bootstrap-sampling-in-machine-learning-and-why-is-it-important-a5bb90cbd89a

· 集成學習、Bagging和Boosting:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21

· 標準化vs規範化:

https://www.statisticshowto.com/probability-and-statistics/normal-distributions/normalized-data-normalization/#:~:text=Normalization%20vs.-,Standardization,a%20standard%20deviation%20of%201.

數據科學項目

至此,你不僅建立了堅實的基礎,而且對機器學習的基本原理也有了充分的理解。現在是時候做一些個人的業餘項目了。如果想了解一些簡單的數據科學項目的例子,不妨看看下面的項目:

· 用分類技術預測葡萄酒質量

https://towardsdatascience.com/predicting-wine-quality-with-several-classification-techniques-179038ea6434

· 使用Plotly可視化冠狀病毒數據

https://towardsdatascience.com/coronavirus-data-visualizations-using-plotly-cfbdb8fcfc3d

· 電影協同過濾推薦系統

https://github.com/terenceshin/Recommendation-System

圖源:unsplash

其實沒有什麼通用的方法,但是你可以借鑑別人方法來找到適合自己的。希望本文能為你的數據科學職業生涯提供一些指導和幫助,筆者堅信學習基本原理在將來會得到回報。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 如果能重來,你會選擇什麼大學專業?網友:首選計算機專業
    如果能重來,你會選擇什麼大學專業? 每個人一生中都會有很多後悔的事情,在當時沒有勇氣、當時沒有多考慮,以後就會後悔。當然世上是沒有後悔藥的,你只能夠用以後的時光慢慢彌補。 有這麼一個話題,是關於高考的。
  • 100天學習計劃|一份詳實的數據科學指南
    如何學習數據科學要成為一名數據科學家,你需要從以下條目中學到足夠多的知識: Python或R編程的基礎知識如果選擇Python,那麼像panda和Numpy這樣的庫可視化庫,如ggplot、Seaborn和Plotly。統計數據SQL編程數學,尤指線性代數和微積分在下面的視頻中,我提到了學習數據科學的分步指南。
  • 抖音如果生命可以回到從前是什麼歌? 《如果一切可以重來》給你...
    抖音如果生命可以回到從前是什麼歌? 《如果一切可以重來》給你重來一次的機會時間:2019-05-13 11:21   來源:愛福清網    責任編輯:沫朵 川北在線核心提示:原標題:抖音如果生命可以回到從前是什麼歌?
  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 如果選擇氣象專業,你的未來會怎樣?
    我與氣象結緣的時間並不早。直到大學考研選專業時,我放棄了未來可能成為女程式設計師的人生,選擇去一個離家稍近、聽著又高冷的學校——中國科學院青藏高原研究所(北京)學習大氣物理學與大氣環境。從計算機科學與技術轉到氣象專業,起初我真是經歷了一段聽不懂、學不會的過程。
  • 女生是否適合學習數據科學與大數據技術
    首先,在當前的大數據時代背景下,女生選擇學習數據科學與大數據技術是不錯的選擇,未來也有較多的就業機會。從技術體系結構來看,數據科學與大數據技術涉及到數學、統計學和計算機三大塊內容,總體上的知識量和學習難度都相對比較大,所以女生選擇大數據方向之前,應該首先考慮一下自己的知識結構和學習能力。另外,學習大數據知識還需要進行大量的實踐,而實踐環節還涉及到很多行業領域的知識,包括經濟學、社會學、醫學等等,所以學習大數據技術還是比較辛苦的。
  • 3本炒雞虐的小說,如果能重來,我寧願不認識你
    3本炒雞虐的小說,如果能重來,我寧願不認識你哈嘍,大家好,我是妮露去旅行,今天給大家推薦3本炒雞虐的小說,如果能重來,我寧願不認識你,現在很多的女生都愛看小說,隨著閱讀量的增加,境界也會在無形中上升,沒有對比就沒有傷害,不知不覺就覺得無書可看
  • 如果給你一個機會回到過去,讓一切重來,一切真的能變好嗎?
    回到過去這個話題真的是經久不衰,無論大人還是孩子,男人還是女人,好人還是壞人,大約每個人在回想過去的時候都會有或多或少的遺憾,也經常會生出類似「如果當時做了(或者別去做)某件事,一切是否會有所不同?」這樣的想法。
  • 抖音如果今生不能相愛來世重來是什麼歌
    那麼,抖音如果今生不能相愛來世重來是什麼歌? 抖音如果今生不能相愛來世重來是什麼歌: 這首歌曲的歌名叫做《相思成災》,是由鄭亦辰創作的一首歌曲,由鄭亦辰作詞、作曲並演唱的一首歌曲。 這是一首傷感情歌,傷感的旋律,讓人聽了很想哭。該歌曲的發行時間是在2020年4月2日,歌曲一經發行,在抖音、QQ音樂等平臺流行了起來。
  • 被稱為21世紀最性感的工作,我們要如何學習「數據科學」?
    數據科學是什麼?怎樣才能成為一名數據科學家?數據科學的歷史可以追溯到20世紀60年代,但是在當時並未引起學術界的注意。在這個研究被《哈佛商業評論》評為「21世紀最性感的工作」之後,數據科學激起了廣大公眾的興趣!那麼數據科學到底是什麼?怎樣才能成為一名數據科學家?
  • 如果時間可以倒流,我再也不會選擇你,因為我的愛讓你太累了
    可就是這樣不被看好的兩個人最終走到了一起,出入成雙,不知惹紅了多少人的眼睛,畢業的時候她放棄了進省城的機會,心甘情願跟他去了貧窮的西北。她的父母專程跑來勸她,還開出10萬元的分手費給他,但她不依,他也不依,氣得他們拂袖而去。不久,他們結婚了,她的家人沒來,但簡簡單單的婚禮並沒有降低她愛他的決心。
  • 學長:「如果能重來,一定不會在大三大四的時候匆匆準備考研」
    「大四匆匆準備可能不行吧,每年那麼多人被刷,要不大三開始吧;身邊的朋友都在學習了,不能落後,大二就開始準備吧;學校的保研名額有限,一定要早早準備,在大一的時候就要做好學業,這樣更保險」這個想法輔導員、大四學生或者已經考過研同學是最能理解的,因為真正能在大一認識到學習重要性的不多,這也是為什麼很多輔導員會在大一的時候就讓大家準備考研
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候&34;概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    ——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 《大腦簡史》:能靠大數據學習的功能,計算機都會比人類強
    「如果頭再大,有兩個問題,大腦搶奪所有生理資源,會弱化其他器官不利生存,再者,頭太大會引發難產,所以大腦的容量不能再變大。」試想,人類的頭如果無止盡變大,身體要如何撐起這樣的頭?野外遭受野獸襲擊時,頭太大,跑一跑可能脖子會斷掉。
  • 如果英語不好,是選擇繼續學習英語還是選擇日語參加高考?
    這是很多家長糾結的事情,也是很都家長問道我的問題,也是很多學生迷茫的地方。我今天給大家具體說一下,其實這個問題很簡單,舉個例子,小明同學高二英語成績考試50分,也參加英語培訓班,同樣也面臨的如果英語不好,我是繼續學習英語還是選擇日語參加高考?
  • 如果可以回到過去,你選擇回到什麼時候?
    是我把她弄丟了,如果再給我一次機會我不會再那麼混蛋的讓她傷心。點擊圖片立即換裝↑如果能帶著記憶回到過去,希望回到學齡前重活一次,豪不怯懦的向父母提出學習樂器的要求,有老師參與的校園暴力也無法把我壓垮,在我媽開始盲目吃藥把自己身體搞壞之前阻止她。
  • 蔡健雅新歌重來在哪試聽 重來完整歌詞歌曲介紹
    但要在許多Tanya的創作當中要如何遴選並收進「Cherished 割愛」就相當困難了,Tanya與工作人員幾經討論後,最終選定了「重來」與「貪圖」兩首歌重新配置,讓當初撰寫時所想像的表現付諸實現。「重來」運用簡單的樂器搭配蔡健雅Tanya純粹直白的聲線娓娓道出對愛的假設,然而詞句中所提及的感情歷程誰又能保證成功與否,歌裡所表達的未知與忐忑藉由Tanya的聲線細細品味。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。