Github標星超7k!從零開始,最簡明扼要的數據科學學習路徑

2020-12-13 大數據文摘

大數據文摘出品

作者:蔣寶尚

試圖入門一個新話題時,多數人會感到不知所措?這時候,一份明確的學習路徑可以幫你去除這一焦慮。

數據科學當然也有這樣一套路徑。

一周前在Github上出現的一份超高贊貼就總結出了這樣一份「入門套路」,據這位神秘的發帖人所說,數據科學的學習不需要繁雜的準備和高深的數學知識,你只需有足夠的時間、正確的學習方法、對數據分析的好奇心就足夠了。

這個項目是Github上一位名為「維吉爾(Vigilio)」的開發者整理的。項目包括職業進階路徑、專業知識講解、工具介紹等,著重強調,不走彎路,簡明扼要!

Vigilio稱,這篇帖子按照層次結構和複雜程度組織編寫,以便讓學習者對事物的運作方式有一個連貫的想法。

另外,小哥還搞了個 Facebook 群組,並不斷往上面更新信息,鼓勵大家一起學習,互相激勵。

5天前,這份github資料被名為@jiaxianhua 的同胞翻譯出了簡體中文版,讓不想費力讀英文的同學也可以輕鬆上手啦。

下面文摘菌根據這份資料給大家捋一捋如何高效入門數據科學。

新接觸數據科學

新接觸數據科學需要什麼?當然,Python這一基礎的程式語言需要掌握。一些數學的基礎知識當然也少不了。如果想進階的話,當然就需要學習一些高等的數學知識和高級的Python啦。

在這份github項目裡,這位外國小哥給出了基礎Python教程以及數據科學 Python 教程。其他的部分,包括高級Python、高等數學以及數學科學裡的數學知識,目前都還是「即將推出」的狀態。

先學Python然後入門數據科學,這絕對是最高效的學習路徑。

在基礎Python目錄下,先給出超連結讓你學習基本算術運算和數據類型,然後介紹流程控制,包括if語句的使用,for循環的使用等等。

關於函數的使用,在項目中,作者也給出了一個好的經驗法則是:如果一件事情要重複做3次以上,那就寫一個函數吧,並根據你的需要決定調用次數。

除此之外,一些基礎知識也有介紹。包括如何定義函數,如何調用等等。

總之,資料非常豐富,對於一些問題講的不夠清楚的地方也給出了超連結轉到了相應的答案。

完整的學習路徑

一個專業的機器學習工程師應該專注於 TensorFlow 和 Scikit-Learn。而使用Scikit-Learn主要能做的是端到端機器學習項目、線性回歸、分類、訓練模型、支持向量機、決策樹、集成學習和隨機森林以及無監督學習。

使用TensorFlow能夠搭建:ANN - 人工神經網絡,CNN - 卷積神經網絡,RNN - 遞歸神經網絡以及自動編碼器和做強化學習相關的項目。

除了使用這兩個框架之外,一些文章,網絡應用程式,reddit 線程,最佳實踐,項目和repo也非常值的看。

更多需要收藏以及注意的文章,博客可以去這份資料中尋找:

在學習機器學習時,數學知識應該掌握到什麼程度?正如這份github的作者而言:

無論誰告訴你機器學習背後的數學很難...... 都沒有錯!但是你必須考慮到每次你要使用它時,機器都會為你處理它!因此,重要的是掌握主要概念並認識到這些概念的限制和應用。沒有人會要求你手工計算梯度!

註:在路徑這一塊,目前只有機器學習相關資料,商業智能和雲計算都是待推出狀態

專業化

這個類別中,目前存在的是數據預處理和有效陳述這兩個項目。同樣,其他的項目包括數據可視化、數據採集等都是待推出的狀態。

關於數據預處理,其實是個迭代過程的收集、組合、結構化和組織數據。目的是為以後的數據可視化,分析和機器學習打下堅實的基礎。

每一個數據科學家或者數據工程師都應該具有清洗和構造數據的能力。不同的數據類型,需要做出不同的數據處理。在做數據預處理的過程中最主要是有不要把數據當玩笑的心態。

首先在嘗試數據準備步驟時,先不要處理 GB 級別的數據。只需使用數據的小子集 ,但子集要具有代表性)

在做數據清洗工作時候,需要注意:刪除額外的空格、選擇並處理所有空白單元格、轉換值類型、刪除重複項、將文本更改為小寫 / 大寫、拼寫檢查、處理特殊字符、規範日期、驗證豐富數據、數據離散化、特徵縮放等等。數據預處理是非常複雜的,你的最終目標是做到儘可能 自動化。

然後在數據分析中需要明確:你打算解決哪個業務問題 (什麼是重要的,什麼不是);數據是如何被收集的(有噪音,缺失值......) ;你們有多少數據在那裡,我在哪裡可以找到他們? (數據維度和從存儲中檢索)。

在學習數據預處理的過程中,你可以按順序選擇它們或選擇最適合你的那個,但建議你至少要一次把它們都看完。

總體來說有兩種類型的專業化:硬技能和軟技能。

前者是關於技術流程,是每個處理數據的人的核心工具包。使用數據是一種藝術形式,經驗法則和最佳實踐將幫助你了解處理它們的方式。你需要對如何處理數據產生一種 「感覺」,這種 「感覺」 主要是由情況和經驗驅動的。

後者是真正的價值促成者。如果有了軟技能,你可以成為世界上最好的開發人員或工程師,但如果你無法向受眾傳達你的建議和發現,或者使用數據來建議企業如何做決策,那麼你對公司來說就毫無用處。

在向受眾傳達建議和發現時,需要的框架包括:設置、故事、情緒和感覺(你需要在你的受眾中重現它們)、結論的動機以及結論。

在說話時候注意使用第一個人,注意修辭問題,表達儘可能的自然,最後給出總結理由和實際建議。

工具

在學習的過程中,要熟練的使用Jupyter Notebooks、latex、Wolfram Alpha等等。

LaTeX 是一種標記語言(或者,如 官方網站 所述,「用於高質量排版的文檔準備系統」) 用於創建精彩的論文和演示文稿。你在職業生涯中閱讀的幾乎所有論文都是使用 LaTeX 編寫的。

安裝後,你需要一個編輯器來編寫 LaTeX 文檔。可以使用你想要的任何編輯器,包括記事本,vim,nano,gedit 等,但建議你選擇免費和跨平臺的 Texmaker 。

另外,推薦下面這個網站,它允許用戶在線編寫公式,並且還有大量符號,你只需單擊,生成所需的代碼即可。你還可以預覽公式,以便更容易確保所有內容都正確編寫。

WolframAlpha (WA) 是一個計算知識引擎。其具有強大的數學能力,它可以成為一個非常強大的工具來幫助你進行計算。具體的功能包括基本計算、繪圖函數、求解方程、解不等式、矩陣代數、計算級數和、求導、計算積分、求極限等等。

GeoGebra (GG) 是一個功能強大的動態數學應用程式,適用於所有級別的教育,它將幾何,代數,電子表格,圖示器,統計和無窮小計算結合到一個易於使用的單一軟體。 GeoGebra 社區正以指數級增長,數百萬用戶遍布許多國家。 GeoGebra 已成為全球高等數學,科學支持,技術,工程和數學以及教學和學習創新軟體的領先提供商。

然後是正則表達式,這是一種匹配一種編寫匹配字符串的模式的方法。

好了,到這裡,這份資料講述的學習路徑差不多全部包含了,還有一個用DialogFlow 和 Flask 打造 ChatBot的主題以及讀論文必用的工具—Zotero,感興趣的讀者可以自行探索。

最後,附上完整的路徑圖,enjoy

相關焦點

  • Github標星超7k!從零開始,最簡明扼要的數據科學學習路徑(附高效免費小工具)
    轉自:大數據文摘|BigDataDigest來源:GitHub作者:蔣寶尚試圖入門一個新話題時,多數人會感到不知所措?這時候,一份明確的學習路徑可以幫你去除這一焦慮。數據科學當然也有這樣一套路徑。兩周前在Github上出現的一份超高贊貼就總結出了這樣一份「入門套路」,據這位神秘的發帖人所說,數據科學的學習不需要繁雜的準備和高深的數學知識,你只需有足夠的時間、正確的學習方法、對數據分析的好奇心就足夠了。
  • Github標星113K的前端學習路線圖有中文版了!
    綜合自: github https://github.com/goodjack/developer-roadmap-chineseGithub上有個前端學習資源一直很火——developer-roadmap,這是國外的一個大佬整理出來的,標星113K,由此可見它有多受歡迎,國內的許多開發者都知道有這麼一個項目存在,但苦於英文水平比較薄弱
  • GitHub 標星 1.6w+項目 HelloGitHub,讓開發更簡單的開源啟蒙手冊!
    如果你恰好是一個編程新手,並糾結於該如何開始 GitHub 開源項目的學習與研究,這本手冊就恰恰能很好解決這一難題,它的最大亮點就在於 GitHub 入門。Wrk 目前已有 22.8k 的星標數,地址為:https://github.com/wg/wrk
  • Github星標超3k的推薦系統入門資料合集
    推薦系統清單https://github.com/hongleizhang/RSPapers該項目提供了14大類推薦系統領域的細分研究方向,其中包括推薦系統的經典綜述文章、主流的推薦算法文章、著名的社會化推薦算法論文、
  • 從零開始用Python實現k近鄰算法(附代碼、數據集)
    如圖所示,對於訓練樣本而言,K=1時的錯誤率總是為零。這是因為對任何訓練數據點來說,最接近它的點就是其本身。因此,K=1時的預測總是準確的。如果驗證錯誤曲線也是這樣的形狀,我們只要設定K為1就可以了。因此,錯誤率最初是下降的,達到最小值後又隨著K的增加而增加。為了得到K的最優值,我們將初始數據集分割為訓練集和驗證集,然後通過繪製驗證錯誤曲線得到K的最優值,應用於所有預測。分解--KNN的偽代碼我們可以通過以下步驟實現KNN模型:加載數據。預設K值。
  • GitHub Star 破萬!Github 首選數據科學入門指南
    來源:開源最前線(ID:OpenSourceTop) 最近,在 Github 上發現了一份數據科學的
  • 這份GitHub 2.3k星的ML論文清單拿好,工作用得上
    為此,亞馬遜工程師Eugene Yan等人打造了一個論文合集,在這個GitHub項目中,持續共享Google、亞馬遜、Facebook等等大公司在數據科學和機器學習方面的論文和博客文章。這些論文/文章涵蓋24種不同分類,從搜索排名到NLP、CV,都能在這裡找到:數據質量數據工程數據挖掘分類
  • 面試資源、公共API、多樣化學習路徑,這10個GitHub庫開發者必看
    GitHub 是共享各種技術、框架、庫和集合的頭號平臺,越來越多的人到該平臺尋找最有用的庫。本文作者全棧工程師 Simon Holdorf 列舉了十個能夠為所有軟體工程師提供巨大價值的 GitHub 庫。這些庫均具備大量 GitHub 星數,顯示其關聯性、流行性和效用。
  • GitHub:超解析度最全資料集錦
    點擊上方「CVer」,選擇加"星標本文將分享的內容是:超解析度(Super Resolution,SR)最全資料合集,涵蓋了SISR、VSR等。github上其實有很多不錯的超解析度SR合集項目,比如:最佳項目庫不少頂會上的SR論文都是基於下面的優秀開源項目所開發的,
  • 不要上手就學深度學習!超詳細的人工智慧專家路線圖,GitHub數天獲2.1k星
    項目地址:https://github.com/AMAI-GmbH/AI-Expert-Roadmap對學習者非常友好的是,這份 AI 專家路線圖是一個互動版本。該路線圖旨在給學習者提供關於人工智慧的整體概念,並在學習感到困惑時給予指導,而沒有鼓勵學習者一味地選擇最先進、最熱門的技術。這是因為在科研中,每個人都需要了解哪種工具最適合自己。換言之,最先進、最熱門的技術不一定是最適合的。就這份 AI 專家路線圖而言,開發者列出了任何學習路徑所必不可少的一些要素,如論文和代碼、版本控制、語義化版本控制和更新日誌。
  • GitHub有寶!2020年GitHub上十大熱門Python項目
    火遍全球的Python根據最新的數據科學技能研究,接受調查的數據科學家和從業人員透露,統計建模首選的首選語言是Python,這一比例得到65.2%的受訪者的青睞。總體來說,星越多越受歡迎。1 | Manim馬尼姆星:24.6k關於:Manim是用於解釋數學視頻的動畫引擎。它基本上用於以編程方式創建精確的動畫,並在Python 3.7上運行。Manim使用Python以編程方式生成動畫,這使得可以準確指定每個動畫的運行方式。
  • 從零開始學習web前端技術路線圖
    下面我介紹一下,小白從零開始學習web前端技術路線圖,文章比較長,主要是我對過往學習路線的總結,建議看完收藏,需要的時候用pc打開學習:前言首先,自學是件很苦的事情,學習本身就是件反人性的過程,更何況在一個從零開始的全新領域獨自奮鬥,這裡不是要打擊你
  • 推薦 7 個 Github 上近 200k Star 的計算機學習資源,練好前端內功的秘籍!
    超級貓一共精選推薦了 7 個非常不錯的計算機科學學習的 Github 倉庫!希望對大家有幫助!1. computer-scienceGithub 地址:https://github.com/ossu/computer-science
  • 入門深度學習與機器學習的經驗和學習路徑
    ,也算個初級煉丹選手了,就想分享一些關於如何入門機器學習與深度學習的經驗和學習路徑。剛開始推薦使用 Jupyter&Spyder, 熟悉之後比較大型的項目就可以開始使用 Pycharm了。現在基礎準備工作就緒了。可以開始進入學習環節。首先就是python基礎的學習,這裡我個人比較推薦的是Python基礎以及數據分析一起進行學習。
  • GitHub超5k星!網際網路公司最常見的面試算法題大集合!
    該項目目前分為四個部分:第一個部分是 leetcode 經典題目的解析,包括思路,關鍵點和具體的代碼實現第二部分是對於數據結構與算法的總結第三部分是 anki 卡片, 將 leetcode 題目按照一定的方式記錄在 anki 中,方便大家記憶第四部分是計劃, 這裡會記錄將來要加入到以上三個部分內容只有熟練掌握基礎的數據結構與算法,才能對複雜問題迎刃有餘
  • 生信代碼練習題:玩轉數據處理
    內容十分豐富,可以作為學習《R數據科學》補充作業。張老師編寫的代碼,和基於Rmarkdown製作的pdf都十分優雅。在此也感謝張老師一直以來對R的推廣與分享,歡迎大家給張老師的倉庫標星和收藏。獲取方式這裡以github為例,打開文末第二個連結,你會看到如下界面。
  • 這份學習路線圖Github上標星6600+|極客雲算
    相信你也觀察到,周圍同事、網絡資訊都在談論AI人工智慧、Python編程,也有想了解和學習的衝動,但是沒有找到合適的學習途徑,遲遲沒有邁出第一步。人工智慧主要學什麼?怎麼學?這個問題困惱了很多的小夥伴,今天發現了這份學習路線圖Github上標星6600+,這下不用愁了。那麼,今天和大家分享的這份學習路線圖最近這份學習路線已經引起很多AI專業人員的興趣,該項目提供了一系列清晰易懂的圖表,你可以根據自己的需求選擇相應的學習路徑,諸如成為數據科學家、機器學習或AI專家。
  • GitHub 熱點速覽:不可思議的瀏覽器 Browser-2020 周漲 Star 超 3 千
    GitHub 地址:https://github.com/zxystd/itlwm1.3 AutoML 資料庫:automl本周 star 增長數:850+automl 是谷歌開源的收錄與 AutoML 相關的模型和庫的列表的項目,項目剛開源單日獲得超 400 個 star
  • 用聰明的方式學習Vim|GitHub 2200星
    最近,在 GitHub 上便出現了一個叫做用聰明的方式學習Vim的項目,上線短短幾天時間,便已經斬獲2200星。那麼,如此學習Vim的方式,到底有多「聰明」?但作者也同時指出,剛開始學習、適應這種「Vim 語法」是需要一定時間,但只要熟練起來後,便可輕鬆駕馭。基於Vim語法的更多操作在介紹完 Vim 的語法規則後,便可以基於此來完成更多操作和任務。
  • 【TD精選】學習數據科學的102個資源
    近來很多人都在學習數據科學。它成為與高薪和世界上最有趣的問題相關的時尚話題。強大的學習需求已經在數據科學領域創造了許多不同的資源。學習者都努力選擇最喜愛的資源來學習數據科學,但是我想要更全面的資源——所以我建立了這個列表。這是我在數據科學領域獲得的最喜歡的資源,以便您了解這個領域的狀況,並知道如何立即開始學習。