學一兩門課程可搞不定數據科學,你得經過這五個階段

2021-01-09 大數據文摘

大數據文摘出品

來源:medium

編譯:Fisher

很多人認為學習數據科學是一個線性過程。事實上,它是個有些凌亂的發展過程,更像是一系列平臺期構成的。

普遍以為的學習曲線vs真實的學習曲線

幸運的是,已經有一個相當不錯的一般性的學習模型,解釋了這些平臺期是如何起作用的。這個模型是Noel Burch在20世紀70年代創造的,又由Robert Greene在《Mastery》一書中進行了擴充。

根據這個模型的框架,我們的學習要經歷五個階段:從無意識的未掌握,到有意識的未掌握,到有意識的掌握,到無意識的掌握,最後是精通。學習數據科學同樣遵循這個過程。

Noel Burch和Robert Greene提出的學習五階段

在這篇文章裡,作者會在數據科學的語境下解釋學習的每個階段,並將談談他在每個階段的經驗,以及發現的一些捷徑——從一個階段突破瓶頸到下一階段的最快方法。

階段一:無意識且未掌握(完全新手期)

在這個級別,你剛剛開始進入數據科學領域。你幾乎沒有什麼編程或統計學方面的經驗。這個階段的學習者一般會過度自信。很多人認為學一兩門課程就能掌握這個領域。

這也是我剛出校門時的感覺。有幾門經濟學課程打底,我覺得自己已經準備好進入體育分析領域了。學習數據科學只是順理成章的下一步。從高處俯瞰,這個領域似乎很簡單:你只需要找到數據中的趨勢以獲得一些洞察,簡單吧?

不用說,我完全想錯了。開始學習編程後,我陷入了無望的迷茫當中。我開始整合自己需要學習的所有各種概念,而這個任務有時簡單,有時極度艱巨。

為了從階段一進入階段二,你需要初步理解什麼是數據科學,掌握它需要懂得哪些編程和數學概念。我推薦看一些YouTube視頻、接觸一些Python編程來達到這種理解。

階段二:有意識但未掌握(畏懼期)

一旦你開始覺得編程和數學的世界大到讓人不知所措,你已經到了第二階段。在這個階段,很多人都會卡住,甚至放棄。此時,你開始知道數據科學的水有多深。要學的東西太多了,不知道從哪下手。

走通這個階段的關鍵,是把數據科學分解成若干小步。你需要從某處開始。在最基本的層面上,你需要懂一些編程(Python或者R)和簡單的統計學。找一些在線資源來了解這些方面。我推薦學一些免費的編程或數據科學課程(kaggle.com的微課程是我的最愛)。

在這個階段緩解我的不知所措的,是我關於自己為什麼要學習這個領域的思考。我腦海裡有一個具體的項目。我想要構建一個模型,來改進我當時在玩的daily fantasy sports的結果。如果我只專注於建模所必需的技能,我就可以讓數據科學顯得範圍小很多,也更可控。

註:daily fantasy sports,是一種虛擬和現實結合的體育遊戲,玩家可以扮演球隊經理,選擇真實球員組成自己的球隊,球隊積分根據球員在真實世界中的比賽表現來判定。

要想進入下一階段,我建議就一個具體問題進行開發和打磨,這樣可以讓你的學習範圍更小。相較於學習整個的數據科學領域,了解完成單個的項目需要學什麼是更容易的。做一個小項目也沒有「學習python」或者「學習統計學」那麼令人生畏,因為後者過於寬泛和模糊。在早期階段,你真的只要有編程和統計學的基礎知識就可以進行數據科學的實踐。如果你能做幾個小項目,你就順利上路了。

我也建議你在kaggle上研究一下別人的代碼。你可能完全看不懂,但是不要慌。漸漸地,你會開始能理解它們,而讀大量代碼就是這個過程的起點。把你看到但不懂的術語、包和算法列個清單。每天研究其中的幾個,嘗試把它們弄明白。你會驚訝於你在幾周內就能走出很遠。

階段三:有意識的掌握(輕度危險期)

至此,你已經做了幾個不同的項目,在這些項目中,你已經學會了如何實現具體的算法。你現在有了一些可以參考的代碼!

當我處於該階段時,我收集了所有我常用的代碼片段,把它們放到一個主文檔中。我不必記住每一件事怎麼做,只要參考這個「怪物」文檔就可以了。這使我能夠以更快的速度完成更多的項目。你可能覺得這像作弊,但我認為此時應專注於實現,而非語法。你應該儘可能多做一些項目,好用上你在研究中遇到的所有各種算法。

在應用過這些概念之後,你應該去了解它們的工作原理。在這個階段,我開始讀研究生了。在我修的課程裡,我們被要求從零開始編寫大部分算法。我認為這對所有的數據科學家而言都是非常好的實踐。雖然我在用matlab編寫一個神經網絡時留下了一點「心理創傷」,但這絕對值得。正是通過編寫這些算法,你開始了解各種不同方法所需要的輸入和約束條件,以及它們的局限性。

從第三階段走到第四階段沒有訣竅。能讓你跨過門檻的是練習,持續的練習。

階段四:無意識的掌握(開竅期)

當你到達階段四時,你知道遇到問題怎麼做了。你不必再參考你的「怪物」代碼庫,你可以開始專注於優化你的問題解決方案。此時,你將專業技能和行業直覺與你的工作相結合,為你面對的挑戰創造出最優解。

我相信,這才是數據科學的藝術得以發揮的地方。你不再只是專注於解決一個問題,而是要創造一個優雅而可持續的解決方案。你把更多的時間花在關鍵特徵選取、模型參數調節和項目的最終部署上。你也會與業務的相關方更緊密地合作,以確保你提供的服務發揮其最佳效果。

我覺得自己仍在第三階段和第四階段之間不斷徘徊。

階段五:精通(貢獻期)

在這個層次,你已接近於精通該領域的某些方面。就數據科學而言,我不認為有人真的可以掌握整個學科。但是你能通過發現新算法或新的解決問題的方法來推動領域的前進。

這個階段帶有虛幻色彩,我認為很少有人能達到這個高度。我想說的是,這一類的人大部分被吸引到學術界,更注重研究,而非業務的具體實現。

最後的一些想法

我希望這個框架能幫助你用新的視角來評估自己的數據科學學習之旅。我也希望它能給你一份紮實的路線圖,讓你的數據科學知識更上一層樓。根據我的體驗,學習數據科學是個漫長的過程,但也是個令人愉快的過程。

相關報導:

https://towardsdatascience.com/the-stages-of-learning-data-science-3cc8be181f54

相關焦點

  • 以課程思政重塑大數據與智能時代的數據科學思維體系
    以數據科學思維為例,數據科學思維的分析過程包含三個由低到高階段:描述性分析、預測性分析、執行性分析。描述性分析對數據進行統計,是客觀結果的數據呈現,一般比較容易實現。預測性分析則是較高級分析,要基於「洞見」對統計結果進行分析,而「洞見」又與個人知識水平密切相關。
  • 油管上也能學數據科學,這12個頻道值得一看
    所有供你觀看和學習的內容全部免費,這是一件很美妙的事情。你只需要付出寶貴的時間來觀看自己喜歡的視頻。正確利用這個網站來有效學習非常重要。確保你看到的視頻有益並給生活和工作帶來價值。在YouTube上學習數據科學數據科學的應用版圖正在不斷擴展,並在我們的社會和生活中發揮至關重要的作用。
  • 年薪不到21W免費學,廖雪峰大牛的「大數據分析全棧工程師課程...
    拿不到 Offer 免費學,廖雪峰的「大數據分析全棧工程師」課程第12期開始招生!據不完全統計,目前已有超過 88% 的學員大幅升職漲薪,平均漲薪幅度超過 5k 元/月。廖雪峰老師帶隊傾情打造,多次調研BAT、TMD等網際網路企業用人需求,深入了解一線大廠針對數據分析 / 數據挖掘 / 數據科學要掌握的必備技能,結合近 15 位行業專家的建議,全新打造的數據分析課程。
  • 否定、憤怒、討價還價、沮喪、接受的哀傷五階段科學麼?
    否定、憤怒、討價還價、沮喪、接受的哀傷五階段科學麼?
  • 金鐵霖:學聲樂要經過三個階段,用支點、開貼來解決發聲問題很有效!
    他首先強調了演唱的科學性:所謂演唱的科學性,就是一種標準,通過它可以解決演唱各種作品的各種問題,只有掌握了科學的唱法,唱完以後才能不「累」,並且保持聲音流暢貫通,給聽者以美好的享受。為了更好地解釋「科學性」,金鐵霖介紹了他總結的學習聲樂的三個階段:第一是自然階段。即在沒有接受科學訓練以前,憑著自己的感覺、方法,通過模仿,較好地唱出歌來。
  • 一個名稱具有欺騙性的專業—信息與計算科學到底是學什麼的?
    信息與計算科學專業(原名:計算數學,1987年更名為計算數學及其應用軟體,1998年教育部將其更名為信息與計算科學,信息與計算科學專業是以信息領域為背景,數學與計算機信息管理相結合的計算機科學與技術類專業。簡單來說就是:絕大部分數學+少部分計算機,數學不好,不建議讀。
  • 青島版四年級科學上冊期末檢測卷,從小培養孩子的科學探究精神
    近日有位很久以前學生的家長與我交流(現在那個孩子正在讀高中),悔恨自己在孩子小學階段只注重孩子語數外的學習,忽視了科學科目。他為什麼有這樣的感慨呢?因為孩子選學了理化生學科。雖然自己的孩子成績也不錯,但與頂尖學生相比,不僅知識「孤陋寡聞」,而且思考能力、動手能力遜色不少。
  • 詳細測評每階段課程後,揪出了這些「坑」
    VIPKID的北美外教課一共是Level1-8plus共八個階段:從課程體系圖可以看出,Level1是課程體系中孩子英語興趣啟蒙的階段,主要為英語學習打基礎做準備;Level2則是幫助孩子夯實基礎的第一階段,代表著讓孩子從啟蒙階段逐漸過渡到知識不斷輸入的階段。
  • 學IB的你還不了解MYP?拿下它,你就是「IB界」的MVP!
    在官方也同樣給出了一些有利的數據證明IB體系的學生的優勢。 IBO在美國一個社會經濟多樣化的學區內進行的一項研究調查,調研了了五所MYP學校與五所非MYP學校相比的學生參與和表現。結果表明,與匹配的比較組相比,MYP學生在數學和科學評估方面取得熟練或高級成績的百分比更高。
  • 這五個數據科學家和機器學習工程師油管博主,你必須關注
    這5個油管博主,筆者強烈安利,讓他們帶你去了解如何有效地規劃數據科學事業,或者在等待損失收斂的同時,學習如何增強對人類思想和意識起源的直覺吧。1.萊克斯·弗裡德曼萊克斯·弗裡德曼的油管頻道可以說是迄今為止機器學習從業者最具洞察力的頻道。
  • [騰雲駕霧霾,也要學魔法拼音!]五個理由告訴你:不學它?不行!
    作為五年沉澱的精品課程魔法拼音自信滿滿的給出五個理由,告訴你:不學它?不行!要學就要現在學!理由一:幼兒園不教了,你還學不學?學!(似乎這樣的改革並非個例)筆者不知道這個小小的改革會不會短時間在全國鋪開,但這是一個信號:也許拼音將不會成為我們進入小學語文學習的首選。
  • 李志一首歌,唱出了高三學生的寂寞,你知道他是學什麼專業的嗎?
    我不知道李志在唱這首歌的時候,有沒有想起被自己拋棄的東南大學,有沒有想起自己學了多年的專業——自動化。它被稱為萬金油,說白了就是大工科,包羅萬象,什麼都沾一點,正如木吉他、手風琴和薩克斯,看起來不太搭,配一起卻挺妙。一、自動化都學什麼自動化的課程,比大多數的工科專業都要多,所以也經常被人稱為是最難學的工科專業。
  • 新手大闖關:本科畢業生如何跨專業殺進數據科學行業?
    圖源:unsplash假如你是應屆畢業生或者已經工作了兩三年,你本科所學內容與數據科學毫不相關。機緣巧合,你開始重新思考自己的職業發展道路,而數據科學這個前景廣闊的行業進入你的視野。你打算參加一個新手訓練營或是自學課程,然後去工作。這樣的情況,可以找到數據相關的工作(數據分析師/數據科學家/機器學習工程師)嗎?答案是肯定的,而且我覺著這很值,你可能有不同體驗。但這肯定不是容易的事情,既然做出了選擇,艱苦奮鬥的覺悟還是要有的。
  • 朱永新:「十四五」時期能否成為教育強國,取決於這4個方面的認識與...
    處處能學、時時可學的學習型社會。使用這些權益,可在國家級學習資源平臺乃至商業教育機構中,公平地學習各類知識、技能。 學習權益是國家賦予公民的福利,限本人使用,不可轉讓出售,是一個公平、透明、可支配的權利,人人都可在經過認證的機構、單位或導師處參加學習。
  • 深圳羅湖SAT課程去哪學性價比高?
    全國各地址也均有國際高中開設SAT課程,在學校學的SAT之餘,可能還有提高和鞏固的需要,這就要考慮補課了。新航道SAT課程根據學員的情況,主要分為三個階段課程,分別是SAT基礎A段、SAT強化B段、SAT衝刺C段,可以根據自己的情況選擇適合的課程。比如TOEFL 90分以下,新SAT目標在1200分以上的學員,就可以選擇SAT基礎A段課程。
  • 編程貓大力研發小火箭啟蒙課程,落實科學育兒方式
    編程貓大力研發小火箭啟蒙課程,從教學內容等各方面提升,落實科學育兒方式。小火箭啟蒙課程涵蓋了科學探索、藝術人文、數學認知、語言表達、健康生活等五大學科領域,編程貓的個性化教學正在穩步邁進,迎接編程教育低齡化趨勢。
  • 數據科學領域最好的免費電子書匯總
    這本書收集了他們關於數據科學及其在現實世界中如何起作用(有時不起作用)的許多對話。這就是這本書所提供的。本指南遵循「邊做邊學」的方法。劍橋大學出版社的《社交媒體挖掘》(Social Media Mining)簡介:社交媒體挖掘集成了社交媒體、社交網絡分析和數據挖掘於一體,為學生、實踐者、研究人員和項目經理提供了一個方便、穩定的平臺,以了解社交媒體挖掘的基礎和潛力。
  • 明日開課:《數據科學業界實戰導覽》
    最後,避免選擇準入門檻低的領域,因為職業發展的目的是建立自己的不可替代性,如果行業本身的準入門檻相對較高可以讓你的不可替代性更強。你在面試第一份數據科學家工作時,你覺得當時你最有利的武器是什麼?你在面試中的哪個環節表現得最好,讓你拿下面試?
  • 墨爾本大學和雪梨大學數據科學專業哪個好?誰更適合申請?
    近些年,隨著大數據時代的到來,需要越來越多收集數據、處理數據並做出相應商業決策的人才,數據科學專業則應運而生,澳洲的數據科學教育享有非常高的聲譽,墨爾本大學和雪梨大學作為澳洲八大名校之一,也開設了數據科學專業,那麼,問題來了,墨爾本大學和雪梨大學數據科學專業哪個好?誰更適合申請?
  • 學「赫敏」 艾瑪·沃特森同款課程的機會就在這裡!
    能從成千上萬的候選人中脫穎而出,艾瑪有的可不僅僅是天賦和運氣。 Stagecoach Performing Arts為充分開發孩子的潛能,將孩子按照年齡劃分為4歲到6歲的初級階段(Early Stage)和6歲到12歲的主要階段(Main Stage),並面向不同階段詳細制定了跨越唱歌(Singing)、跳舞(Dancing)、表演(Acting)以及生活技能(Life Skills)四個維度的學習目標和內容。