我的一年數據科學學習之旅

2021-03-02 InfoQ
本文講述了作者在去年的數據科學學習之旅中遇到了一些困難,以及如何解決這些難題的。

Eric Weber(沒錯,就是那個養著一條可愛小狗的帥哥)最近在 LinkedIn 上發表了一篇文章,講了十件他希望開始數據科學職業時能少做的事情。本文就是我對這十件事所經歷的過程。你應該先讀讀他的文章。下面是截圖。

首先,這不會是一篇「內容」的文章。

關於這方面的文章和博客文章已經很多了,大家可以去找找。在本文中,我們將討論當你渴望成為數據科學家並獲得業界關注時,你關注的重點和方向。

是的,這會耗費你大量的時間和精力。你應該立即處理這一障礙。起初我很糾結,但幾個月後,就漸漸平靜下來。這次突破要歸功於我每天閱讀的習慣。

我一直在閱讀 LinkedIn 的文章(尤其是 Eric Weber 本人的文章)。此外,我每天還會花一兩個小時甚至更多時間閱讀 Towards Data Science、Medium、KDnuggets 以及來自不同數據科學家和機器學習工程師的個人博客。我由此了解到數據科學在工業工作中的重要性:你的技術組合能為企業帶來多大價值。你將你的技能添加到組織中的價值。你通過構建你感興趣的內容或構建問題解決方案來定義價值。 在回答問題的過程中,你選擇要學什麼,這將使你知道什麼應該學,什麼不應該學。

過了好幾個月,我才意識到這一點 (我想大概是半年)。我會把這幾個月的時間加起 來,一件一件地做,看看我們能省下多少時間。

沒錯,這是另一場鬥爭,原因有幾個:

沒有一個公認的定義來界定什麼是數據科學家。除了一個模糊的概念之外,他的工作職責與數據分析師或機器學習工程師的職責有什麼區別?

還有混亂的崗位描述。因為數據科學家沒有一個約定俗成的定義,所以你會看到描述中期望你什麼都會:機器學習、軟體工程、Python、R、多年的統計學、微積分、線性代數、大〇符號什麼的。看看這些職位的說明,你會感覺到你需要超過 50 年的工作經歷。

別上當。別太在意職位的描述。大部分「面試瑣事」是數據科學新鮮感與組織人才獲取、數據科學與軟體工程團隊之間缺乏溝通渠道的結合。集中精力研究如何解決問題,而不是對此感到無所適從。

解決這個難題的一個辦法就是審視現實。如果你認識任何現實生活中的數據科學家、數據分析師和機器學習工程師(在線下,在物理世界中),那麼和他們談談他們的工作就是個不錯的主意。假如你誰也不認識,你可以隨時查看博客和文章。

我在線下不認識這方面的專業人士。因此,我就通過閱讀博客和文章來學習。據我所知,公司會找很多人來面試,他們都是那種「知道」事情的人,但是很少有人 「做過」事情。因此,與單純的學習和教育相比,重點放在做過事情上(例如部署和生產是兩件大事)。我花了五六個月的時間才意識到這一點。

到目前為止,6 + 6 = 12 個月。

啊哈,這是我的最愛😊因為我把大部分時間都浪費在這裡:

Tetiana Ivanova 在 6 個月內找到了一份工作。

Kelly Peng 辭去數據分析師工作一年之後,她找到了工作。

Natassha Selvaraj 找到了一份工作,她正在大學裡讀書。

Mikko Koskinen 甚至沒有打算成為一名數據科學家。

Thomas Hepner 在 Titanic 數據集之外的任何事情上都感到迷茫,一年後,他成為了這個行業的數據科學家。

請看我的簡介,我在軟體開發(C 語言)方面已有 4 年半的經驗,現已從事數據科學八個月,但仍然無法回答這個問題:

你最喜歡的機器學習算法是什麼,為什麼?

是的,我同意我的情況看起來就是最糟糕的大〇符號的情況。O(n^n)

我已經閱讀了數百篇(不,我沒有誇大其詞)的博文和文章,這些人都在數據科學領域找到了工作,並改變了行業。在我的生活中,我追尋並仿效他們的數據科學歷程,從他們的思考方式到他們的課程選擇,甚至在某些書某些特定章節上,他們的選擇就像是完美的複本。但我仍然無法回答以上問題,因為我甚至不知道為什麼我會喜歡一個機器學習算法,而不喜歡另一個。最終,我只是在「變得和他們一樣」的名義下,無腦地咀嚼著所有模型。

我兩天前就放棄了,決定照我認為應該做的做。(沒想到,今天我看到了 Eric 的帖子。這就像是宇宙想要告訴我,我正在正確的道路上前進,這是我的路。)

我們每一個人都會有一個個性化的旅程。我們的環境、我們的天賦、我們的經驗、我們的態度、我們的工作態度、我們的背景、我們的學習能力等各不相同,它們各有特點,各有千秋。正因如此,尋找他人之路可能永遠不會成功。

因此,我決定,我要嘗試一下,走自己的路,做一個數據科學家。我並非要停止閱讀別人的過程,而是要繼續閱讀,但我不會盲目地追隨他們,並試圖將他們複製到我的生活中,而是要以他們為指南針,作為引導機制。那使我浪費了八個月。儘管如此,遲到總比不來強。

6 + 6 + 8 = 20 個月

我的計算機編程經驗解決了這個問題。在這個行業裡,我花了五年的時間編寫程序,寫程序為我的僱主創造收入,這使我明白到 「完成」比「完美」更好。事實上,找出其他人所面臨的問題,並建立一個解決方案才是最重要的。簡單地學習和教育不是辦法。

6 + 6 + 8 + 0 = 20 個月。

早在 2018 年,我花了很多時間學習數據科學的數學和統計學。學習花了我四個月的時間。

可汗學院的代數 I 和 II。

edX 上的亞利桑那州立大學的大學代數和問題解決課程。

YouTube 上的麻省理工學院大圖微積分。

Silvanus P.Thompson 的《Calculus Made Easy》(《微積分很簡單》此書尚無中譯本)。可從 Gutenberg 項目免費獲得。

微積分 1A:與 edX 上的麻省理工學院的區別。

可汗學院的《微積分 -1》中的極限和積分微積分。

閱讀不同的統計學書籍,掌握統計學的思維方式。

真是個大錯特錯 ☹ 據我今天所知,我所需要的就是:

統計學基礎。不是統計學本身,而是機器學習和數據分析所特別需要的主題。

貝葉斯定理的基礎知識。

線性代數基礎(只有矩陣乘法和轉置矩陣等一些小東西)。

大〇符號的基礎知識。

是啊,沒什麼特別的,就是一些基本的東西。一切新奇的事,你找了工作以後就可以做。在此之前,使用 Python 或 R 庫進行處理。與其像在學校或大學裡一樣嘗試學習數學公式,不如嘗試用 Python 中的庫調用來學習如何使用它,比如用 Scipy 計算學生 t 檢驗,並學習理解它所需要的數學知識。

譯註:學生 t 檢驗(英語:Student's t-test)是指虛無假設成立時的任一檢定統計有學生 t- 分布的統計假說檢定,屬於母數統計。學生 t 檢驗常作為檢驗一群來自常態分配母體的獨立樣本之期望值的是否為某一實數,或是二群來自常態分配母體的獨立樣本之期望值的差是否為某一實數。

Scipy 講義 3.1:《Python 中的統計》

一個簡單的線性回歸,給定兩組觀測值 x 和 y,我們要檢驗假設 y 是一個線性……

嗯,花了有八到十個月的時間。

6 + 6 + 8 + 0 + 10 = 30 個月。

關於這個問題,我很糾結:

從 Hadley Wickham 的《R 數據科學》(R for Data Science)開始。因為我看到 Python 在工業中越來越重要,所以讀了幾章之後就放棄了。

我從 Python 開始,嘗試了幾本書,然後我又回到了 R,因為 ggplot 看起來比 matplotlib 要好。

後來我又回到了 Python,因為它更有軟體工程的感覺。

之所以回到 R,是因為 tidyverse 作為一個包,在數據分析和可視化方面看起來比 Python 的工具更加成熟。

當我從一家公司得到一份帶回家的任務時,這個問題就消失了,這家公司找我做與 R 相關的工作。在使用 R 和 Python 完成任務後,我再也不想碰 R 了。根據我的經驗,Python 更適合軟體工程實踐,當涉及到為現實生活中的工業工作編寫數據科學代碼時,軟體工程實踐肯定是需要的。這和你做軟體開發的時候差不多。之後我就全面使用 Python 了。我個人認為,如果要用其他語言的話,我會用 Julia 代替。大概四到六個月就可以了。

6 + 6 + 8 + 0 + 10 + 4 = 34 個月。

這個錯誤是我在「數學錯誤」之後犯的。我花了幾個月的時間思考 SQL 與 NoSQL。當我們看到某事物時,我們會從自己的角度來思考,認為這就是它的意義。眾所周知,現在是數據時代,每天都有數百萬、數千萬兆的數據產生。其中大部分是非結構化的。我猜想我應該學習 NoSQL。但之後,幾乎所有的職位描述都只是提及 SQL。然後我會考慮使用 SQL。

我既沒有學過 SQL,也沒有學過 NoSQL。所以在一件事上猶豫不決會浪費你好幾個月的時間。

我沒有按照我的方式來解釋事情,而是開始觀察那些找到數據科學工作的人,以及他們所學到的東西。他們都把 SQL 列為一項技能。於是我轉而學習 SQL。SQLBolt 是一個不錯的起點。

我不會覺得在這裡浪費時間,因為儘管我什麼都沒學,但是我卻利用這段時間學習了其他的東西。所以,目前的等式是:

6 + 6 + 8 + 0 + 10 + 4 + 0 = 34 個月。

你需要認真地改變你的思維方式,我也需要這樣的改變。在計算機編程方面,我是個 100% 的技術男,除了團隊合作,我真的不知道怎樣做得更好。對團隊有貢獻是我社交和交流能力的終點。

起初我並不知道,但是由於我的閱讀習慣,我發現了很多數據科學的特點,這些特點使它與其他科技工作相去甚遠。解決這個問題的一種方法是與我認識的人或我所遇到的人討論大數據。把機器學習的概念解釋給我的朋友和其他人聽。但是因為我從事自由職業者和學習數據科學需要我在計算機上花費很多時間,所以我沒有機會練習更多。

數據科學不僅僅是編程,它也不僅僅是網絡開發,它也不僅僅是分析數據和建模。這是故事的一半。數據科學的另一半是能夠與不太懂技術的人溝通。業務利益相關者、管理層的決策者和客戶是你要面對的三種不同類型的非技術人士。所以,如果我們把與人合作看作是「另一個技術工作」,那麼與人合作將是一個很大的痛苦。有一本關於溝通數據見解的優秀書籍,名為《用數據講故事》(Storytelling With data),作者是 Cole Nussbaumer Knaflic。這算是一本必讀的書。

還有另一面:業務問題。你建立的模型,你所做的比較,以及你所達到的正確度,它是如何有利於業務的?要知道,一個數據科學家的工作,如果不能給企業帶來一些利潤或者好處,或者一些增值,那他的工作就沒有意義。像我這樣的技術出身的人,很難掌握並且做得很好。在這種情況下,技術思維所做的事情,就是讓你的思維只關注於建立模型和分析數據,因為這是我們的工作。我們沒有業務背景。

由於從未有個人經驗,所以我沒有很好的解決方法。因此,我對我的建議持懷疑態度。也可以搜尋自己。只有看博客、帖子和文章才能知道該怎麼做。而且我不認識任何產品經理(我見過一兩個 IT 服務部門的經理,但我不知道這是否夠資格)。有兩種方法可以解決我遇到的這個問題:

閱讀案例分析、產品案例分析。這就是產品經理的工作。所以,如果你認識任何一個產品經理(甚至是項目經理),你應該就其產品 / 項目如何為公司帶來價值與他們進行交談。

請閱讀由 Gayle Laakmann McDowell 和 Jackie (Bodine) Bavaro 撰寫的《產品經理面試寶典》(Cracking the PM Interview)等書籍。

如果你是程式設計師或軟體開發人員,不了解這一點,你就會在技術技能上花費大量的時間和精力。浪費了六個月的時間。

6 + 6 + 8 + 0 + 10 + 4 + 0 + 6 = 40 個月。

另一個你需要避免的陷阱。我在這個問題上卡了一段時間。我自己也想落實一兩篇論文,但現在我的第一關注點總是在「做些什麼」上。少學點東西,因為你需要開始努力去建立一些東西。

是的,那些論文看起來真的很厲害,很好看。而論文大多是關於學術方面的。你是想在行業裡找到一份工作。學術界和工業界並不匹配,除了兩個可能的例外:

你正在尋找一個行業內的研究職位。這樣的話,你的投資組合將只限於 10~20% 的僱主。

你想為四大公司工作,也就是 Facebook、亞馬遜、谷歌和微軟。

除以上所說外,我不認為自己有必要在一家優秀的一級或二級公司找到一名數據科學家的職位。別誤會,我喜歡做研究。其實,我在大學的時候就想讀微內核研究的博士學位了。研究工作需要耗費大量的時間和精力。我覺得一個更好的生活方式是在你的事業中找到一個平衡點:在你的興趣和市場 / 行業需求之間找到一個平衡點。不要站在任何一邊。

與其跟上所有的論文,不如用更好的方式來平衡自己的學習:

學習使用 Pandas 進行數據清洗的基礎知識(Kaggle 數據集已經為你完成了 90% 的工作。在現實生活中,你必須做所有的清理工作。學會抓取一些數據並進行清洗)。

了解機器學習建模的基礎知識,以及我們為什麼選擇一種模型而不是其他模型。什麼樣的模型適合什麼樣的領域問題,如醫療與金融。

了解如何將模型部署到生產環境中(你將了解使用 Strealmlit、Heroku 和 Voila 時實際工作的感覺。我在這裡使用 Voila 實現了 bear-detection 模型。)

6 + 6 + 8 + 0 + 10 + 4 + 0 + 6 + 10= 50 個月。

這個是個大問題。而我認為,我這輩子都在與此作鬥爭。有些人有,有些人沒有。我傾向於說,也許聰明人並不存在這一問題(我遇到的或讀到的聰明人,他們沒有這一問題)。像我這樣的人一生都在和它較勁。這是一個監獄,相信我。生活在「只有一條路可走」的心態中是很讓人沮喪的。看一看現實生活中的故事,你就會發現想法是無限的。

它並不是技術上的障礙,而更像是個人發展上的障礙,因為無論你將從事什麼領域,這個障礙都會出現,而和技術完全沒有關係。現在我仍在努力解決。在此期間,我發現了一個解決辦法,那就是當我找不到解決問題的辦法的時候,我會下機,如果是晚上就去散步,如果不是晚上就去讀一本完全無關的書(比如一些非小說),或者去騎摩託車,完全忘記這個問題。然後我再回來,試著從不同的文章或博文中學習同樣的東西,而不會提及我曾經卡在的地方。只是從別人的角度對同一個問題有一個全新的看法。

我不能對此設定任何時間限制。我一生都在為這個問題而奮鬥。

6 + 6 + 8 + 0 + 10 + 4 + 0 + 6 + 10 + 終身 = 50 個月 + 終身。

所以,我已經浪費了將近 50 個月的時間?

也不是。

在談到我浪費時間的地方時,這些點都是相互重疊的。其實是十二個月:2019 年 12 月到 2020 年 11 月。在最初的幾個月裡,我甚至不知道該怎麼做。直到去年的 2020 年 3 月,事情才開始變得有意義。如果事情清楚一點的話,我想我能省下四到六個月的時間,但這只是一個胡亂的猜測,一些真正聰明的人告訴我:無論付出什麼代價都要打破壁壘。請允許我再次重申:

每一個人都有自己的數據科學旅程。我們的環境、我們的天賦、我們的經驗、我們的態度、我們的工作態度、我們的背景以及我們的學習能力,都是不同的、獨一無二的。正因如此,尋找他人之路可能永遠不會成功。正因為如此,你需要不斷地強迫自己去學習可以學到的東西,讓自己了解行業的發展,不斷地修正自己的道路(就像智慧型手機上的地圖等應用,不斷為我們修正和指路一樣)。

當我還沒有弄明白邏輯回歸比線性回歸更適合哪些問題時,我就在嘗試學習神經網絡。在機器學習有任何意義之前,我就在做深度學習。對於我而言,原因是:

人工智慧和深度學習的媒體炒作。

我致力於創造一種偉大的,令人印象深刻的東西。

假設大家都在做,我想要找到工作,就要比他們做得更好。畢竟,市場競爭是如此激烈。

關注四大公司。

我對醫療數據有興趣,《Deep Learning for Coders with Fastai and PyTorch: AI Applications Without a PhD》(本書尚無中譯本)就有關於醫學影像診斷的章節。你可以在這裡看到一個例子。

媒體上到處都有深度學習和人工智慧。人們常常認為自己比別人更優秀,別人已經在寫高度數學化的博文,用他們華麗的公式以及大量的代碼。不相信我的話?那就看看這個吧。當這樣的人已經掌握了深度學習和數據科學的時候,誰還會來接近我們呢?

是啊,這太常見了,他們給它起了個名字,這就是所謂的「冒名頂替症候群」。你去看看吧。我以為我是唯一一個受其折磨的人。但是之後我發現它是如此的常見。是的,市場競爭非常激烈,而且由於目前的新冠肺炎疫情,許多人失去了工作。我在 LinkedIn 上看到過幾篇數據科學家和機器學習工程師失業的文章。我看到過他們在尋找工作,甚至還會懇求點讚和分享。看到這一點真令人心碎。每個人都應該過上好日子。

我們來看看積極的一面,這場瘟疫擾亂了這個世界,它使許多企業陷入停滯,而一些企業的客戶數量卻直線上升(播客和視頻會議服務就是其中之一)。在這樣一個顛覆性的時代,我們需要更多的忍痛割愛,並想方設法堅定自己的決心。我們出生在某一年,我認為,並非偶然,這就是我們如何在這場大瘟疫中倖存下來的原因。我認為我們本應從中吸取教訓,並在這個時代創造更美好的生活。祝大家在數據科學學習的道路上越走越好,同時也希望我們能不斷地相互學習,共同進步。

ArnuldOnData(Arnuld),是一名工業軟體開發人員,擁有 C、C++、Linux 和 UNIX 領域的工作經驗。在轉型到數據科學家並擔任數據科學內容作者一年多之後,目前是一名自由數據科學家。家住印度特倫甘納邦海得拉巴。https://www.kdnuggets.com/2021/01/data-science-learning-journey.html

答應我,從今以後這樣打開InfoQ

2021 年前端開發的下一步發展預測

被接連封殺後,出海的「TikTok們」還在堅持什麼?

InfoQ 寫作平臺歡迎所有熱愛技術、熱愛創作、熱愛分享的內容創作者入駐!

還有更多超值活動等你來!

掃描下方二維碼

填寫申請,成為作者

點個在看少個 bug 👇

相關焦點

  • 如果必須重新開始,我會怎樣開啟自己的數據科學之旅?
    本科學的是經濟學,我從商業學位的課程中學習到了商業敏銳度;碩士學位是全球商業和計算機科學(方向是機器學習和人工智慧),計算機科學學位的課程中教會我大部分的技術要素,並且我還擁有一份數據科學的實習。回顧過去,我的道路沒有任何問題,但是,如果當時我就知道自己現在正在做什麼,我將會如何規劃自己的數據科學之旅呢?這個問題對於剛接觸該領域的人來說特別重要。
  • 在過去的一年裡,我是如何自學數據科學的?
    作者: Harrison Jansma編譯: MikaCDA 數據分析師原創作品,轉載需授權在過去的一年裡,我自學了數據科學。我學習了數百個在線資源課程,每天學習6-8個小時,同時還在做一份兼職工作謀生。
  • 數據科學為啥青睞Kubernetes?一場有趣的數據科學K8s之旅
    在數據科學領域中選擇正確的步驟並沒有什麼靈丹妙藥。大多數數據科學家都有自己的自定義工作流,根據工作領域的不同,工作流可能或多或少是自動化的。當試圖大規模自動化工作流時,使用Kubernetes可以說是個巨大的增強。在本文中,我將帶您踏上我的數據科學之旅,同時將整個工作流程集成到Kubernetes中。
  • 100天學習計劃 | 一份詳實的數據科學指南
    如果是,那你來對地方了。我遇到過許多對學習數據科學充滿熱情的人,但僅僅幾周後,他們就放棄了學習。我想知道為什麼一個人對一個領域如此熱情卻不去追求它?通過與他們中的一些人交談,我了解到人們放棄學習的主要原因是:這些甚至會嚇到一個有經驗的數據科學家,難怪他們會讓試圖學習數據科學的人放棄。上面的每一個話題就像一片海洋,當有人試圖快速掌握它們時,他們會感到沮喪並放棄學習。
  • 10個數據科學領域學習資源
    這些安全措施也只是些心理安慰,因為我知道如果發生了什麼不好的事情,它們都沒有用。也許跑鞋能幫上忙。至於頭盔,我只想說鋼水在1370攝氏度下就會化為灰燼。隨著我對這份工作恐懼漸深,我意識到這份工作不適合我,所以我制定了一個目標,大概在2011年進入分析和數據科學領域。從那時起,慕課就成了我學習新知識的首選平臺,通過它我收穫了很多新知識。好的也有和壞的也有。
  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 從numpy開啟Python數據科學之旅
    一個路徑就是從純程式語言的角度來學習Python的,包括Python編程基礎、編寫函數、Python高級特性、函數式編程、面向對象編程、多進程和多線程、常用內建模塊和第三方庫等等,旨在學習和鍛鍊編程思維,提高小編自身的coding能力。
  • kaggle、TDS、arXiv等,我最喜歡的數據科學資源
    在這個領域,我們已經走過了很長的路,從數據科學和機器學習等術語還不為人所知,到一切都聚集在統計學的保護傘下的時代。然而,我們還遠遠沒有走到終點。這也可能是數據科學的一個分界點——這個領域發展得非常迅速,甚至很難跟上所有新的算法、技術和方法。因此,在數據科學領域工作,與軟體工程類似,往往需要不斷學習和發展。正如我提到的,在數據科學領域工作可能是一個旅程。
  • 文科生如何高效學習數據科學?
    許多讀者曾經給我留言,詢問過類似的問題。因此我把給自己學生的一些建議分享給你,希望對你也有一些幫助。目標你覺得自己在數據科學的知識海洋裡面迷失,是因為套用的學習模式不對。從上小學開始,你就習慣了把要學習的內容當成學科知識樹,然後系統地一步步學完。前面如果學不好,必然會影響後面內容的理解消化。
  • 成為一名數據科學家的學習三部曲
    新的一年應該擁有一個新開端的喜悅,它賦予我們充分的理由去養成新習慣,也標誌著新「希望」的到來。如果你看到這篇文章的題目開始閱讀本文,那麼一定是數據科學激起了你的興趣。你肯定希望2016年成為你的轉運年,對不對?如果你從今天起堅持去執行這些新年計劃,轉運的可能性就會更大。要知道,成為一名數據科學家不能一蹴而就,需要的是一個過程。因此,朝目標邁進的過程中一定要充滿耐心。
  • 零基礎學習Swift中的數據科學
    作者 | MOHD SANAD ZAKI RIZVI編譯 | VK來源 | Analytics Vidhya概述Swift正迅速成為數據科學中最強大、最有效的語言之一Swift與Python非常相似,所以你會發現2種語言的轉換非常平滑我們將介紹Swift的基礎知識,並學習如何使用該語言構建你的第一個數據科學模型介紹Python被廣泛認為是數據科學中最好
  • 2020年學習數據科學的13個最佳YouTube頻道
    數據科學在線課程以令人懷疑的價格充斥著網際網路。他們中的大多數是無效的,僅僅是營銷策略。在這篇文章中,我列出了13個你應該在2020年訂閱的最好的YouTube頻道,從而了解更多有關編程、機器學習、人工智慧、數據科學等方面的知識。
  • 【TD精選】學習數據科學的102個資源
    近來很多人都在學習數據科學。它成為與高薪和世界上最有趣的問題相關的時尚話題。強大的學習需求已經在數據科學領域創造了許多不同的資源。學習者都努力選擇最喜愛的資源來學習數據科學,但是我想要更全面的資源——所以我建立了這個列表。這是我在數據科學領域獲得的最喜歡的資源,以便您了解這個領域的狀況,並知道如何立即開始學習。
  • 2021年數據科學從業者應該學習哪些程式語言?
    在過去的幾年裡,我們確實看到了各種語言的數據科學工作生態系統的繁榮。話雖如此,對於許多不同的程式設計師來說,進入這個領域或在語言方面邁出下一步可能是相當困難的。在數據科學領域更是如此,那裡的事情會持續地激動人心。當然,這就是數據科學的樂趣所在;不斷有新的東西要去認識和學習。
  • 五個給機器學習和數據科學入門者的學習建議
    本文是一篇科普掃盲文章,作者以初學者的視角,為同樣想「入坑」的讀者們提供了一些建議,還有一些可以獲得的學習資源。從這裡開始。兩年前,我開始在網上自學機器學習,並且通過 YouTube 和博客分享了我的學習過程。我並不知道我在做什麼,在決定開始學習機器學習之前我從沒寫過代碼。當人們發現我的作品,他們通常會私信並提問。我不一定知道所有的答案,但我會儘量回復。
  • 數據科學入門前需要知道的10件事
    標識出你還不知道的數據科學的概念和技巧,記下你接下來想要了解的內容。然後從這個概念/技能清單中,專注於每天只學習一樣新東西。等經過一年的課程學習,你將會驚訝的發現複合效應下你竟然掌握了這麼多新的概念和技術。2. 怎樣學習數據科學學習方式我們怎樣學習?
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    而對於業務處理優化,我也有自己的看法,我將其分成了 ABCD 四個方向,其中 A 表示分析科學(analytics science),B 表示業務科學(business science),C 表示計算機科學(computer science),D 則表示數據科學(data science)。數據科學可能會涉及到編程或數學實踐,但也可能不會涉及到。
  • 給畢業生:你應該選機器學習還是數據科學?
    大家好,我是傑森。我在矽谷工作,是一名數據科學家(關於這個名詞,我們將在本文後面進一步定義),我熱愛學習一切新事物!說實話,這個話題在我腦海中已經縈繞很久了。但因為平時實在有太多的事情要做,我無法擠出時間來完成這項艱巨的任務。但是,如今由於新冠疫情的居家隔離令,我被困鬥室,最近也快沒啥事情能讓我打發時間了,我終於下定決心來完成這個話題的寫作。
  • 數據科學,預測未來的水晶球 | 數據科學50人·張尚軒
    至於數據科學家,在她看來更是一份結合了探險家與偵探的「酷職業」。▍數據科學,像是水晶球「我周二把採訪問題反饋給你們。」儘管數據科學距離普通人,看似十分「遙遠」,但張尚軒認為,大多數人只是沒有意識到的自己早已浸入在數據科學的世界裡。一如人工智慧領域的領軍人物吳恩達教授所言:「每個人每天可能用到幾十次機學習算法而自知。手機上的語音助手、淘寶上的商品推薦系統、信用卡防欺詐系統,都是我們日常可以接觸到的應用。」
  • 數據科學專業解析(上)
    當下火爆的數據科學是什麼?什麼是數據科學 (data science) 呢?我們來看看學習過data science的校友如何說:jefferson: 我覺得這個專業(data science)適合已經有一個基本職業方向,然後需要數據科學的知識作為輔助和提升的同學,比如學經濟的想做一些量化,學計算機的想建資料庫這樣。