編者按
Trans,德勤諮詢「廣告、市場與商業」部門數據科學家,畢業於哥倫比亞大學應用分析專業。她去哥大之前,是一名營銷人,但成功從文科轉型到數據科學,並在工業界積累了廣泛的工作經驗與職場體會。從院校到工業界的角色轉換,讓她意識到數據科學學生與工業界希望招募的數據科學員工,有著多麼大的差距,而大多學生卻沒有意識到這些差距。因此她把學校裡沒有教給學生的數據科學技能全部都濃縮到了《數據科學求職升級——業界實戰導覽》這門課程(明日開課哦!)裡,希望填補知識的空白。
今天,我們採訪了Trans,近距離了解一位由文轉理的哥大學霸的蛻變與飛躍。
請問Trans老師是通過怎樣的一個契機轉型成為數據科學家的?我在市場數據領域工作了幾年之後,通過考入
哥倫比亞大學應用分析專業讀研進修,以及大量的自學,完成了從文/商科到數據科學方向的轉型。如果有機會也希望能用我的經驗啟發或幫助更多的同學。
你是如何選擇行業的?你覺得數據科學家在考慮行業時,主要有哪些考量標準?對我個人而言,
由於專業上已經是一個轉型者,所以行業方面我儘可能地向自己以往的工作經驗方向上靠近:數據分析結合市場、諮詢、和項目管理,
我現在所在的團隊就是德勤諮詢的「廣告、市場和商業」部門,比較符合我的定位。而如果泛化來說,行業選擇的考量標準我覺得主要有3個:
個人興趣、發展前景、和準入門檻。個人興趣永遠是最重要的,職業越往後發展你會察覺到它的重要性越來越大,可以說興趣很大程度上決定了職業發展的高度甚至是工作的幸福指數。發展前景自不用說,上升期的行業機遇更多,
一般如果一個行業可以幫助人們解決信息不對稱的問題(如諮詢/ 網際網路)、降低交易成本(如電商平臺)、或者增加人與人之間的連結(如社交媒體),就應該會是一個不錯的方向。最後,
避免選擇準入門檻低的領域,因為職業發展的目的是建立自己的不可替代性,如果行業本身的準入門檻相對較高可以讓你的不可替代性更強。
你在面試第一份數據科學家工作時,你覺得當時你最有利的武器是什麼?你在面試中的哪個環節表現得最好,讓你拿下面試?最有力的武器應該是我的
個人作品集網站,它相當於一個圖文並茂版的「簡歷加github」,包含個人背景介紹、項目展示、過往經歷、聯繫信息等板塊。這個作品集網站幫助我拿到了很多的informational interview、內推、面試,我現在這份工作的offer也是通過展示作品集拿到第一輪面試的。表現的最好的環節應該是on-site面試,因為我比較擅長與人面對面的交流,不管是white board,還是考察項目,或者behavioral interview,在交互的狀態下我能更好的結合對方的反饋進行問題的解答或者演示。
疫情原因,現在networking都轉為線上了,你個人更喜歡看到什麼樣的networking message呢?希望看到對方
有針對性、言簡意賅、而且能看出有提前做過功課的message,比如說兩句話介紹完個人背景,說明自己背景契合某個具體職位,
表明你research後了解到的信息以及一個明確的需要幫助的點(如打15分鐘電話詢問團隊的技術棧)。
需要避免的是:模板痕跡太重沒有針對性,或消息寫的過長(超過手機一屏),特別是要避免直接在互相還不認識的情況下,在第一次發送的消息中,就要求提供內推或附上簡歷要求修改簡歷。
在公司裡,你現在工作負責的主要內容是什麼?你和其他行業的數據科學家最大的區別是什麼?我主要通過數據建模解答一些零售行業的關鍵性問題,比如LTV(用戶終身價值),segmentation(用戶分層),return,price optimization等,內容包括數據分析報告、機器學習建模、特徵工程和調參、模型解讀、和自動化數據管道的搭建。
不同行業的數據科學工作內容相差非常大,主要因為行業本身對數據科學的接納程度和發展程度不同,比如在科技網際網路行業中應用廣泛的深度學習可能在一些傳統行業中還很少被用到,這是其一。
另外就是數據科學家在不同行業中的角色分工也不同,比如IT領域多為開發人員、教育醫療領域偏向研發、消費零售領域側重企業管理等等。因此,數據科學家的工作也會相應有不同的重點方向,我的理解是:
開發 - 編程工作較多;研發 - 算法較多;管理 - 商業分析更多。
作為一個數據科學家,您最喜歡/不喜歡工作內容的哪一部分?最喜歡的部分就是
學習的機會真的特別多。從外部角度來說,數據科學這個領域本身,就始終保持著非常高的活躍度,新的概念、模型、工具、平臺層出不窮,優化著現有的解決方案,等待你去探索學習。從內部來說,團隊裡每個數據科學家都來自不同的領域,能從他們身上看到事物不同的角度。雖然其實也經常感到學習壓力和peer pressure比較大,但有壓力有挑戰性的事情才是真正能給自己帶來價值的事情,這是成長的本質。不那麼喜歡的部分可能是有時候需要花時間在環境配置和安全測試上,這方面有時甚至會花費相當長的時間,這種情況下我會覺得我沒有在做data science的工作,感到浪費了時間,
不過這就是在一個組織中工作必須考慮和經歷的,我也在慢慢的學習和適應。在你工作的第一年裡,作為數據科學家你是如何適應工作環境和節奏的?剛開始會有一種迷失的感覺,迷失在大量的生產環境下的概念、專有名詞、縮寫、工具、語言中。我覺得適應環境的過程中有三點比較重要——一個是
多和同組的和鄰近組的同事們交流,利用好「新人」的身份多提問,幸運的是組內的氛圍很好,給了我很大的幫助。另外就是
始終和直屬上級一起商定milestones,保持積極開放的心態持續不斷的學習並且取得階段性的進展。最後一點,心態上告訴自己不要
太焦慮和著急,允許自己take time,也允許自己犯錯,職業發展是一個長線的過程,穩中求進才能更長久。
學生期間學的和上班後做的數據科學項目之間,最大的差別是什麼?最大的差別概括來說就是:學校中的數據科學項目是學術環境下
虛擬的,主要目的是為了
學習技能,是輸入;而工作中的項目是生產環境下
實際的甚至
實時的,主要目的是
創造價值,是輸出。正是因為兩者的主要目的不同,所以數據科學項目各個層面的特性和操作方式也不同,比如說:
從數據層面,
學校中的數據集一般都很「乾淨」,數據清理的工作量相對較小,特徵(或者列)的定義明確,總體數據量也較小,基本可以使用Python在本地處理計算;
而工業界的數據集存在很多的ambiguity,模糊定義,需要反覆和提供方確認,還經常需要根據數據特徵和行業知識進行假設,然後驗證、清洗、整合,而且數據量往往非常大(特徵數量在百萬個以上),需要使用Spark和雲計算的環境進行分布式並行計算。
從模型層面,對於學生期間的項目來說,建模是項目佔比最大的一部分,而且項目重點更多的側重於模型和算法的「表現」(如誤差、準確性等),而在實際工作中,
建模僅僅是整個生產鏈條中的一小部分,項目中關於模型前期的數據流接入,中期的測試、自動化pipeline搭建、部署,以及後期的協同和迭代,都是非常關鍵的組成部分,這些是學校中接觸不到的。
從團隊協作層面,學校中的小組項目,組員都是同學,代碼的版本控制(如果有的話)和交付基本上在本地完成,項目周期短,基本不涉及項目管理的流程。但在工作中,
項目都是不同團隊共同參與協作(比如數據科學、數據工程、產品負責人、項目負責人等等),代碼使用git/ github進行版本控制,項目流程使用agile development敏捷開發方式進行。
你覺得學生求職數據科學家,最大的gap在哪裡(比如學校和工業界的gap、學生認知上的gap等等)?主要還是
認知上的差距 —
對技能的認知、價值的認知,和對求職策略的認知。
技能認知的差距主要就是上面提到的
工業界和學術界的差距,當然並不是說要完全掌握工業界數據科學的所有技能,這並不現實也不需要。實際上,只要在關鍵的幾個方面(如代碼的單元測試、版本控制、Spark、Agile等)有一定的基礎了解做過一些小練習,就已經能超越其他求職者一大步。
價值的認知差距集中在
將數據科學項目的結果轉換成商業價值的差距,換言之,就是要轉變對數據項目的價值定義。如果說在學校,一個項目的價值體現在通過技術手段提高了模型的準確性,那麼同一個項目在工業界,就需要把模型準確度提高這個結果
和商業回報聯繫起來(增加營收/ 降低成本/ 提高效率等)。而關於
求職策略方面的差距,就和同學自身的定位有關了。數據科學家這個職位其實涵蓋了非常多的不同的類型,要求也各有不同,比如偏商業分析方向的(考察側重SQL和business case)、偏工程方向的(考察側重coding和ML算法)、偏研究方向的(考察側重數統知識儲備及算法),
找到最適合自己的方向,找到自己的differentiator,才能事半功倍。
對於那些在學校裡沒有系統地學習過編程或者數據處理的同學,你認為他們在申請數據相關崗位時有哪些小技巧可以提升自己的核心競爭力?首先,如果沒有系統的學習過編程和數據處理,那麼申請數據相關崗位的時候,就要好好考慮自己的
「核心」競爭力是什麼(research? product sense? visualization? ),這個競爭力更適合什麼領域和類型的數據崗位,如何差異化競爭,然後結合這些崗位的偏好、JD描述、自己的技能水平,去
查漏補缺。還可以通過
Linkedin多聯繫在目標崗位就職的校友或朋友,了解更多的日常工作內容、工具和招聘要求,做到
有的放矢。其次,自學數據分析時,最好可以
通過做不同的項目的形式來學習(如kaggle project),並且把項目最終完成的原始碼、分析報告等上傳到你的github account,在readme file中根據STAR原則寫好項目描述,然後
把github的連結放在簡歷和Linkedin Profile裡,符合招聘官」Don’t tell me, show me」的要求。
進入工作後,有沒有那種「後悔」學生找工作時期沒做的事?沒有掌握的技能?這個還是挺多的,主要是對工業界數據科學的實際工作沒有一個概念,到了工作中很快就發現,學校裡學習的內容只有實際使用的十分之一,從學校到職場,技能中間出現一個斷崖,這裡面包括怎麼用命令行界面、怎麼交付代碼、版本控制、大數據的處理、生產環境下的代碼標準、pipeline搭建、敏捷開發等等等等。更要緊的是,
目前市面上沒有一門課可以把工業界數據科學日常工作中最常用的工具和知識點串聯起來,集中地講解和演示。這也是我設計
《數據科學求職升級——業界實戰導覽》這門課的初衷,把數據科學技能缺失的這些部分,結合我實際工作中總結的經驗,濃縮成6次導覽課,希望幫助更多的人少走彎路,降低信息不對稱,高效學習,快速入門。
◆ 數據崗位的想要大幅提升求職競爭力的在校學生(作為和其他求職者拉開差距的differentiator)
◆ 剛剛加入數據科學工作想要快速學習快速適應的初級數據科學家/分析師(當做給自己開小灶的onboarding training)
◆ 考慮轉型到數據相關領域的想要了解其中工作內容和技能的工作人士(作為轉型research的一部分和技能提升的必要訓練)
了解了這麼多工業界數據科學與校園學習的差異,怎樣在求職前搶得先機呢?MarTechApe攜手
德勤諮詢數據科學家Trans老師攜手開設了
《數據科學求職升級——業界實戰導覽》精品小課,為你在學校與工業界之間架起必要的橋梁!
這是目前市面上唯一一門把工業界數據科學日常中最常用的工具和知識點串聯起來集中地講解和演示的課程。
超越課本的、工業界的數據科學實際工作案例、工具、知識點。
來自紐約德勤諮詢數據科學家的第一線行業信息、工作經驗總結、工具應用詳細展示。
學習寫出商業級質量的代碼,學習使用Git和Github進行版本控制。
學習機器學習自動化pipeline的不同工具和搭建方法。
Spark、AWS等大數據與雲計算必備技能與工作流程介紹。
5次Demo手把手教你使用Github、寫PySpark代碼、搭建機器學習Pipeline、編寫Unit Tests、看懂敏捷開發任務面板。
豐富的練習題與拓展學習資源。
一門課走進你的教授所不曾向你展示的真實的數據科學世界!
預售優惠(雙人團購)6折優惠:僅需¥203元人民幣/人
預售期:9/8~10/11,之後恢復原價。
課程形式是怎樣的?
課程上線時間是?
遇到課程問題如何諮詢?
還等什麼,快來跟著德勤老師一起學習工業界的數據科學吧!