Analyzing the Analyzers 分析分析師 —— 數據科學部門如何建立?

2020-12-08 199IT

很多牛逼的公司都宣稱在建立數據科學部門,這個部門該如何組建,大家都在摸石頭過河。

O『reilly Strata今年 六月份發布了報告 《Analyzing the Analyzers》,比較清晰的闡述了數據科學部門所需要的不同角色及其技能。重點內容翻譯如下:

數據科學家的分類研究方法

自我認識

請被調查者用常用的5級標準(從完全同意到完全不同意)來回答 「我覺得自己是一個XX」 這樣的問題,能夠獲得數據科學家的自我認識結果。調查結果將數據科學家分為以下四類:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。

技能需求

請被調查者對數據科學家所需的以下22項技能進行排序,分析不同類型的數據科學家的技能要求。其中的ML是機器學習的簡寫,OR指運籌學(Operations Research)

將它們結合起來分析

根據受訪者的自我認知和技能排序,可以識別出不同類型的數據科學家所需要的技能。

數據科學家的類別

Data Businesspeople

Data Businesspeople 往往專注於組織管理和如何從數據項目中產生利潤。他們往往將自己定位為領導或創業者,約 80% 的 Data Businesspeople 承擔員工管理的責任。Data Businesspeople 還可能是諮詢服務或合同類服務的提供者。Data Businesspeople 學歷相對較高,大約 60% 擁有碩士以上學位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科學位的背景。Data Businesspeople 往往操作真實數據,90% 以上偶爾會操作 GB 級別的數據。與其他數據科學家相比,Data Businesspeople 年齡稍微偏大,接近四分之一是女性(相比略高),僅有四分之一的 Businesspeople 把自己稱為數據科學家(相比略低)。

Data Creative

數據科學家往往可以獨立完成一條龍的完整分析過程:從數據提取,整合、並進行分層,進行統計或其他複雜的分析,創造引人注目的可視化詮釋和效果,開 發具有更寬廣應用前景的數據工具。而 Data Creative 則是其中能力最廣泛的數據科學家,他們能夠綜合使用各種工具和技術解決問題、能夠像黑客馬拉松那樣創新產品原型,是典型的萬事通型人才。與其他類的數據科 學家相比,Data Creative 更具藝術家風範。與 Data Researcher 相似,Data Creative 也有豐富的的學術經驗,大約 3/4 擁有院校授課或發表論文的經歷,一般擁有經濟學和統計學等領域的學位。但不同之處在於,僅有較少的 Data Creative 擁有博士學位。Data Creative 具有深厚的業務經驗,80% 的 Data Creative 按合同工作(接項目?);40% 創立了企業,甚至比 Data Businesspeople 還多。Data Creative 還被認為是黑客。他們往往還可能有深厚的開源經驗,業餘為開源項目和開放數據項目做貢獻。Data Creative 相對更年輕,男性更多。有意思的是,他們也是最積極的回應我們最後一個問題的:「你覺得本次調查是否對你有用?」

Data Developer

Data Developer 專注於解決數據管理的技術問題 —— 如何獲取,存儲,以及學習。Data Developer 更傾向於將自己評價為科學家(在這一點上僅次於 Data Researcher)。對於那些從事機器學習和相關的學術研究的人來說,這是當然合理的。但是,還有一些 Data Developer,每日的工作僅僅是日復一日的開發代碼。半數 Data Developer 具有計算機科學或計算機工程學位,約一半人為開源項目作出過貢獻。更多 Data Developer 會強調自己具有機器學習/大數據技能。部分 Data Developer 做過諮詢工作,承擔過管理崗位、或為開放數據項目做出過貢獻。

Data Researcher

走向「數據科學家」頭銜的職業生涯路徑中,最有趣是從在學校研究物理或社會科學開始,也有統計學專業的。許多組織已經深刻認識到,即使這些學生在校 期間所學專業與企業業務領域完全不同,但他們被訓練出的利用數據了解複雜過程的能力仍然極具價值。大部分具備統計技能的受訪者,自認為是 Data Researcher。近 75% 的 Data Researcher 在同行評審期刊上發表過文章,半數以上擁有博士學位。(心理和政治科學學位也有可觀的數字)。Data Researcher 很少創業,而且僅有半數具有管理經驗。

關於大數據

下圖描述了對於不同數量級數據集處理的調查結果:大多數數據科學家很少直接操作 TB 級以上的數據。

T型數據科學家

大多數成功的數據科學家既有豐富的專業經驗,還至少在數據科學的某一方面深入鑽研,如統計,大數據,或業務溝通等。這就是20世紀90年代提出的所 謂的「T形技能」模式:「T」字母頂部的橫表示廣博技能,而豎線表示在某個區域的深度鑽研。T形人才能夠更容易融入跨學科團隊,也能夠更高效地工作。數據 科學領域與生俱來就具有協作性和創造性,那些成功的專業人士能夠與資料庫管理員,商務人士,以及其他具有多種互補工作技能的人合作,以使數據項目以創新的 方式完成。

Data Businesspeople 具有頂級的商業能力,其他能力較弱。Data Researcher 往往具有非常深的統計相關技能,但一般說來,他們對於機器學習/大數據,商業,和編程技巧卻相對低。Data Developer的模式可以被稱為「π形」,擁有強大的編程技巧,較強的機器學習/大數據相關技能,而其他三個技能相對中庸。最後,Data Creative 是不像T形結構的,所有技能相對平均,既不最強,也不最弱。

數據科學家和組織結構

數據人才來自哪裡?

70% 的受訪者至少擁有碩士學位,而科學領域的(社會學或物理學,而非數學、計算機、統計、或工程學科)達40%。

科學領域的研究生以上教育,提供了對真實數據的動手實踐,不僅僅描述現象,還要評價理論和辨析立場。物理學和天文學教授了嚴格的統計思維,而粒子加 速器和太空望遠鏡系統則提供了大量的需要小心處理的數據流。硬科學背景為任何類型的數據科學家,尤其是Data Developer提供了良好的培訓。

另一方面,有人認為,社會科學也培養了大量的數據科學家。心理學家,經濟學家,政治學家,以及其他組織,他們在工作中需要處理的來自真實世界的混亂 的,嘈雜的數據。這些領域的數據科學家可以快速清理和匯總數據,利用先進的統計技術來理解因果關係,並深入思考有關數據可視化,展示和溝通的問題。我們在 Data Researcher 和 Data Creative中看到很多這樣的受訪者。

經典計算機科學(機器學習)和應用統計學位也是非常有效的數據科學家的起點。機器學習的重點是大規模數據處理和算法、結合軟體開發技能,自然應用於真實世界組織數據。許多應用統計學科則將諮詢能力、專業領域知識、以及關鍵方面有效的數據科學結合在一起。

還有不少學校也開始培養一些新興的學位,如分析、數據可續、商務智能碩士等。

大多數當前的數據科學家往往涉足過多個領域,在不禁意之間獲得了廣泛而深入的領域知識。

從理論到實踐:實習和指導

帕蒂爾(2011)建議 「招收哪些剛剛走出大學校園的聰明而有創意的人才,再把他們投入非常嚴格的實習計劃中去。」 對於擁有足夠預算,以及高級人才輔導項目的大型組織,這樣做可能效果不錯,但對於小公司,它的實用性似乎不太好。

對於小組織來說,有個可行的替代方式(DataGotham 2012年)—— 聘請專業的顧問,幫助招聘、培訓、再整合和指導新鮮出校的數據科學家。DonorsChoose.org 意識到,僱傭數據科學家收集數據,在完成其慈善使命中具有巨大價值,他們與專家團隊一同工作達5個星期完成僱傭。僱傭之前,專家幫助這個非營利性組織了解 到數據科學家的作用,隨後幫助新員工培訓和指導,並設置了啟動項目的成功路徑。數據科學家的廣泛的能力將對小組織非常有用,但必須有像這樣創新的方法以確 保其有效性。

團隊和組織架構

首先,我們的數據顯示,數據科學家應該是T形人才,具有多樣技能,需要在技能互補的團隊中最有效率。(達文波特 2010;帕蒂爾 2011)。而不明白這一點的組織往往期望聘請一個可以做到一切的「神」。

其次,組織需要建立自己的數據科學團隊,以有效的開展工作。數據科學團隊即需要直接訪問原始數據,也需要與決策者溝通。根據我們的分析,他們具備需 要多方面的技能才能充分利用數據。他們還需要得到流程管理的支持,採納和使用其結果。當數據科學團隊的產出被期望為具有完整的生命周期的軟體系統時,那麼 這個團隊中就必須擁有足夠的資源去進行測試,部署和系統維護,這一點至關重要。雖然我們的受訪者都或多或少有一些編程技巧,並能夠承擔這類任務,但期望大 多數 Data Businesspeople 或 Data Researchers 能夠高效完成這些,還是個不現實的期望。在大型組織裡,在數據科學團隊上的資金投入,與其他團隊之間的管理關係協調,包括數據基礎設施和IT員工,確實能 夠實現價值。(達文波特,2010年)

職業發展

企業中的數據科學家的角色不是一成不變的,也需要職業發展的晉升機會。具有多年數據科學家經驗的員工,非常有價值,也非常難於替代。將工程師提升為 領導角色需要充分衡量利與弊,還要考慮資深員工不想從事管理崗位的各種變數。在我們的調查者中,62%的承擔著管理責任;這個數據能夠顯示有多少數據科學 家願意管理團隊,而不是視管理為煩惱。

在大型組織中,保留數據科學家的另一個有趣的潛在方法是設立輪崗計劃(達文波特,2010年)。在入職培訓之後,數據科學家可以在內部團隊有計劃的 轉崗。產品部門可能需要個性化用戶模式;市場部門需要在可控實驗(controlled experiments)方面的幫助;財務部門需要預測;運營部門需要流程優化。通過直接加入不同部門,數據科學家能夠了解關鍵業務的價值觀和技能,專注 於部門最需要幫助的問題,並以最小代價提供解決方案。而且,通過階段性輪崗,數據科學家可以獲得更寶貴的技能和寬闊的視野,不斷提升其數據科學技能。


Author : iascchen(at)gmail(dot)com

相關焦點

  • 如何成為一名數據分析師?
    這是一個用數據說話的時代,也是一個依靠數據競爭的時代。目前世界500強企業中,有90%以上都建立了數據分析部門。IBM、微軟、Google等知名公司都積極投資數據業務,建立數據部門,培養數據分析團隊。各國政府和越來越多的企業意識到數據和信息已經成為企業的智力資產和資源,數據的分析和處理能力正在成為日益倚重的技術手段。
  • 數據分析師如何晉升詳細資料分析
    有同學問:陳老師,滿網際網路都是「如何從0到1學數據分析」,可我想知道,如果再晉升的話,比如去到月薪3w,5w,需要什麼樣的知識與能力儲備? 這個話題,很容易變成高薪的數據分析師們的曬命貼。問題是,如果一個同學真的科班出身,985碩士、畢業進大公司、領導賞識、同事配合、每次跳槽都踩中風口,他也不需要問這種問題了。
  • 數據科學家和數據分析師的區別在哪兒?
    有人會說,要成為一名數據科學家,要先從數據分析的工作做起。數據科學與數據分析用完全不一樣的工具和程式語言,數據科學是數據分析的一種形式,因為最終你是在與數據打交道轉換格式,進行可視化得出可用的結論。
  • 建立科學和哲學結合的分析方法——專訪永安期貨棉花高級分析師宋煥
    原標題:建立科學和哲學結合的分析方法——專訪永安期貨棉花高級分析師宋煥   「她撰寫的棉花市場形勢分析報告觀點明晰、邏輯性強、產業內外影響因素一一點到,還會為產業企業提出有建設性的
  • 大數據時代,數據分析師的報考條件是什麼?
    圍繞數據,人類已經做了很多數據科學的研究和應用工作,其中最為基礎的就是數據的存儲、傳輸。數據的價值在於數據上承載的信息,信息的價值在於消除不確定性的成本及其直接和間接的作用,而這一系列的價值使得我們對數據的價值予以空前的重視。什麼是數據分析師?
  • CDA數據分析師認證證書含金量不斷提高,成數據分析入門新剛需!
    該證書範圍涵蓋各行大數據,及數據分析從業者所需具備的技能,符合全球大數據及數據分析技術潮流,可為全球企業和機構提供數據分析人才參照標準。「CDA數據分析師」認證已得到教育部直屬中國成人教育協會及大數據專業委員會認定,通過考試者即可獲CDA數據分析師中英文雙證書。
  • 怎樣從數據分析師轉型數據科學家?
    數據分析師的首要作業是對數據進行搜集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改進決策。數據科學家也會進行相似的作業,但對其提出了更高的要求。那麼,怎樣從數據分析師轉型數據科學家呢?
  • 從零開始數據分析:一個數據分析師的數據分析流程
    幫助數據分析師更有針對性的控制數據生產和採集過程,避免由於違反數據採集規則導致的數據問題;同時對數據採集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。在數據採集階段,數據分析師需要更多的了解數據生產和採集過程中的異常情況,能很大程度上避免「垃圾數據進導致垃圾數據出」的問題。2.
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    幫助數據分析師更有針對性的控制數據生產和採集過程,避免由於違反數據採集規則導致的數據問題;同時對數據採集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。在數據採集階段,數據分析師需要更多的了解數據生產和採集過程中的異常情況,能很大程度上避免「垃圾數據進導致垃圾數據出」的問題。2.
  • 明知故問 | 2020熱門職業——數據分析師前景如何?
    關於數據分析師職業,從不同的視角切入,業界有各種分類和理解,但總的來說主要可以分為三類:數據分析師、數據科學家以及數據工程師。首先是數據分析師,這是數據分析職業的起點。有些企業則會根據自身所處行業特點,賦予數據分析師一些更具體的崗位名稱,例如業務分析師、運營分析師、資料庫分析師等等。
  • 如何建立零售行業的數據分析模型?
    傳統的數據應用模式中,業務部門需要將數據需求提交給IT處理,但IT的人力不能保證對分析需求的及時響應,對一些報表的調整也十分困難。3、缺少多維度的數據分析平臺以顧客分析為例,零售主管不能掌握顧客消費軌跡,無法對顧客的消費進行引導經營。同時,也無法掌握顧客群體屬性,導致缺少提升服務水平的重要參考項。
  • 數據分析師的職位描述、資質和前景
    數據分析師獲取、組裝並幫助其他人解釋和理解數據。要做到這一點,分析師必須培養分析、溝通、計算機、數學和統計方面等的技能。具體的經濟部門可以指導分析人員使用的數據類型。例如,醫療數據分析師的工作描述需要處理不同的信息,如實驗室數據、保險索賠、處方記錄、辦公室或醫院訪問。
  • 零基礎入門數據分析師——你可以做到!
    如果您計劃成為一名數據分析師,目標是提升數據獲取、數據分析、數據可視化的水平。但是網上資料一大堆,完全零基礎的你從哪開始學習?視頻下載了很多,無法堅持學習? 經常遇到問題,卻得不到及時解決,浪費大量寶貴時間。CDA數據分析研究院的老師指導您零基礎入門數據分析,以下將針對零基礎學員介紹數據分析的流程。
  • 如何11步轉行數據科學家 (適用數據員/ MIS / BI分析師)
    工程師、計算機科學家、市場和金融畢業生、分析師、人力資源人員——每個人都想嘗一塊 「數據科學餡餅」。  Analytics Vidhya (一個專門針對「分析與數據科學」的社區網站 ) 發布了一篇文章《為初學者邁入數據科學規劃的全面學習路徑》。
  • Python數據分析師的就業前景如何
    首先,從工業網際網路和大數據的發展趨勢來看,Python數據分析師的就業前景還是非常廣闊的,一方面數據分析本身的應用場景會越來越多,另一方面Python語言在人工智慧領域也有比較廣泛的應用,所以Python數據分析師的發展空間也比較大。
  • 女生適合做數據分析嗎?數據分析師是否是青春飯?
    在當下大數據分析與人工智慧火熱發展的的浪潮下,數據分析師或大數據分析師已然成為當前炙手可熱的熱門就業職位之一,就業待遇和發展前景也是被好多人看好,於是乎想進入數據分析行列的人群也日益增加,很多女生也會蠢蠢欲動,想轉行或立志從事數據分析領域的工作,但顧慮也由此產生——女生適合做數據分析嗎?
  • 數據科學不僅僅是數據:培養業務知識和關係
    來源:CPDA數據分析師網 / 作者:數據君 / 從硬科學到數據科學 通過臨時代理機構在所有地方開始工作,當我離開學術研究並搬到波士頓時,我去了一家臨時公司,並在一家直銷公司找到了流通分析師,我利用這段經驗轉到了一家金融服務公司
  • 一個成功的數據分析師的職業生涯
    數據分析師做什麼?數據分析員收集,處理和執行數據的統計分析,即使數據以某種方式或其他方式有用。它們幫助其他人做出正確的決策,並優先處理已收集的原始數據,以便使用某些公式和應用正確的算法使工作更輕鬆。如果你對數字,代數函數充滿熱情,並喜歡與其他人分享你的工作,那麼你將成為數據分析師。
  • CDA數據分析師認證3個級別對應的薪資標
    從統計到數據分析,從數據挖掘到大數據,數據科學逐漸成為了一門新興的學科如何成為數據分析師?如何入行數據分析?教育是一個難題!在這個行業中,是否有高質量的證書?拿到證書後能找到多少薪資的工作?今天,我們來分析分析作為這個行業中的老牌,CDA數據分析師的等級標準。
  • 十圖看懂「CDA數據分析師」證書的含金量
    市面上有很多種數據分析師的證書,但是到底考哪一種讓人頭疼。今天帶大家一起看看「CDA數據分析師認證」的含金量如何。為想要投身於數據分析領域的人提供一點專業性意見。 於近日,CDA數據分析師公布了《2020上半年數據分析人才及CDA持證人行業報告》,正文如下: 目前市場上提供培訓認證主要關注工具的使用,而非切合實際業務場景的應用,這將導致新人出現看到數據無法開始工作的尷尬局面。