Python數據分析實戰—單維度分析+維度交叉分析,用一份數據掌握

2020-08-27 野貓談Python

數據集及源碼已打包連結:https://pan.baidu.com/s/1gHvqxJCJC5W0nLvCO0QXtQ 提取碼:8suc

前一陣有個字節跳動的程式設計師火了,年僅28歲實現了財務自由,宣布提前退休。最直接的原因是選擇了一家發展前景很好的創業公司。當然平時我們經常能聽到,某某人加入創業公司,xx年後公司上市,身價暴漲,財務自由。但這都是小概率事件,大部分人往往要麼等不到公司上市就離職,要麼公司還沒上市就破產。這兩天找到一份近幾年破產的IT公司名單,共6000家,下面就對這份數據做個簡單分析。

分析思路大致如下:

  • 了解整體概況
  • 單維度分析破產的公司
  • 維度交叉分析破產公司

首先導入分析所需的模塊

import pandas as pdimport seaborn as snsimport matplotlib.pylab as pltimport numpy as np39;font.sans-serif&39;SimHei&39;axes.unicode_minus&39;./data/com.csv& 從日期字符串提取年份子串com_all[&39;] = com_all[&39;].apply(lambda x: x[:4])39;com_name&39;death_year&39;death_year&39;death_year&39;2014& 城市com_city_gb = com_part[[&39;, &39;]].groupby(&39;).count().sort_values(by=&39;, ascending=False)com_city_gb[com_city_gb[&39;] > 10].plot(kind=&39;, rot=20, title=&39;, figsize=(10, 6))

可以看到北京、廣東、上海等經濟發達的地區,破產產的公司更多。這裡需要注意一個概念叫倖存者偏差,舉個例子,你如果從這個數據得出北京、上海等地創業更容易破產的結論,那就是有偏差的。因為你只是從倖存下來的破產數據去下結論,而沒有考慮總體數據,因此得到的結論是有偏差的或者說是不對的。舉個例子,圖上可以看到北京破產的公司有2000家,浙江破產的公司大概400家,而實際上北京同期成立的創業公司可能有3000家,創業死亡率為 67%,而浙江同期成立的創業公司可能有800家,創業死亡率為 50%,明顯在北京創業有更高的存活率。

然後我們在分行業維度來看看破產公司分布

39;com_name&39;cat&39;cat&39;com_name&39;bar&39;行業& 選top行業和破產原因death_reasons = com_death_reason_gb[:15].index.valuescats = com_cat_gb[:10].index.valuescom_part2 = com_part[com_part[&39;].isin(death_reasons) & com_part[&39;].isin(cats)]com_part2.plot(kind=&39;, x=&39;, y=&39;, figsize=(10, 6))

行業和破產原因太多了,我們只選top的進行分析。從圖上點的大小大概能看出來不同行業的破產原因是不同的,但也不是太直觀,並且不能定量地看。

如何更直觀地看不同行業下不同破產原因的區別呢,我想到一種方法,計算不同行業、不同破產原因的TGI指標,然後畫一個熱力圖。

TGI反應的是目標群體在總體裡的強勢或弱勢指數。舉例:在所有破產公司中,行業競爭原因導致破產的比例是14%,而電商行業裡,行業競爭原因導致破產的比例為20%,那麼電商行業在行業競爭這個破產原因的TGI=20% / 15% = 1.42。大於1代表在總體裡處於強勢,數值越高就越強勢。

沿著這個思路,準備所需要的數據

39;cat&39;death_reason&39;com_name& 行業維度的破產公司數量cat_df = com_part2.groupby([&39;]).count()[[&39;]]39;death_reason&39;com_name&39;com_name&39;all_reason_r& 關聯數據tmp_df = pd.merge(reason_cat_df, cat_df, on=&39;,how=&39;)df = pd.merge(tmp_df, reason_df, on = &39;, how=&39;)39;cat_reason_r&39;com_name_x&39;com_name_y& 計算每個行業破產原因的TGIdf[&39;] = df[&39;] / df[&39;]df

這樣,TGI就計算完成了。為了畫熱力圖,我們還需要對數據進行重塑,通過透視圖把行業變成索引,破產原因變成列

df_tgi = df.pivot_table(index=&39;, columns=&39;, values=&39;)df_tgi = df_tgi.fillna(0)df_tgi

畫熱力圖

plt.figure(figsize=(15, 8))sns.heatmap(df_tgi, annot=True, fmt=&39;)

可以放大來看,顏色越淺代表越強勢。比如:金融行業在政策監管和法律法規風險的TGI為7.5,說明這兩個原因是導致金融公司破產明顯比整體更強勢。

通過TGI+熱力圖的方式我們可以很直觀並且定量的看到不同行業下破產原因的區別。有興趣的朋友再對其他維度進行交叉分析。數據地址和源碼已經打包,自行下載即可。

感謝您的支持。喜歡的點讚轉發關注,感謝您一直以來的陪伴!

相關焦點

  • 明確錨點/維度/指標,用數據分析解決問題
    無論是產品還是運營,都離不開去用數據分析、解決異常問題。但是,在我們找到數據後,數據並不會直接告訴我們答案,我們需要做的就是把問題轉譯成維度和指標,然後提取數據,之後才是分析、解決問題。
  • Python 數據分析實戰:經典的同期群分析
    作者 | 周志鵬責編 | 郭 芮本文首先對同期群分析的概念做了簡短介紹,然後循著數據概覽、數據清洗、思路剖析、單點實現以及最終實現的流程,力圖做到每一步清晰明確和可復現。跟著實踐一遍,無論是模型理解程度還是Pandas運用的熟練度,都會蹭蹭往上躥。(註:完整實戰數據和代碼,空降文末即可獲取)什麼是同期群分析?
  • 前端如何一鍵生成多維度數據可視化分析報表
    本文轉載自【微信公眾號:趣談前端,ID:beautifulFront】經微信公眾號授權轉載,如需轉載與原文作者聯繫前言本文是基於上一篇文章介紹H5編輯器 後臺管理系統實戰的第二篇文章, 也是比較重要的一篇文章, 主要介紹後臺系統中如何基於已有數據表格自動生成多維度可視化報表
  • 業務要的「多維度數據分析」到底是什麼?
    數據分析的同學是否遇到過這種情況——辛辛苦苦做的數據永遠不是業務想要的?到底是業務吹毛求疵過分挑剔,還是你做的數據不是業務想要的呢?本文將層層分析為你解答,快來看看吧。做數據分析的同學們都遇到過這個問題:從多維度分析問題,提出對業務有意義的建議。
  • 維度爆炸?Python實現數據壓縮如此簡單
    )用Python基於主成分分析常見的三個應用場景中,其中有一個是「數據描述」,以描述產品情況為例,比如著名的波士頓矩陣,子公司業務發展狀況,區域投資潛力等,需要將多變量壓縮到少數幾個主成分進行描述,壓縮到兩個主成分是最理想的,這樣便可在一張圖內表現出來。
  • 零基礎入門數據分析,一個月學會Python
    在數據分析領域,python是一個繞不開的知識和工具,如果不會用python就很難說自己會數據分析,進行數據分析,以及python需要掌握的一些基礎知識,我們能夠用python做什麼?在第一章裡,讓大家在感性的認知上首先了解一下這個分析工具,主要涵蓋的內容包括python的下載與環境安裝、數據類型介紹和內置數據結構介紹:python的下載和安裝環境:難點主要是在環境的安裝上,很多小白往往一腔熱血但是面對環境安裝的時候就洩了氣,因為我會用Anaconda為例進行環境的安裝,同時我建議初學者不要下載具有IDE功能的集成開發環境,比如Eclipse
  • Python入門學習之數據分析實戰獲取數據
    想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27機器學習入門篇2 28機器學習提升篇 29數據挖掘篇 30深度學習必備原理與實戰 31深度學習必備原理與實戰2 32深度學習必備原理與實戰3
  • 高薪必備:全新版本數據分析+Python入門資料,今天免費送!
    採集--爬蟲 (python,request,scrapy)要想做數據分析,我們首先需要明白,這個要想做數據分析,我們首先需要明白,這個行業都需要會那些東西數據分析的核心就在於數據的採集、存儲、處理、分析和挖掘。
  • 數據比你更懂用戶:Tensorflow2 情感分析實戰
    如今,隨著深度學習、人工智慧的愈發成熟,「數據挖掘」和「情感分析」已經成為了一個專業的研究方向,如果你能第一時間了解輿情,獲得大眾的反饋,就能及時調整產品和策略,走在時代前面。越來越多的企業、政府開始用量化的數據科學方法,獲取數據,分析輿論情感,如上帝一般俯瞰芸芸眾生。
  • 四個維度助你分析會議活動的數據
    會議復盤對於分析會議活動來說非常重要,可以幫助我們了解會議的得與失,從而有針對性地對會議模式進行改進。分析—場會議的活動數據可以從四個維度來入手,參與度、預期收益、傳播量和投入產出比。比如:通過這個分析出我們人員參與度是20%,和以往的數據進行對比,這個參與度的高了還是低了?問題出在哪裡?是咱們宣傳有問題還是會議引導沒到位,或是其他什麼原因?下圖是鯨會務的用戶管理截圖,可以清楚的展示用戶的數量、報名人數、籤到人數等,幫助辦會者了解用戶的參與度,對會議情況進行分析總結。
  • 學習計劃|一個月學會Python,零基礎入門數據分析
    在數據分析領域,python是一個繞不開的知識和工具,如果不會用python就很難說自己會數據分析,但是最近很多想要入門數據分析的小白經常問我,Python怎麼入門?Python雖然被稱作是「最簡潔的語言」,但是它終究還是一門程式語言,想要入門還需要掌握一些基礎知識和技巧。
  • 飛瓜B站電商分析,B站爆款商品選品,多維度數據分析
    飛瓜數據B站版的電商分析功能,可以通過各個榜單也可以通過商品搜索查找熱門商品,還可以結合商品詳情頁,多維度分析商品的帶貨數據以及熱度走勢。通過對帶貨視頻的分析來進一步確定B站商品的銷量情況。】,通過對商品全網趨勢圖和商品關聯視頻數據表現圖分析,可以大概判斷該商品在全網上的具體銷量表現以及商品相關聯的視頻對商品熱度走勢的影響。
  • 超適合Python小白的乾貨,Python數據分析50個實戰項目
    2.大話NBA | 用數據帶你回顧喬丹的職業生涯3.分析幾十萬條知乎數據,我挖掘出了這些秘密4.用(大)數據全方位解讀電視劇《大秦帝國之崛起》5.以虎嗅網4W+文章的文本挖掘為例,展現數據分析的一整套流程6.從大數據輿情傳播角度看《三生三世十裡桃花》7.北京二手房房價分析8.kaggle數據分析實踐項目練習
  • 數據分析常用的4大分析方式
    例如,要測試不同渠道的投放效果,您需要確保產品相同,投放投入相同,並且在線時間保持不變,測試的數據才是有意義的。 象限分析 根據不同的數據,每個比較主題分為四個象限。 通常,產品的註冊用戶由第三方渠道提供。如果可以將流量源的質量和數量劃分為四個象限,則選擇固定時間點來比較每個信道的流量成本。質量可以通過該維度的總量來保留。作為標準。
  • Python數據分析實戰,尾鳶花數據集數據分析
    本節所使用的尾鳶花數據集是Python中自帶的數據集,常用於機器學習分類算法模型,其中sepal_length_cm、sepal_width_cm、petal_length_cm、petal_width_cm、class欄位代表的含義分別是花萼長度、花萼寬度、花瓣長度、花瓣寬度、尾鳶花的類別。
  • 大數據分析之多維數據分析入門
    在這個數據立方體中,每一個坐標軸都代表一個業務角度(時間、地區、產品),坐標軸上的坐標值則表示了某個業務角度的一個確定的值(如:北京市、3月份、手機),不同坐標軸坐標值的交叉點則表示一個具體的銷售額。實際上,此數據立方體中表示業務角度的坐標軸就是維度,類似於三維立方體的數據結構則被稱為多維數據結構(也稱數據立方體)。
  • 6個維度,解讀電商網站的數據分析應該怎麼做
    當下各大電商平臺蓬勃發展的時代,電商網站的數據分析也越來越火熱,後臺收到了不少朋友私信關於電商網站數據分析的問題,今天我簡單從六個方面來說:流量分析、站內分析、轉化分析、廣告管理、會員分析、業務分析流量分析流量分析主要是為對網站整個站點的進行流量監測。
  • R數據分析:如何用R做驗證性因子分析及畫圖,實例操練
    本來打算寫一個python做結構方程模型系列的,發現python並不能生成路徑圖,於是決定先學習R吧,畢竟我時間有限,之後還是會更新python,也會加上R,感興趣的朋友可以關注一波。今天給大家寫寫驗證性因子分析的做法。還有因為自己用慣了jupyter,用Rstudio不太習慣,所以給jupyter安上了R內核,目前在jupyter中跑R,很舒服。
  • 機器學習(AI)與數據分析
    如何學習「數據分析」本部分內容主要覆蓋到python數據分析與可視化的技能,我們將使用到幾個工具庫。pandas(+numpy)matplotlibseabornpandas是一個非常實用強大的python數據分析工具庫,可以很快捷地幫大家完成很多結構化數據上的分析與挖掘。