Python實戰—鐵達尼號生還者數據分析

2021-02-23 大話數據分析

然而不幸的是本節使用seaborn自帶的鐵達尼號生還乘客的數據集,其中各字節所代表的含義如下:survived alive乘客生還情況、pclass class船艙等級、sex who乘客性別、age 乘客年齡、sibsp parch是否帶有家屬,統一用alone欄位代表是否有家屬、fare船票價格、embarked和embark_town上船地點。
import numpy as np import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline

titanic = sns.load_dataset("titanic")titanic.head() 

titanic.isnull().sum() #查看是否具有缺失值

sns.set(style="darkgrid", palette="muted", color_codes=True)    sns.distplot(titanic[titanic['age'].notnull()]['age']) #distplot函數查看乘客的年齡分布

對年齡的缺失值處理,並且用distplot函數查看乘客的年齡分布,發現年齡呈正態分布。
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())sns.distplot(titanic['age'])

年齡呈正態分布,用年齡的均值進行缺失值的填充,再對年齡分布可視化。
sns.countplot(x="embarked",data=titanic) 

titanic['embarked'] = titanic['embarked'].fillna('S')titanic.isnull().sum()

titanic = titanic.drop(['survived','pclass','sibsp','parch','who','adult_male','deck','embark_town'],axis=1)titanic.head() 

sns.countplot(x="sex",data=titanic)

sns.boxplot(x='sex',y='age',data=titanic)

由上圖可看出,男性與女性的年齡分布很相近,但女性乘客的年齡跨度更大一點。
sns.countplot(x="class",data=titanic)

sns.violinplot(x="class", y="age", data=titanic)

結合船艙等級,繪製乘客年齡分布箱線圖,頭等艙的年齡跨度較大,第三級船艙的中年人分布最多。
sns.countplot(x="alone",data=titanic)

sns.countplot(x="alive",data=titanic)

sns.countplot(x='alive',hue='sex',data=titanic)

hue='sex'添加性別變量,生還中女性佔大多數。
g = sns.FacetGrid(titanic, col='sex') g.map(sns.countplot, 'alive') 

def agelevel(age):       if age <= 16:       return 'child'   elif age >= 60:       return 'aged'   else:       return 'midlife'   titanic['age_level'] = titanic['age'].map(agelevel) 

sns.countplot(x='age_level',data=titanic)

分級年齡可視化,成年人乘客數量佔比很大,小孩和年長者佔比很小。
sns.countplot(x='alive',hue='age_level',data=titanic)

乘客年齡與生還關係,乘客年齡與生還乘客之間的關係並不明顯,小孩的生還機率比較大,老人卻相對較小。
g = sns.FacetGrid(titanic, col='class', row='alone') g.map(sns.countplot, 'alive')

乘客艙位等級越高,生還的可能性越大,單獨的乘客生還的機率也更大一些。只能一個人過了
好在還有廣大的粉絲


相關焦點

  • Python數據分析實戰:TMDB電影數據可視化
    出品:Python數據之道 (ID:PyDataLab) 作者:葉庭雲編輯:Lemon一、數據預處理本文將以項目實戰的形式,對 TMDB電影數據進行數據分析與可視化實戰,所使用的數據來源於 Kaggle,文末提供數據的下載方式。
  • 鐵達尼號沉船之謎,深度分析背後原因!
    鐵達尼號沉船事件介紹鐵達尼號是20世紀最先製造的巨型豪華客輪,但由於一些原因撞上了冰山,沉入了海底。鐵達尼號沉船事故原因鐵達尼號發出SOS求救信號彈鐵達尼號沉船之謎後,附近有多艘客輪接收到了求救信號,但都以為是玩笑而不予理睬,只有卡帕西亞號堅持到現場。鐵達尼號有二十艘救生艇,14隻常規救生艇均可承載65人,其餘4艘摺疊艇和緊急救生艇都能坐40人。可是前幾艘下海的救生艇只坐了將近一半人,只有最後幾艘救生艇坐滿了。但真正的最後幾艘是沒坐滿的,由於下放順序錯誤,造成最後放的船頭幾隻沒坐滿人就匆忙放出了。
  • 數據分析案例:泰坦尼克獲救預測
    相信大家都看過電影《鐵達尼號》,影片以1912年鐵達尼號郵輪在其處女啟航時觸礁冰山而沉沒的事件為背景
  • python之pandas數據分析
    python爬蟲之urllib庫鏈家二手房信息分析》文章裡介紹了如何從鏈家網站爬取房價信息,今天我們來分析下房價總價和其他幾個的關係。分析數據先安裝下相關分析數據的工具,圖一安裝了pandas,圖二安裝了xlrs。pandas是強大的數據分析工具,xlrs是用來讀取excel數據的。
  • 【星夜大師】鐵達尼號上的小提琴家——華萊士·哈特利
    華萊士·亨利·哈特利(Wallace Henry Hartley), 鐵達尼號遊輪(RMSTitanic)號上的小提琴手及樂隊領隊,在鐵達尼號首航遇險沉沒過程中
  • 如何用編程得出鐵達尼號生還者的年齡段?
    【CSDN編者按】大家熟知的電影《鐵達尼號》,是一部經典的奧斯卡電影,也是一部以真實故事改編而拍的電影。真實故事中,1912年4月14日,這艘當時世界上體積最龐大、內部設施最豪華的客運輪船鐵達尼號,與一座冰山相撞,2224名船員及乘客中,逾1500人喪生,其中僅333具罹難者遺體被尋回。時隔一個世紀之久,如果用編程的角度,來審視這場災難,會有什麼發現呢?
  • Python到底能幹什麼
    如:Gmail、Youtube、知乎、豆瓣 2)自動化運維:自動化處理大量的運維任務3)數據分析師:快速開發快速驗證,分析數據得到結果4)遊戲開發者:一般是作為遊戲腳本內嵌在遊戲中5)自動化測試:編寫為簡單的實現腳本,運用在Selenium/lr中,實現自動化。6)網站開發:藉助django,flask框架自己搭建網站。
  • 為什麼企業都在用Python做數據分析?
    那麼Python和其他數據分析工具有什麼不同?讓我們來看看在數據分析中使用Python的優勢。除了簡單、高效和易於使用的語言之外,Python還具有許多工具所沒有的強大性。
  • 深圳Python培訓班打造行業高標準Python人才
    我們都知道Web前端一直都是不可忽視的存在,我們離不開網絡,離不開Web前端,利用Python的框架可以做網站,而且都是一些精美的前端界面,另外我們需要掌握一些數據的應用。豆瓣就是使用Python作為Web開發作為基礎語言,知乎的整個架構也是基於Python語言更勝一籌大數據方向、運維方向等多種方向。各種類型的企業實戰項目,一比一教學。
  • python接口自動化5-Json數據處理
    一般常見的接口返回數據也是json格式的,我們在做判斷時候,往往只需要提取其中幾個關鍵的參數就行,這時候就需要json來解析返回的數據了。在python裡面寫的代碼,傳到json裡,肯定識別不了,所以需要把python的代碼經過encode後成為json可識別的數據類型。
  • python多重線性回歸分析
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:MultivariateLinear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')df根據預測目標,確定自變量和因變量#多重線性回歸
  • 鐵達尼號生還者的回憶錄,內容你絕對想不到
    1912年4月14日那個恐怖的夜晚,鐵達尼號上共有705人得救,1502人罹難。  38歲的查爾斯·萊特勒是泰坦尼克二副,他是最後一個從冰冷的海水中被拖上救生船、職位最高的生還者。  他寫下了接下來這17頁的回憶錄,講述了沉船災難的細節。
  • Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP
    Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP環境背景:今天想嘗試一下導師說過的情感分析,根據自身的實際情況選擇SnowNLP來做個有趣的實驗。SnowNLP是咋們中國人受到了TextBlob的啟發後開發的python類庫,能夠非常方便的處理中文文本內容,劃重點方便處理中文的類庫!!!,類庫中的算法和訓練好的字典都已經準備好了。唯一需要注意的是要使用unicode編碼,所以使用時請自行decode成unicode。知道這個SnowNLP是什麼之後,我們開始設計下實驗方案。
  • 主成分分析(PCA)在R 及 Python中的實戰指南
    下圖顯示了利用主成分分析從高維度(三維)數據到低維度(二維)數據的轉換。請別忘了,每一個所得到的維度都是特徵p的線性組合。我可以深入研究理論,但更好是用編程實戰來回答這一問題。 作為演示示例,我將使用來自BIg Mart Prediction Challenge上的數據。 請記住,主成分分析僅能應用於數值型數據,因此,如果數據集中存在分類變量,必須將其轉換成數值型的。而且在應用這個技術前前,必須進行了基本的數據清理。
  • 2017年Python中文社區公眾號十大熱門文章
    去年上映的《羞羞的鐵拳》可謂是票房大豐收啊,作者通過豆瓣爬蟲數據對電影評論做了情感分析。文章介紹如何不利用第三方庫,僅用python自帶的標準庫來構造一個決策樹。用 Python分析胡歌的《獵場》到底值不值得看?
  • 會Python的人,在職場將非常搶手
    去年,公司做新品投放測試時,echo用python爬蟲抓取了競品資料和市場數據,分析出不同價格產品的銷售情況、不同產品和市場的關係。用python獲取市場分析表敲幾行代碼電腦就會自動找到產品的數據資料,還能自動繪製成,整個過程5分鐘都不用。
  • 利用Python開發App實戰
    (點擊上方公眾號,可快速關注)我很早之前就想開發一款app玩玩,無奈對java不夠熟悉,之前也沒有開發app的經驗,因此一直耽擱了。最近想到嘗試用python開發一款app,google搜索了一番後,發現確實有路可尋,目前也有了一些相對成熟的模塊,於是便開始了動手實戰,過程中發現這其中有很多坑,好在最終依靠google解決了,因此小記一番。
  • 鐵達尼號「最後菜單」曝光,讓人有股淡淡的哀傷
    1912年撞上冰山沉入大西洋的鐵達尼號,百年來,不只事件被翻拍成經典愛情電影,許多關於這艘豪華客輪的故事以及打撈上岸的遺物,也始終吸引世人的關注
  • 文本複述,中文文本數據增強
    >人工智慧大數據與深度學習  公眾號:datayx一.概述文本複述任務是指把一句/段文本A改寫成文本B,要求文本B採用與文本A略有差異的表述方式來表達與之意思相近的文本。《美團機器學習實踐》_美團算法團隊.pdf《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼特徵提取與圖像處理(第二版).pdfpython就業班學習視頻,從入門到實戰項目2019最新《PyTorch
  • 基於python+opencv的圖像目標區域自動提取
    >機器學習AI算法工程   公眾號:datayx一、提取紙張中的內容一張照片中的感興趣區域總是沿著x,y,z三個軸都有一定傾斜(如下圖),要想把照片翻轉到平行位置,需要進行透視變換,而透視變換需要同一像素點變換前後的坐標。