DataFrame數組常用方法

2021-03-02 Stata and Python數據分析

本文作者:孫曉玲

文字編輯:孫曉玲

學習了Pandas的基本數據類型,今天為大家介紹Pandas中基本數據類型的常用操作方法,這裡以DataFrame數組為例。

首先生成一個DataFrame數組,方法之前已經介紹這裡將不再贅述,給出命令如下:

import numpy as npimport pandas as pddates = pd.date_range('20191101', periods=8)df = pd.DataFrame(np.random.randn(8, 5), index=dates,columns=list('abcde'))df

1.查看頂部和尾部數據

當數據集龐大時,查看數據的基本情況通常只需查看頂部與尾部數據,即可得知數據概貌,可用.head().tail()函數分別查看頭部、尾部數據,默認為顯示5條數據,也可以傳入數字指定你想要查看的數據條數。這裡示範輸出默認情況下前5條數據與指定後3條數據。

2.查看行列索引與值

本例中,行索引為日期索引dates,列索引為列表[a,b,c,d,e],值為交互式列表中的數據,可分別用.index、.columns.values屬性查看行列索引與數值。

df.indexdf.columnsdf.values

採用交互式輸出方式,輸出結果中除了行列索引,還包括其數據類型。這裡行索引的數據類型為64位的datestime,是逐日型數據,當然還有逐月、逐年等其他類型,在生成datestime時傳入不同的日期類型參數即可得到。這裡的列索引類型為object,值為一個二維NumPy數組。

與NumPy數組類似,Pandas數組也具有快速描述性統計方法,使用.describe()函數可以生成描述性統計,總結數據集分布的中心趨勢,不包括空值,其語法結構如下:DataFrame.describe(percentiles=None, include=None, exclude=None)

示例如下:

輸出結果包括每一列的觀測值數量、均值、標準差、最大值、最小值及重要的分位數。如果你想得到逐行的描述性統計結果,可對原數據進行轉置再進行描述性統計。

2.常用的描述性統計方法

下表列出了Pandas數組中一些常用的描述性統計方法。

這裡選取幾個演示如下:

df.count()#計算每一列非空數值個數df.cumsum()

df.count()返回每一列非空數值個數,df.cumsum()返回隨著日期的累積和。

df.quantile(0.3) #0.3分位數df.min()df.idxmin()

df.quantile(0.3)返回每一列的0.3分位數,df.min()返回每一列的最小值,df.idxmin()返回每一列最小值對應的日期索引。

動手操作,熟能生巧,快來練習一下吧~

對我們的推文累計打賞超過1000元,我們即可給您開具發票,發票類別為「諮詢費」。用心做事,不負您的支持!

過了14天潛伏期真的沒事了?

Pandas基本數據類型介紹

「個性化」sortobs命令,教你實現排序自由

恭賀新春,平安順遂|各省疫情關注度地圖

過年觀影指南(二)

過年觀影指南(一)

egenmore隱藏功能——進位轉換

相遇insobs,如暗室逢燈

數據可視化之地理坐標系

微信公眾號「Stata and Python數據分析」分享實用的stata、python等軟體的數據處理知識,歡迎轉載、打賞。我們是由李春濤教授領導下的研究生及本科生組成的大數據處理和分析團隊。

此外,歡迎大家踴躍投稿,介紹一些關於stata和python的數據處理和分析技巧。
投稿郵箱:statatraining@163.com投稿要求:
1)必須原創,禁止抄襲;
2)必須準確,詳細,有例子,有截圖;
注意事項:
1)所有投稿都會經過本公眾號運營團隊成員的審核,審核通過才可錄用,一經錄用,會在該推文裡為作者署名,並有賞金分成。
2)郵件請註明投稿,郵件名稱為「投稿+推文名稱」。
3)應廣大讀者要求,現開通有償問答服務,如果大家遇到有關數據處理、分析等問題,可以在公眾號中提出,只需支付少量賞金,我們會在後期的推文裡給予解答。

相關焦點

  • Pandas常用的兩種數據類型之「DataFrame」
    1.創建方式我可以使用如下的方式創建(初始化)DataFrame類型的對象(常用):•二維數組結構(列表,ndarray數組,DataFrame等)類型。•字典類型,key為列名,value為一維數組結構(列表,ndarray數組,Series等)。•如果沒有顯式指定行與列索引,則會自動生成以0開始的整數值索引。
  • pandas | 詳解DataFrame中的apply與applymap方法
    在上一篇文章當中,我們介紹了panads的一些計算方法,比如兩個dataframe的四則運算,以及dataframe填充Null的方法。今天這篇文章我們來聊聊dataframe中的廣播機制,以及apply函數的使用方法。
  • 什麼是Pandas的DataFrame?
    創建DataFrame最常用的一種是直接傳入一個由等長列表或NumPy數組組成的字典:In [33]: data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9
  • Pandas-DataFrame基礎知識點總結
    根據字典創建data = {    'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],    'year':[2000,2001,2002,2001,2002],    'pop':[1.5,1.7,3.6,2.4,2.9]}frame = pd.DataFrame(data)frame#輸出    pop state
  • 數據分析利器 pandas 系列教程(二):強大的 DataFrame
    創建 dataframe 的常見方式同 series 一樣,dataframe 也有 index,不同的是,series 除了 index,只有一列,而 dataframe 通常有很多列,比如上面的 dataframe 就有四列,而且都有名字:name、sex、course、grade,通過這些名字,可以索引到某一列,這些名字稱為列(索引),因此,在 dataframe
  • Pandas數據結構:DataFrame
    , 18],"city": ["BeiJing", "TianJin", "ShenZhen"]}print(data)print("")frame = pd.DataFrame(data) # 創建DataFrame
  • Python-Pandas安裝--Series結構和DataFrame結構
    1)首先打開cmd終端,輸入pip install pandas(這樣可能會因為超時導致安裝失敗,不妨試一下pip --default-time=10000 install pandas)2)其實中間安裝失敗很多次,我也找了其他的解決方案,如果方法一對你來說不可取,那麼就看方法二吧,百度搜索(原文地址: http://www.wsmee.com
  • 如何使用iloc和loc 對Pandas Dataframe進行索引和切片
    首先,.loc是一個基於標籤的方法,而.iloc是一個基於整數的方法。這意味著當我們對dataframe進行切片時,loc將考慮索引的名稱或標籤。也就是說,可以使用0到長度-1來對一個dataframe建立索引,無論它是行索引還是列索引。此外,正如我們將在後面的Pandas iloc 例子中所看到的,該方法也可以與一個布爾數組一起使用。
  • 【串講總結】array, list, tensor,Dataframe,Series之間互相轉換總結
    一、前言對於在Deep Learning的學習中總會有幾個數據類型的轉換,這次想把這些常用的轉換做一個總結
  • paipai教你pandas(1) DataFrame的列維度操作
    今天paipai在使用pandas時,遇到了第一個問題,從一份Excel文件中讀取數據,構建為一個DataFrame對象,但是數據中的屬性欄位很多,需要對一些欄位進行取捨,paipai處理完數據之後呢,對Dataframe的列操作,整理了一下,在這裡分享給大家。      為了讓大家理解起來更直觀明了,paipai隱去複雜的列名和數值,用簡單的字母來代替。
  • Python數據分析 | 第五章 Pandas入門之Series和DataFrame
    ❞建DataFrame的辦法有很多,最常用的一種是直接傳入一個由等長列表或NumPy數組組成的字典:data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],        'year':
  • R語言 | 數據框data.frame操作一網打盡
    數據框的計算,按某列求平均值 (數據透視表)數據框(data.frame)在R中使用的十分廣泛。只要你用read.table輸入數據,基本都是data.frame類別的數據。Data Frame一般被翻譯為數據框,就像是R中的Excel表,由行和列組成。
  • DataFrame(3):DataFrame的創建方式
    ]df = pd.DataFrame(data)display(df)結果如下:, "Python":95, "Hive":96},    "王五":{"Java":85, "Python":94}}df = pd.DataFrame(data)display(df)data = {    "Java":{"張三":90,"李四":82,"王五":85},    "Python":{"張三":89,"李四"
  • DataFrame(4):DataFrame的創建方式
    (data)display(df)結果如下:"王五":{"Java":85, "Python":94}}df = pd.DataFrame(data)display(df)data = { "Java":{"張三":90,"李四":82,"王五":85}, "Python":{"張三":89,"李四":95,"王五":94}, "Hive":{"張三":78,"李四":96}}
  • python數據分析專題 (12):DataFrame
    DataFrame既有行索引也有列索引,pandas中的DataFrame類似於R中的data.frame數據框,屬於二維數據。是數據分析中最為常用的數據類型。創建DataFrame可以使用pandas包中的DataFrame()函數生成DataFrame數據結構。有多種方式,可以直接從python的字典進行轉換,也可以從ndarry生成。
  • js數組常用的幾個函數總結
    javascript中,數組是很常用的。數組的函數很多,下面分享幾個常用的數組函數。每個函數都用瀏覽器測試過。     下面每個測試結果都是在google瀏覽器console上執行的。length屬性。數組的length屬性,返回數組的元素個數.JavaScript使用一個32位整數,保存數組的元素個數。
  • pandas:Series , Data Frame , Panel
    它是最常用的pandas對象之一,可接受不同類型的輸入,如Dict of 1D ndarray、list、Dict或Series;2-D numpy.ndarray;有組織的或有記錄的序列。然而,我們找到了解決這個問題的方法:
  • DataFrame(5):DataFrame元素的獲取方式(很重要)
    3、訪問一列或多列:傳入單個標籤或標籤數組df = pd.DataFrame(np.random.randint(70,100,(4,5)), index=["地區④ 布爾數組方式df = pd.DataFrame(np.random.randint(70,100,(4,5)), index=["地區1", "地區2", "地區3","地區
  • ​Pandas的一些常用操作 #1
    /economics.csv')1.DataFrame to markdown/latexdataframe可以轉換為許多常用格式,如csv,excel,sql,json,html,latex等等,這裡以markdown和latex為例。
  • pandas | 使用pandas進行數據處理——DataFrame篇
    比如在上一篇驗證PCA降維效果的文章當中,我們從.data格式的文件當中讀取了數據。該文件當中列和列之間的分隔符是空格,而不是csv的逗號或者是table符。我們通過傳入sep這個參數,指定分隔符就完成了數據的讀取。