​Pandas的一些常用操作 #1

2021-03-02 摸魚的西西弗斯

今天介紹幾個常用的Pandas操作。

import numpy as np
import pandas as pd
df = pd.read_csv('./economics.csv')

1.DataFrame to markdown/latex

dataframe可以轉換為許多常用格式,如csv,excel,sql,json,html,latex等等,這裡以markdown和latex為例。

print(df.to_markdown())
print(df.to_latex())

or

df.to_markdown('table.md')
df.to_latex('table.tex')

也可以自定義輸出latex格式,如表格寬度。

df.to_latex('tb.tex',column_format='lp{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}p{1.8cm}')

除此以外,dataframe還可以保存為圖片。

import dataframe_image as dfi
dfi.export(obj = df, filename = 'table.jpg', fontsize=15)

2.DataFrame常用屬性查詢
df.values   #值

df.index    #索引號

df.columns  #列標籤

df.dtypes   #數據類型

df.shape    #形狀(幾行幾列)

3.DataFrame常用基本函數
df.head(5)  #前5行

df.tail(5)  #後5行

df.info()   #信息概況

df.describe()   #主要統計量(count、mean、std、max、min、quartile)

4.DataFrame唯一值函數
df['psavert'].unique()  #唯一值組成的數組

df['psavert'].nunique()#唯一值個數

df['psavert'].value_counts()#唯一值及其頻數

df.describe()#主要統計量(count、mean、std、max、min、quartile)

df['psavert'].duplicated()#重複行的布爾值

df[df['psavert'].duplicated()]#單列去重(刪除重複行)

df.drop_duplicates(subset=['psavert', 'pop'], keep='first')#多列去重(保留first唯一值)

5.DataFrame替換函數
df['psavert'].replace(12.5, 'A', inplace = True)#替換某列的單個值

df['psavert'].replace({12.5:'A', 11.7:'B'}, inplace = True)#替換某列的多個值

df['date'].replace({r'2\d+': 'The 21st century'}, regex=True, inplace = True)#正則替換

df['psavert'].mask(df['psavert']>12.0 ,'A', inplace = True)#條件符合,進行替換

df['psavert'].where(df['psavert']<12.0 ,'A', inplace = True)#條件不符合,進行替換

5.DataFrame排序函數
df.sort_values('psavert',ascending = False)#單列降序排序

df.sort_values(['psavert','uempmed'],ascending=[True,False])#前者升序排序情況下,後者降序排序

今天先寫到這,下一期接著寫DataFrame的apply方法。

相關焦點

  • 十分鐘學習pandas! pandas常用操作總結!
    學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具
  • 十分鐘學習pandas!pandas常用操作總結!
    學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具,熟練使用pandas是從sql boy/girl 跨越到一名優秀的數據分析師傅的必備技能。這篇pandas常用操作總結幫大家回顧下pandas的常用語法,尤其是我們分析數據時常用的方法。
  • pandas讀取表格後的常用數據處理操作
    pandas讀取表格後的一些常用數據處理操作。這篇文章其實來源於自己的數據挖掘課程作業,通過完成老師布置的作業,感覺對於使用python中的pandas模塊讀取表格數據進行操作有了更深層的認識,這裡做一個整理總結。
  • 用Pandas做數據清洗的常用操作!
    一般而言,當提及數據清洗時,其實是主要包括了缺失值處理、重複值處理和異常值處理三類操作,本文即圍繞這這三個方面介紹一下個人的一些習慣操作。01 缺失值處理缺失值是各類數據集中經常會遇到的情形,相較於工整完全的數據記錄,帶有一定的缺失值更接近於數據的真實原貌。
  • pandas操作excel全總結
    pandas是基於Numpy創建的Python包,內置了大量標準函數,能夠高效地解決數據分析數據處理和分析任務,pandas支持多種文件的操作,比如Excel,csv,json,txt 文件等,讀取文件之後,就可以對數據進行各種清洗、分析操作了。
  • 數據分析之Pandas合併操作總結
    Pandas做分析數據,可以分為索引、分組、變形及合併四種操作。前邊已經介紹過索引操作、分組操作及變形操作,最後對Pandas中的合併操作進行介紹,涉及知識點提綱如下圖:     本文目錄              1. append與assign                  1.1. append方法                  1.2.
  • 數據處理技巧 | 帶你了解Pandas.groupby() 常用數據處理方法
    今天我們繼續推出一篇數據處理常用的操作技能匯總:靈活使用pandas.groupby()函數,實現數據的高效率處理,主要內容如下:pandas.groupby()三大主要操作介紹說到使用Python進行數據處理分析,那就不得不提其優秀的數據分析庫-Pandas,
  • 數據分析之Pandas變形操作總結
    Pandas做分析數據,可以分為索引、分組、變形及合併四種操作。前邊已經介紹過索引操作、分組操作,現在接著對Pandas中的變形操作進行介紹,涉及知識點提綱如下圖:     本文目錄              1.
  • python(pandas)讀取外部數據---使用Pandas讀寫操作txt文件
    1、準備.txt的數據文件其實pandas讀寫.txt文件和讀寫csv文件是類似的,而且使用的都是pd.read_csv()  /
  • Python3操作excel的集大成者pandas
    有個Python開發包的大管家,名叫Anaconda,這傢伙安裝好後,就有了操作excel的開發包pandas,既然用Anaconda的挺多,想必處理excel時,他們會更多選擇用pandas,而它是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。
  • python數據分析常用庫之pandas入門(2)
    /user/data/data_1.csv", index_col=0)一、python索引方法所有在pythons中索引數據的方法在pandas中同樣適用。二、pandas索引方法pandas自身提供了兩種索引方式:loc和iloc;一般也是建議使用的。
  • pandas100個騷操作:使用 Datetime 提速 50 倍運行速度!
    本篇是pandas100個騷操作系列的第 10 篇:使用 Datetime
  • Pandas向量化字符串操作
    那麼,有沒有辦法,不用循環就能同時處理多個字符串呢,pandas的向量化操作就提供了這樣的方法。向量化的操作使我們不必擔心數組的長度和維度,只需要關係操作功能,尤為強大的是,除了支持常用的字符串操作方法,還集成了正則表達式的大部分功能,這使得pandas在處理字符串列時,具有非常大的魔力。
  • pandas指南:做更高效的數據科學家
    skiprows=[2,5]表示在讀取文件時將刪除第2行和第5行最常用的函數:read_csv, read_excel還有一些很不錯的函數:read_clipboard、read_sql2、寫入數據index=None將簡單地按原樣寫入數據。
  • 《pandas數據讀取》
    或者pymysql庫,Oracle資料庫需要安裝cx_oracle庫),使用create_engine函數建立一個資料庫連接,pandas支持mysql,postgtrsql,Oracle,Sql server和SQLite等主流資料庫,下面將以mysql資料庫為例,介紹pandas資料庫數據得到讀取與存儲。
  • 超全的pandas數據分析常用函數總結:上篇
    為了更好地學習數據分析,我對於數據分析中pandas這一模塊裡面常用的函數進行了總結。整篇總結,在詳盡且通俗易懂的基礎上,我力求使其有很強的條理性和邏輯性,所以製作了思維導圖,對於每一個值得深究的函數用法,我也會附上官方連結,方便大家繼續深入學習。
  • Python 輕鬆搞定 Excel 常用的 20 個操作
    Excel與Python都是數據分析中常用的工具,本文將使用動態圖(Excel)+代碼(Python)的方式來演示這兩種工具是如何實現數據的讀取、生成、計算、修改、統計、抽樣、查找、可視化、存儲等數據處理中的常用操作!
  • 數據分析之Pandas
    Pandas 納入了大量庫和一些標準的數據模型,pandas提供了大量能使我們快速便捷地處理數據的函數和方法。所以下面首先介紹pandas最常用的2種基本數據格式[1],然後說明如何從文件中導入數據[2],最後總結了一些最常用的函數[3]。因為pandas有一些迷惑的用法,即使我這種常用的老玩家,曾經一度也有很多使用上的困惑,這裡也將一起手撕。
  • 超全的pandas數據分析常用函數總結:下篇
    為了更好地學習數據分析,我對於數據分析中pandas這一模塊裡面常用的函數進行了總結。整篇總結,在詳盡且通俗易懂的基礎上,我力求使其有很強的條理性和邏輯性,所以製作了思維導圖,對於每一個值得深究的函數用法,我也會附上官方連結,方便大家繼續深入學習。
  • Excel和Python常用功能的操作(數據分析)
    Excel與Python都是數據分析中常用的工具,本文介紹這兩種工具是如何實現數據的讀取、生成、計算、修改、統計、抽樣、查找、可視化、存儲等數據處理中的常用操作!Python:通過導入pandas庫,使用 pandas.read_excel("filepath")打開隨機生成數據Excel:拉取一定範圍後,上方輸入公式RAND()Python:導入numpy庫,np.DataFrame(np.random.rand