十分鐘學習pandas!pandas常用操作總結!

2020-12-21 程式設計師阿狗

學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具,熟練使用pandas是從sql boy/girl 跨越到一名優秀的數據分析師傅的必備技能。

這篇pandas常用操作總結幫大家回顧下pandas的常用語法,尤其是我們分析數據時常用的方法。文末還有pandas的cheat sheet,幫助你記住常見的pandas操作。

常用操作分類:

從不同文件中導入數據以不同的文件格式導出DataFrames查看DataFrame信息選擇數據的特定子集數據清理命令分組、排序和過濾數據其他以下df代表DataFrame對象,ser代表Series對象。

從不同文件中導入數據

從CSV文件中讀取所有數據:pd.read_csv(file_name)從一個分隔的文本文件(如TSV)中讀取所有數據:pd.read_table(file_name)從Excel表讀取:pd.read_excel(file_name)從SQL資料庫中讀取數據:pd.read_sql(query, connectionObject)從JSON格式的字符串或URL中獲取數據:pd.read_json(jsonString)要獲取剪貼板的內容:pd.read_clipboard()

以不同的文件格式導出DataFrames

將DataFrame寫入CSV文件:df.to_csv(file_name)將DataFrame寫入Excel文件:df.to_excel(file_name)將一個DataFrame寫入一個SQL表:df.to_sql(tableName, connectionObject)將DataFrame寫入JSON格式的文件:df.to_json(file_name)

查看DataFrame信息

獲取所有與索引、數據類型和內存相關的信息:df.info()要提取DataFrame的起始n行:df.head(n)要提取DataFrame中最後n行:df.tail(n)要提取DataFrame中可用的行數和列數:df.shape。總結數字列的統計:df.describe()要查看唯一值及其計數:ser.value_counts(dropna=False)

選擇數據的特定子集

提取第一行:df.iloc[0,:]。提取第一列的第一個元素: df.iloc[0,0]返回標籤為'col'的列作為Series:df[col]。返回具有新數據框架的列:df[[col1,col2]]。按位置選擇數據:ser.iloc[0]。按索引選擇數據:ser.loc['index_one']

數據清理命令

同時重命名所有列:df.rename(columns = lambda x: x + '1')選擇性地重命名列:df.rename(columns = {'oldName': 'newName'})重命名所有的索引:df.rename(index = lambda x: x + 1)按順序重命名列:df.columns = ['x', 'y', 'z']。檢查是否存在空值,相應地返回一個布爾值arrray:pd.isnull()pd.isnull()的反向:pd.notnull()刪除所有包含空值的記錄:df.dropna()刪除所有包含空值的列:df.dropna(axis=1)用'n'代替每個空值:df.fillna(n)要將series的所有數據類型轉換為浮點數:ser.astype(float)將所有數字1替換為'1',將3替換為'3':ser.replace([1,2], ['one', 'two'])

python數據分析經典教材:

分組、排序和過濾數據

返回列值的groupby對象:df.groupby(colm)返回多列值的groupby對象:df.groupby([colm1, colm2])按升序排序(按列):df.sort_values(colm1)要按降序排序(按列):df.sort_values(colm2, ascending=False)提取列值大於0.6的行:df[df[colm] > 0.6]

其他

將第一個DataFrame的行添加到第二個DataFrame的末尾:df1.append(df2)將第一個DataFrame的列添加到第二個DataFrame的末尾:pd.concat([df1,df2],axis=1)返回所有列的平均值:df.mean()返回非空值的數量:df.count()另外給大家準備了pandas使用的cheat sheet,簡單兩頁全面地總結了pandas的使用方法。

截圖:

公眾號 程式設計師阿狗

中回復「 1206 」即可獲取。

相關焦點

  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
  • 一張圖就能徹底搞定Pandas
    >可以看到這份小抄提供了PPT和PDF兩個版本,雖然最新一條更新記錄為兩年前,但是並不影響我們拿來學習,下面我們來看看這份小抄(速查表)的強大!這份速查表一共有兩頁,我已經將它轉換為圖片發在公眾號可能會被壓縮,你可以在文末下載高清大圖經過一番研究,這兩張圖片一共覆蓋了12個常用的Pandas操作1、數據創建
  • 數據科學|pandas教程——分組和聚合 - 知乎
    為滿足這些需求,比較常用的方法即分組和聚合。幸運的是,pandas中完美支持了這樣的功能,掌握好pandas中這些功能,可以使數據處理的效率大大提高。這篇文章就通過一些基礎而又十分紮實的例子帶大家一起學習一下這些方法。
  • Pandas官方文檔中文版PDF下載
    學習Pandas最好的方法就是看官方文檔:  《10 Minutes to pandas》、《Pandas cookbook》、《Learn Pandas》  英文版讀起來稍顯吃力,所以向大家推薦Pandas官方文檔中文版!
  • python之pandas數據分析
    分析數據先安裝下相關分析數據的工具,圖一安裝了pandas,圖二安裝了xlrs。pandas是強大的數據分析工具,xlrs是用來讀取excel數據的。從鏈家爬取的數據有3000條,見圖3.從圖中可以看到有些髒數據,因此我們首先進行數據清洗,再進行數據分析。
  • 第5章 精通pandas合併操作(使用pandas進行數據分析,)
    df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y,fill_value=-1)(c)combine_first方法這個方法作用是用df2填補df1的缺失值,功能比較簡單,但很多時候會比combine更常用
  • 利用Python中的pandas(date_range)庫生成時間序列(time series)
    在講pandas時間序列函數之前,我大概介紹下什麼是時間序列(time series)。時間序列(time series)簡單的說就是各時間點上形成的數值序列,時間序列(time series)分析就是通過觀察歷史數據預測未來的值。比如股票預測、房價預測分析等。本篇文章主要詳細講解生成時間索引的函數date_range及延伸函數。
  • 127、使用pandas讀取文本文件
    pandas提供了一些用於將表格型數據讀取為DataFrame對象的函數,其中常用read_csv和read_table讀取文件。0.png下面出現的例子中需要讀取的文件都存放在我自己的電腦 D:Pytho\notebookpydata-book-masterch06 中。
  • pandas數據可視化原來也這麼厲害
    作者:小伍哥 來源:AI入門學習(公眾號)在python中,常見的數據可視化庫有3個:matplotlib:最常用的庫,可以算作可視化的必備技能庫,比較底層,api多,學起來不太容易。seaborn:是建構於matplotlib基礎上,能滿足絕大多數可視化需求,更特殊的需求還是需要學習matplotlib。pyecharts:上面的兩個庫都是靜態的可視化庫,而pyecharts有很好的web兼容性,可以做到可視化的動態效果。並且種類也比較豐富。
  • 「Sichuan,more than pandas」英文專題海外上線,掀起雲端「熊貓熱」
    7月29日,記者從四川省文化和旅遊廳了解到,為了給海外網友開啟了解四川文旅的新窗口,提供雲端「遇見」四川文旅特色魅力的新方式,四川省文化和旅遊廳聯合國際在線開設「Sichuan,more than pandas」英文專題,聯動四川日報、四川廣播電視臺精心生產宣推內容,形成了線上遊四川的熱烈氛圍,邀約海外網友一起去解開「美麗四川 熊貓家園」的自然和人文「密碼」。
  • D05 Pandas.Series詳解,從構造開始,深度解析Series
    >Python數據挖掘基礎PandasSeries寫在前面本文使用的是pandas0.25.3,從0.25開始起pandas什麼是SeriesSeries是pandas特有,能夠保存任何類型數據(整數、字符串、浮點數、Python對象等)的一維數組。
  • 快速解釋如何使用pandas的inplace參數
    介紹在操作dataframe時,初學者有時甚至是更高級的數據科學家會對如何在pandas中使用inplace參數感到困惑。更有趣的是,我看到的解釋這個概念的文章或教程並不多。它似乎被假定為知識或自我解釋的概念。
  • python也能做excel大神之一:熊貓(pandas)的大用處
    :-)接下來,為了詼諧起見,會經常把pandas叫熊貓,大家知道就好。Pandas是Python的數據處理包,它可以編寫為一個程序,可以讀取和處理表格數據,如Excel文件和CSV,處理它並聚合它,然後輸出它。此外,即使您沒有開發環境,也可以立即在Google提供的Collaboration的免費開發環境中進行嘗試。
  • pandas數據處理:常用卻不甚了解的函數,pd.read_excel()
    人們經常用pandas處理表格型數據,時常需要讀入excel表格數據,很多人一般都是直接這麼用:pd.read_excel(「文件路徑文件名」),再多一點的設置可能是轉義一下路徑中的斜槓,一旦原始的excel表不是很規整,這樣簡單讀入勢必報錯!
  • 不用寫代碼就能學用Pandas,適合新老程式設計師的神器Bamboolib
    作者 | Rahul Agarwal譯者 | 陸離編輯 | Jane出品 | AI科技大本營(ID:rgznai100)曾經,你有沒有因為學習與使用 Pandas 進行數據檢索等操作而感到厭煩過?我們希望大家「不用寫任何代碼也可以學習和使用 Pandas」,可以辦到嗎?接下來,本文就從數據設置及使用 Bamboolib 內容入手,帶領大家一起體驗這個新鮮奇妙之旅。
  • pandas系列(三)Pandas分組
    內涵1.SAC指的是分組操作中的split-apply-combine過程2.其中split指基於某一些規則,將數據拆成若干組,apply是指對每一組獨立地使用函數,combine指將每一組的結果組合成某一類數據結構2. apply過程
  • Python開發簡單爬蟲【學習資料總結】
    Linux基礎 (linux入門,和python結合可以找linux+python運維的工作) (1)虛擬機安裝 (2)linux伺服器安裝與配置 (3)apache伺服器與nginx伺服器安裝與使用 (4)linux常用伺服器命令
  • 一篇文章帶你使用Pandas畫出圖形
    這篇文章帶領大家介紹一下如何使用pandas進行可視化操作,繪製一些圖形,如條形圖、直方圖、散點圖等,以及一些繪圖時缺失值的繪製方式和一些繪圖的工具和格式,方便大家更快的了解如何使用Pandas進行可視化的繪圖,相信通過這篇文章大家可以在以後處理數據的時候可以繪製出自己想要的圖形。