pandas入門

2021-03-02 AI入門小白

使用《利用python進行數據分析》(第二版)進行學習,僅需要學習資料的小夥伴可直接跳轉至文章最下方。(註:只有第5章--pandas入門部分,使用jupyter notebook打開,代碼已通過測試,後續章節請追隨更新)

1、pandas的數據結構

       pandas有兩個主要的數據結構:Series和DataFrame。

Series是一種類似於一維數組的對象,它由一組數據(各種Numpy數據類型)以及一組與之相關的數據標籤(即索引)組成。僅有一組數據即可產生最簡單的Series:

與普通Numpy數組相比,可通過索引的方式選取Series中的單個或一組值:

Series對象本身及其索引都有一個name屬性,該屬性跟pandas其它的關鍵功能關係非常密切:

DataFrame是表格型數據結構,列有序,每列可為不同的值類型。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典 (共用同一個索引)。DataFrame中面向行和面向列的操作基本上是平衡的。DataFrame中的數據是以一個或多個二維塊存放的。
註:雖然DataFrame是以二維結構保存數據的,但仍可以將其表示為更高維度的數據。直接傳入一個由等長列表或Numpy數組組成的字典,構建DataFrame:

DataFrame的列可以通過賦值的方式修改,附上一個標量或一組值:

Series索引(obj[...])的工作方式類似於Numpy數組的索引,只不過Series的索引值不只是整數:

利用標籤的切片運算與普通的Python切片運算不同,其末端是包含的(即閉區間):

這就叫做廣播。DataFrame和Series之間的運算差不多也是如此:

默認情況下,DataFrame和Series之間的算術運算會將Series的索引匹配到DataFrame的列,然後沿著行一直向下廣播:

有些匯總統計(如相關係數和協方差)是通過參數對計算出來的。我們來看幾個DataFrame ,它們的數據來自Yahoo ! Fina nce的股票價格和成交貓:
  1)python中有一種存儲方式,可以存儲為.pkl文件。

  2)該存儲方式,可以將python項目過程中用到的一些暫時變量、或者需要提取、暫存的字符串、列表、字典等數據保存起來。

  3)保存方式就是保存到創建的.pkl文件裡面。

  4)然後需要使用的時候再 open,load。

Series的corr方法用於計算兩個Series中重疊的、非NA的、按索引對齊的值的相關係數。與此類似,cov用於計算協方差:

DataFrame的corr和COV方法將以DataFrame的形式返回完整的相關係數或協方差矩陣:

利用DataFrame的corrwith方法,你可以計算其列或行跟另一個Series或DataFrame之間的相關係數。傳入一個Series將會返回一個相關係數值Series (針對各列進行計算):

傳入一個DataFrame則會計算按列名配對的相關係數。這裡,計算百分比變化與成交量的相關係數:

傳入axis = 1即可按行進行計算。無論如何,在計 算相關係數之前,所有的數據項都會桉標籤對齊。

百度網盤連結:https://pan.baidu.com/s/1-pokKZZEXncHcxVm7lPiWw

相關焦點

  • Python數據處理庫pandas入門教程
    本文是對它的一個入門教程。pandas提供了快速,靈活和富有表現力的數據結構,目的是使「關係」或「標記」數據的工作既簡單又直觀。它旨在成為在Python中進行實際數據分析的高級構建塊。入門介紹pandas適合於許多不同類型的數據,包括:由於這是一個Python語言的軟體包,因此需要你的機器上首先需要具備Python語言的環境。關於這一點,請自行在網絡上搜索獲取方法。關於如何獲取pandas請參閱官網上的說明:pandas Installation。
  • Python學習指南| 快速入門Pandas數據分析技巧
    包括:雖然pandas功能非常強大,但它不能為整個數據科學管道pipeline提供函數。學習如何在實際數據分析過程中使用pandas:這種方法涉及查找或收集真實世界的數據並執行端到端的數據分析(更多數據源可以閱讀福利收藏 | 免費公共數據源都在這裡,伸手接好!)。 Kaggle數據集是查找數據的最佳位置之一。 但並不是在Kaggle進行機器學習,我強烈建議,直到你對pandas很熟悉後在開始機器學習項目。
  • Pandas入門(讀取數據)
    109 71 1023 Jhson 100 94 120}**********<class 'dict'>********** 姓名 語文 數學 英語0 張三 101 110 981 李四 110 127 1352 王五 99 91 1423 趙六 110 84 140**********<class 'pandas.core.frame.DataFrame
  • 精心整理 | 非常全面的Pandas入門教程
    熟練並掌握pandas常規用法是正確構建機器學習模型的第一步。如何安裝pandas2. 如何導入pandas庫和查詢相應的版本信息3. pandas數據類型4. series教程5. dataframe教程6.
  • python數據分析常用庫之pandas入門(2)
    索引、選擇和賦值昨天介紹了pandas的模塊引入、創建和讀取數據,今天主要看看怎麼從數據結構中獲得想要的值,也就是數據的索引查找、
  • 從小白到大師,這裡有一份Pandas入門指南
    /pandas-docs/stable/reference/api/pandas.read_csv.html)中參數設定為 chunksize=N,這會返回一個可以輸出 DataFrame 對象的迭代器。
  • 懂Excel輕鬆入門Python數據分析包pandas(十七):合併不規範數據
    後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言本系列上一篇文章關於合併多個 Excel 數據,許多小夥伴似乎對此比較感興趣,問我是否可以合併不規範的數據,本文就用他們提出的需求做一個大致講解上一節文章:懂Excel就能輕鬆入門Python數據分析包pandas(十六):合併數據奇葩格式
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十五):拆分數據
    後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言這是本系列第16篇的文章,之前有小夥伴私信我說,這系列例子太簡單了,能給點實際點的例子嗎。好吧,這篇來看看如何用 pandas 拆分數據到各個 Excel 文件。
  • 數據處理 | pandas入門專題——離散化與one-hot
    今天是pandas數據處理專題第7篇文章,可以點擊上方專輯查看往期文章。其實非常簡單,pandas的開發人員早就想到了這個需求,有現成且成熟的api可以使用。然後我們再人為的設置分桶用來對收入進行劃分:bins = [0, 30000, 100000, 10000000, 1000000000]之後我們只需要調用pandas
  • 數據處理利器pandas入門
  • 超全的pandas數據分析常用函數總結:下篇
    回復「書籍」即可獲贈Python從入門到進階共
  • Python數據分析利器,Pandas入門介紹,幫你便捷高效處理複雜數據
    pandas(pannel data analysis,面板數據分析),我個人覺得pandas用於數據分析處理有別於Python字典和列表的主要在於以下三點。運算效率提升,pandas是基於numpy寫的,換句話說也是c語言進行編寫並編譯成本地庫的,在運算效率會高很多。
  • 十分鐘學習pandas! pandas常用操作總結!
    學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具
  • 十分鐘學習pandas!pandas常用操作總結!
    學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具,熟練使用pandas是從sql boy/girl 跨越到一名優秀的數據分析師傅的必備技能。這篇pandas常用操作總結幫大家回顧下pandas的常用語法,尤其是我們分析數據時常用的方法。
  • Python Excel 辦公自動化系列——win32com/pandas庫使用詳解
    pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。官方網站:https://pandas.pydata.org/中文網站:https://www.pypandas.cn/官方文檔:https://pandas.pydata.org/pandas-docs/stable/def fun9_2():    data = pd.read_excel('3_8 pandas
  • 首發:適合初學者入門人工智慧的路線及資料下載
    我曾經寫了一篇初學者入門的文章:《機器學習簡易入門-附推薦學習資料》,這篇文章給初學者指明了學習的方向,受到廣大初學者好評。在此基礎上,結合本站已經發過的文章,以及自己的學習過程,整理出一個AI的入門路線,並整合到一個github倉庫,所有代碼和數據集都提供了下載方式。
  • 5分鐘入門一個強大的Python股票分析工具
    但是還有更強的,誰家分析工具更強,某某家最強,不,接下來就送你一個更簡單,更好用的股票指標庫,完全和pandas強強結合的分析庫,路過看過絕對不能錯過啊。更好用的股票指標庫Technical Analysis (TA) 是一個易於使用的庫,它基於Python的Pandas庫,具有60多個指標。
  • 【翻譯】《利用Python進行數據分析·第2版》第12章(中) pandas高級應用
    入門【翻譯】《利用Python進行數據分析·第2版》第5章(中)pandas入門【翻譯】《利用Python進行數據分析·第2版》第5章(下)pandas入門【翻譯】《利用Python進行數據分析·第2版》第6章(上) 數據加載、存儲與文件格式【翻譯】《利用Python進行數據分析·第2版》第6章(中) 數據加載、存儲與文件格式【翻譯
  • Python模塊NumPy,Pandas,matplotlib的中文文檔
    今天比較忙所以不能寫長文了作為一名數據工程師需要熟練掌握python中的這些numpy,matplotlib,pandas,sklearn,seaborn,statsmodel.模塊但是由於這些模塊的文檔都是英文的可能一些英文不好的同學學起來會比較的困難,所以我從網上給大家找到一些中文的文檔
  • 懂Excel輕鬆入門Python數據分析包pandas(二十八):二分法查找
    後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言Excel 中的 vlookup 函數有一個模糊查找選項,其內在原理為二分法查找,在 pandas 中同樣有一樣功能的方法。