思考python數據分析工具pandas-1簡介

2021-01-10 雪峰磁針石

介紹

我們生活在一個充滿數據的世界裡。事實上，數據如此之多，幾乎不可能全部理解。我們比以往任何時候都更加依賴計算機來幫助我們理解這些海量的信息。無論是通過搜尋引擎進行數據發現，還是通過圖形用戶界面進行展示，或是通過算法進行聚合，我們都會使用軟體來處理、提取並以對我們有意義的方式呈現數據。"pandas "已經成為一個越來越受歡迎的處理大數據集的軟體包。無論是分析大量數據、呈現數據，還是對數據進行歸一化處理並重新存儲，pandas都有廣泛的功能支持大數據需求。雖然pandas並不是目前性能最強的選擇，但它是用Python編寫的，所以對於初學者來說，它很容易學習，編寫速度快，而且有豐富的API。

關於pandas

pandas 是用 Python 處理大數據集的常用包。它是為處理一般小於等於1 GB 的數據集而設計的，但實際上這個限制取決於設備的內存限制。經驗法則是至少有五到十倍於數據集的內存量。一旦數據集開始超過G字節的範圍，一般建議使用不同的庫，如Vaex。

pandas這個名字來自於面板數據(panel data)一詞，指的是表格數據。其想法是，你可以用更大的數據面板來製作面板。當pandas首次實現時，它與NumPy緊密耦合，NumPy是一個流行的Python包，用於科學計算，提供了一個n維數組對象，用於執行高效的矩陣數學運算。現在pandas實現依然有Not a Number (NaN)類型的闡述和它的API中看到它緊密耦合的證據，比如dtype參數。

pandas從一開始就是真正的開源項目。原作者 Wes McKinney 在 Python Podcast.init中承認，為了促進開源社區和鼓勵貢獻，pandas 與 NumPy Python 軟體包的聯繫可能有點太緊密了，但回過頭來看，他不會有任何不同的做法。NumPy曾經是而且現在仍然是非常流行和強大的Python庫，用於高效的數學運算。在pandas誕生之初，NumPy是科學界主要的數據計算包，為了以現有用戶和貢獻者群體熟悉的方式快速簡單地實現pandas，NumPy包成為pandas DataFrame的底層數據結構。NumPy建立在C語言擴展之上，雖然它提供了Python API，但主要的計算幾乎全部發生在C語言中，這也是為什麼它如此高效的原因。C語言比Python快得多，因為它是一種低級語言，因此不會像Python那樣為了提供所有高級的好東西（如內存管理）而消耗內存和CPU開銷。

即使到了今天，開發人員仍然非常依賴NumPy，並且經常在他們的pandas程序中完全執行基於NumPy的操作。

對於普通開發者來說，Python和C語言在性能上的差異往往不是很明顯。在大多數情況下，Python的速度一般都足夠快，而且Python的高級特性(內置的內存管理和偽代碼一樣的語法等等)一般都超過了自己管理內存所帶來的頭痛。然而，當對數千行的龐大數據集進行操作時，這些微妙的性能差異會複合成更顯著的差異。對於普通的開發者來說，這可能看起來絕對離譜，但對於科研界來說，花幾天時間等待大數據計算運行並不稀奇。有時，計算確實需要這麼長的時間；然而，其他時候，程序只是以一種低效的方式編寫。在pandas中，有許多不同的方法可以做同樣的事情，這使得它靈活而強大，但也意味著它可能會導致開發人員走上效率較低的實現路徑，導致數據處理速度非常慢。

作為開發者，我們生活在一個計算資源被認為是廉價的時代。如果一個程序的CPU負擔很重，對我們來說，簡單地將AWS實例升級到更大的機器，多付幾塊錢，比投入時間去根治程序的問題，解決CPU的過度使用問題要容易得多。雖然擁有如此現成的計算資源是美好的，但也讓我們成為了懶惰的開發者。我們常常忘記，50年前的電腦佔據了整個房間，光是把兩個數字相加就需要幾秒鐘。很多程序的速度根本就夠快，即使不是以最優化的方式編寫，也能滿足性能要求。與簡單的網絡服務相比，大數據處理的計算資源佔用了大量的能源；它們需要大量的內存和CPU，往往需要大型機器在多個小時內以資源極限運行。這些程序對硬體的要求很高，有可能導致更快的老化，而且既要保持機器的冷卻，又要保證計算的運行，需要大量的能量。

作為開發者，我們有責任編寫高效的程序，這不僅僅是因為它們速度更快、成本更低，還因為它們將減少計算資源，這意味著更少的電力、更少的硬體，以及總體上更多的可持續性。

在接下來的章節中，本書的目標是幫助開發人員實現性能優異的pandas程序，並幫助他們形成選擇高效數據處理技術的直覺。在我們深入探討pandas所構建的底層數據結構之前，我們先來看看現有的一些有影響力的項目是如何利用pandas的。

pandas如何幫助構建黑洞的圖像

pandas被用來歸一化從幾臺大型望遠鏡收集到的所有數據，構建出第一張黑洞的圖像。由於黑洞離我們太遠，需要像地球一樣大的望遠鏡才能直接捕捉到黑洞的圖像，所以，科學家們想出了一個辦法，利用我們現在最大的望遠鏡來拼湊黑洞的圖像。

在這次國際合作中，地球上最大的望遠鏡被用作一個更大的理論望遠鏡的代表單鏡，而這個望遠鏡需要捕捉黑洞的圖像。由於地球會轉動，每個望遠鏡都可以作為一個以上的鏡子，填補理論上更大的望遠鏡圖像的重要部分。這些較大的理論圖像的碎片，然後通過幾個不同的圖像預測算法訓練，以識別不同類型的圖像。我們的想法是，如果這些不同的圖像再現技術中的每一種都輸出相同的圖像，那麼他們就可以確信黑洞的圖像是真實的圖像（或相當接近）。

image.png

1 來自射電望遠鏡的圖像被採集到硬碟上，然後飛到世界各地的麻省理工學院的實驗室，在那裡它們被加載到大熊貓中。然後對數據進行歸一化處理，將從望遠鏡中捕捉到的數據進行時間上的同步，去除來自地球大氣層的幹擾等，並計算出單個望遠鏡的絕對相位等隨時間變化的情況。然後將這些數據送入不同的圖像預測算法中，最終，第一張黑洞的圖像誕生了。

pandas如何幫助金融機構對未來市場做出更明智的預測

財務顧問一直在尋找競爭中的優勢。許多金融機構使用pandas以及機器學習庫來確定新的數據點是否可以幫助財務顧問做出更好的投資決策。新的數據集通常會被加載到pandas中，並進行歸一化處理，然後根據歷史市場數據進行評估，看數據是否與市場趨勢相關。如果相關，這些數據就會被傳遞給顧問，用於做出金融投資決策。它也可能被傳遞給他們的客戶，以便他們也能做出更明智的決定。

金融機構還使用pandas來監控他們的系統。他們尋找可能影響其交易表現的伺服器的中斷或緩慢。

pandas如何幫助提高內容發現？

公司每天都在收集大量的用戶數據。對於廣播公司的收視率，數據對於展示相關廣告和將正確的內容呈現在感興趣的用戶面前都特別有意義。通常情況下，收集到的用戶數據會被加載到pandas中，並分析他們觀看內容的瀏覽模式。他們可能會尋找一些模式，比如他們什麼時候看某些內容，看什麼內容，什麼時候看完某些內容，尋找新的內容。然後，根據這些模式推薦新的內容或相關產品廣告。最近有很多工作也是為了改善商業模式，讓用戶不至於被放到一個泡沫中（即推薦的內容並不是他們之前一直在看的同一類型的內容，或者呈現相同的觀點）。通常情況下，這是通過從業務方面避免內容孤島來實現的。

現在我們已經看了熊貓的一些有趣的用例，在第2章我們將看看如何使用pandas來訪問和合併數據。

思考python數據分析工具pandas-1簡介

相關焦點

Python數據分析:pandas讀取和寫入數據

python數據分析專題 (7):python數據分析模塊

基於python的大數據分析-pandas數據讀取(代碼實戰)

Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據

Python數據分析之pandas數據讀寫

Python數學建模技巧之pandas數據處理

python數據分析常用庫之pandas入門(2)

大數據下Python的三款大數據分析工具

python數據分析萬字乾貨!一個數據集全方位解讀pandas

Python數據核對系列之2—power query VS pandas

Python數據分析之NumPy庫

Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...

《pandas數據讀取》

數據分析工具篇——pandas高效函數

數據科學 | pandas數據導入與導出

Python Excel 辦公自動化系列——win32com/pandas庫使用詳解

懂Excel輕鬆入門Python數據分析包pandas(二十八):二分法查找

自動生成pandas代碼,python數據處理神器

Python做數據分析-簡潔、易讀、強大

python-pandas讀寫csv數據