全文共2071字,預計學習時長6分鐘
Pandas庫目前已經成為用Python進行探索性數據分析的絕佳伴侶。它功能豐富,靈活易用,成為了當今許多數據科學家的首選。Pandas庫的社區也很完善,這讓它能夠一直積極發展和改進。
提到Pandas,就不得不提到這兩種工具:
· 可以用簡短的代碼執行基本EDA的工具。這些庫本質上是在hood中運行Pandas的功能,如SweetViz和Pandas profiling庫。
· 基於GUI的Pandas替代品,如Bamboolib。
最近,筆者發現了另一個基於GUI的Pandas替代,叫做PandasGUI。它具有繪製數據幀以及重新構建數據幀的功能,用戶也可以進行任意自定義操作。本文將介紹它的各種功能以及在數據中使用的方法。
PandasGUI,顧名思義,是一個用於分析Pandas數據幀的圖形用戶界面。該項目仍在積極開發中,可能會發生顛覆性的變化。
可以通過以下幾種方式安裝PandasGUI:
# from PyPipip install pandasguior# from Githubpip install git+https://github.com/adamerose/pandasgui.git
接下來,筆者將通過一個示例來介紹PandasGUI庫的各種功能。PandasGUI已經裝配了一些示例數據集,我們使用的是庫中已有的Titanic數據集。
Titanic是機器學習中相當有名的「Hello World」數據集,其任務是創建一個模型,預測哪些乘客會在鐵達尼號沉船事故中倖存。
import pandas as pdfrom pandasgui import showfrom pandasgui.datasets import titanicgui = show(titanic)
可以通過以下方式導入數據集:
titanic = pd.read_csv('https://github.com/adamerose/datasets/blob/master/titanic.csv')gui = show(titanic)
運行上述命令後,PandasGUI中將打開一個單獨的窗口,並顯示上載的數據幀:
對DataFrames和Series進行查看與排序
可以查看導入的全部數據幀,然後按升序或降序對其進行快速排序。請注意,PandasGUI也可以處理多類數據幀。
用查詢表達式篩選數據幀
探索了數據集之後,就可以根據一些查詢表達式篩選數據集。Pandas最初用Dataframe.query()執行篩選操作。它用字符串形式的表達式來篩選數據,對原始數據幀進行更改,並返回篩選後的數據幀。
就本數據集而言,假設想要篩選出以下乘客:
· 男性
· 屬於Pclass 3
· 在沉船事故中倖存
數據編輯和複製粘貼
此工具的另一個強大功能是可以直接編輯任何條目,甚至可以將選中的數據複製粘貼到另一個類似excel或記事本的文檔中。
統計摘要
PandasGUI還提供整個數據集的精簡統計摘要。
對話繪圖
數據可視化是任何數據分析過程中必不可少的,PandasGUI提供了幾個選項來快速創建一些酷炫的交互式圖表,例如:
用pivot和melt函數重造數據幀
有時需要重造數據以獲得更清晰的觀察視角。PandasGUI中的pivot函數與melts函數都能實現此功能。
通過拖放導入CSV文件
PandasGUI的另一個強大之處是,只需將數據幀拖到GUI界面上,就可以簡單地導入數據幀。
從Jupyter Notebook獲取GUI數據幀
如果已經直接將數據幀導入到PandasGUI界面上,那麼只需幾行代碼就可以在熟悉的juptyer notebook中獲取數據幀。這樣就可以隨時讓notebook自帶數據分析過程。
Pandas GUI正在積極開發中,我們可能會在未來看到更多的功能。它拯救了對於那些不喜歡編碼或者想要藉助低代碼平臺的人,趕緊掌握它吧!
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範