38個常用Python庫:數值計算、可視化、機器學習等8大領域都有了

2020-11-22 CDA數據分析師

作者 | 李明江 張良均 周東平 張尚佳 來源 | 大數據DT

Python作為一個設計優秀的程序語言,現在已廣泛應用於各種領域,依靠其強大的第三方類庫,Python在各個領域都能發揮巨大的作用。

一、數值計算

數值計算是數據挖掘、機器學習的基礎。Python提供多種強大的擴展庫用於數值計算,常用的數值計算庫如下所示。

1. NumPy

支持多維數組與矩陣運算,也針對數組運算提供大量的數學函數庫。通常與SciPy和Matplotlib一起使用,支持比Python更多種類的數值類型,其中定義的最重要的對象是稱為ndarray的n維數組類型,用於描述相同類型的元素集合,可以使用基於0的索引訪問集合中元素。

2. SciPy

在NumPy庫的基礎上增加了眾多的數學、科學及工程計算中常用的庫函數,如線性代數、常微分方程數值求解、信號處理、圖像處理、稀疏矩陣等,可進行插值處理、信號濾波,以及使用C語言加速計算。

3. Pandas

基於NumPy的一種工具,為解決數據分析任務而生。納入大量庫和一些標準的數據模型,提供高效地操作大型數據集所需的工具及大量的能快速便捷處理數據的函數和方法,為時間序列分析提供很好的支持,提供多種數據結構,如Series、Time-Series、DataFrame和Panel。

二、數據可視化

數據可視化是展示數據、理解數據的有效手段,常用的Python數據可視化庫如下所示。

4. Matplotlib

第一個Python可視化庫,有許多別的程序庫都是建立在其基礎上或者直接調用該庫,可以很方便地得到數據的大致信息,功能非常強大,但也非常複雜。

5. Seaborn

利用了Matplotlib,用簡潔的代碼來製作好看的圖表。與Matplotlib最大的區別為默認繪圖風格和色彩搭配都具有現代美感。

6. ggplot

基於R的一個作圖庫ggplot2,同時利用了源於《圖像語法》(The Grammar of Graphics)中的概念,允許疊加不同的圖層來完成一幅圖,並不適用於製作非常個性化的圖像,為操作的簡潔度而犧牲了圖像的複雜度。

7. Bokeh

跟ggplot一樣,Bokeh也基於《圖形語法》的概念。與ggplot不同之處為它完全基於Python而不是從R處引用。長處在於能用於製作可交互、可直接用於網絡的圖表。圖表可以輸出為JSON對象、HTML文檔或者可交互的網絡應用。

Bokeh也支持數據流和實時數據,為不同的用戶提供了3種控制水平:

最高的控制水平用於快速製圖,主要用於製作常用圖像;中等控制水平與Matplotlib一樣允許開發人員控制圖像的基本元素(例如分布圖中的點);最低的控制水平主要面向開發人員和軟體工程師。沒有默認值,需要定義圖表的每一個元素。8. Plotly

可以通過Python notebook使用,與Bokeh一樣致力於交互圖表的製作,但提供在別的庫中幾乎沒有的幾種圖表類型,如等值線圖、樹形圖和三維圖表。

9. pygal

與Bokeh和Plotly一樣,提供可直接嵌入網絡瀏覽器的可交互圖像。與其他兩者的主要區別在於可將圖表輸出為SVG格式,所有的圖表都被封裝成方法,且默認的風格也很漂亮,用幾行代碼就可以很容易地製作出漂亮的圖表。

10. geoplotlib

用於製作地圖和地理相關數據的工具箱。可用來製作多種地圖,比如等值區域圖、熱度圖、點密度圖。必須安裝Pyglet(一個面向對象編程接口)方可使用。

11. missingno

用圖像的方式快速評估數據缺失的情況,可根據數據的完整度對數據進行排序或過濾,或者根據熱度圖或樹狀圖對數據進行修正。

三、Web開發

Web應用開發可以說是目前軟體開發中最重要的部分。Python提供各種Web開發框架,幫助使用者快速實現功能開發。常用的Python網絡開發類庫如下所示。

12. Django

一個高級的Python Web框架,支持快速開發,提供從模板引擎到ORM所需的一切東西,使用該庫構建App時,必須遵循Django的方式。

13. Socket

一個套接字通訊底層庫,用於在伺服器和客戶端間建立TCP或UDP連接,通過連接發送請求與響應。

14. Flask

一個基於Werkzeug、Jinja 2的Python輕量級框架(microframework),默認配備Jinja模板引擎,也包含其他模板引擎或ORM供選擇,適合用來編寫API服務(RESTful rervices)。

15. Twisted

一個使用Python實現的基於事件驅動的網絡引擎框架,建立在deferred object之上,一個通過異步架構實現的高性能的引擎,不適用於編寫常規的Web Apps,更適用於底層網絡。

16. Tornado

一個由FriendFeed開發的Python Web框架和異步網絡庫,採用非阻塞網絡I/O模型,可以處理數以千計的網絡連接。對於long polling、WebSockets和其他需要長時間實時連接的Apps,Tornado是一個理想的Web框架,它介於Django和Flask之間,能很好地處理C10K問題。

四、資料庫管理

資料庫是企業用於存放數據的主要工具,資料庫管理包括了數據定義、數據操作、資料庫運行管理、數據組織、資料庫庫保護、資料庫維護等。Python提供了所有主流關係資料庫管理接口,常用的Python MySQL連接庫及其簡介如下所示。

17. MySQL-python

又稱MySQLdb,是Python連接MySQL最流行的一個驅動,很多框架也基於此庫進行開發。只支持Python 2.x,且安裝時有許多前置條件。由於該庫基於C語言開發,在Windows平臺上的安裝非常不友好,經常出現失敗的情況,現在基本不推薦使用,取代品為衍生版本。

18. mysqlclient

完全兼容MySQLdb,同時支持Python 3.x,是Django ORM的依賴工具,可使用原生SQL來操作資料庫,安裝方式與MySQLdb一致。

19. PyMySQL

純Python實現的驅動,速度比MySQLdb慢,最大的特點為安裝方式簡潔,同時也兼容MySQL-python。

20. SQLAlchemy

一種既支持原生SQL,又支持ORM的工具。ORM是Python對象與資料庫關係表的一種映射關係,可有效提高寫代碼的速度,同時兼容多種資料庫系統,如SQLite、MySQL、PostgreSQL,代價為性能上的一些損失。

五、自動化運維

運維的主要內容包括保障業務長期穩定運行、保障數據安全可靠、自動化完成部署任務。Python能夠滿足絕大部分自動化運維的需求,目前在Linux運維中已用Python實現的應用如下所示。

21. jumpsever跳板機

一種由Python編寫的開源跳板機(堡壘機)系統,實現了跳板機的基本功能,包含認證、授權和審計,集成了Ansible、批量命令等。

支持WebTerminal Bootstrap編寫,界面美觀,自動收集硬體信息,支持錄像回放、命令搜索、實時監控、批量上傳下載等功能,基於SSH協議進行管理,客戶端無須安裝agent。主要用於解決可視化安全管理,因完全開源,容易再次開發。

22. Magedu分布式監控系統

一種用Python開發的自動化監控系統,可監控常用系統服務、應用、網絡設備,可在一臺主機上監控多個不同服務,不同服務的監控間隔可以不同,同一個服務在不同主機上的監控間隔、報警閾值可以不同,並提供數據可視化界面。

23. Magedu的CMDB

一種用Python開發的硬體管理系統,包含採集硬體數據、API、頁面管理3部分功能,主要用於自動化管理筆記本、路由器等常見設備的日常使用。由伺服器的客戶端採集硬體數據,將硬體信息發送至API,API負責將獲取的數據保存至資料庫中,後臺管理程序負責對伺服器信息進行配置和展示。

24. 任務調度系統

一種由Python開發的任務調度系統,主要用於自動化地將一個服務進程分布到其他多個機器的多個進程中,一個服務進程可作為調度者依靠網絡通信完成這一工作。

25. Python運維流程系統

一種使用Python語言編寫的調度和監控工作流的平臺,內部用於創建、監控和調整數據管道。允許工作流開發人員輕鬆創建、維護和周期性地調度運行工作流,包括了如數據存儲、增長分析、Email發送、A/B測試等諸多跨多部門的用例。

六、GUI編程

GUI(Graphical User Interface,圖形用戶界面)是指採用圖形方式顯示的計算機操作用戶界面。Python提供多個圖形開發界面的庫用於GUI編程,常用Python GUI庫如下所示。

26. Tkinter

一個Python的標準GUI庫,可以快速地創建GUI應用程式,可以在大多數的UNIX平臺下使用,同樣可以應用在Windows和Macintosh系統中,Tkinter 8.0的後續版本可以實現本地窗口風格,並良好地運行在絕大多數平臺中。

27. wxPython

一款開源軟體跨平臺GUI庫wxWidgets的Python封裝和Python模塊,是Python語言的一套優秀的GUI圖形庫,允許程式設計師很方便地創建完整的、功能健全的GUI用戶界面。

28. PyQt

一個創建GUI應用程式的工具庫,是Python程式語言和Qt的成功融合,可以運行在所有主要作業系統上,包括UNIX、Windows和Mac。PyQt採用雙許可證,開發人員可以選擇GPL和商業許可,從PyQt的版本4開始,GPL許可證可用於所有支持的平臺。

29. PySide

一個跨平臺的應用程式框架Qt的Python綁定版本,提供與PyQt類似的功能,並相容API,但與PyQt不同處為其使用LGPL授權。

七、機器學習

Python作為一門理想的集成語言,將各種技術綁定在一起,除了為用戶提供更方便的功能之外,還是一個理想的粘合平臺,在開發人員與外部庫的低層次集成人員之間搭建連接,以便用C/C++實現更高效的算法。

對於研究人員者而言,使用Python編程可以快速遷移代碼並進行改動,而無須花費過多的精力在修改代碼與代碼規範上。開發者在Python中封裝了很多優秀的依賴庫,其中NumPy和SciPy庫提供了目前解決機器學習問題所需的標準配置。

Python目前集成了大量的機器學習框架,其中常用機器學習庫如下所示。

30. Scikit-Learn

Scikit-Learn基於NumPy和SciPy,是專門為機器學習建造的一個Python模塊,提供了大量用於數據挖掘和分析的工具,包括數據預處理、交叉驗證、算法與可視化算法等一系列接口。

Sklearn的基本功能可分為6個部分:

分類回歸聚類數據降維模型選擇數據預處理其中集成了大量分類、回歸和聚類的算法,包括支持向量機、邏輯回歸、樸素貝葉斯、隨機森林、Gradient Boosting、K-means和DBSCAN等。

31. Orange3

Orange3是一個基於組件的數據挖掘和機器學習軟體套裝,支持Python進行腳本開發。它包含一系列的數據可視化、檢索、預處理和建模技術,具有一個良好的用戶界面,同時也可以作為Python的一個模塊使用。

用戶可通過數據可視化進行數據分析,包括統計分布圖、柱狀圖、散點圖,以及更深層次的決策樹、分層聚簇、熱點圖、MDS(多維度分析)、線性預測等,並可使用Orange自帶的各類附加功能組件進行NLP、文本挖掘、構建網絡分析、推斷高頻數據集和關聯規則數據分析。

32. XGBoost

XGBoost是專注於梯度提升算法的機器學習函數庫,因其優良的學習效果及高效的訓練速度而獲得廣泛的關注。XGBoost支持並行處理,比起同樣實現了梯度提升算法的Scikit-Learn庫,其性能提升10倍以上。XGBoost可以處理回歸、分類和排序等多種任務。

33. NuPIC

NuPIC是專注於時間序列的一個機器學習平臺,其核心算法為HTM算法,相比於深度學習,其更為接近人類大腦的運行結構。HTM算法的理論依據主要是人腦中處理高級認知功能的新皮質部分的運作原理。NuPIC可用於預測及異常檢測,適用面非常廣,僅要求輸入時間序列即可。

34. Milk

Milk(Machine Learning Toolkit)是Python中的一個機器學習工具包。

Milk注重提升運行速度與降低內存佔用,因此大部分對性能敏感的代碼都是使用C++編寫的,為了便利性在此基礎上提供Python接口。重點提供監督分類方法,如SVMs、KNN、隨機森林和決策樹,也支持無監督學習算法,如K-means和密切關係傳播。

八、深度學習

深度學習作為機器學習的分支,綻放了耀眼的光芒。由於Python的易用性與可擴展性,眾多深度學習框架提供了Python接口,其中較為流行的深度學習庫如下所示。

35. Caffe

Caffe(Convolutional Architecture for Fast Feature Embedding)是一個以表達式、速度和模塊化為核心的深度學習框架,具備清晰、可讀性高和快速的特性,在視頻、圖像處理方面應用較多。

Caffe中的網絡結構與優化都以配置文件形式定義,容易上手,無須通過代碼構建網絡;網絡訓練速度快,能夠訓練大型數據集與State-of-the-art的模型;模塊化的組件可以方便地拓展到新的模型與學習任務上。

36. Theano

Theano誕生於2008年,是一個高性能的符號計算及深度學習庫,被認為是深度學習庫的始祖之一,也被認為是深度學習研究和應用的重要標準之一。其核心是一個數學表達式的編譯器,專門為處理大規模神經網絡訓練的計算而設計。

Theano很好地整合了NumPy,可以直接使用NumPy的ndarray,使得API接口學習成本大為降低;其計算穩定性好,可以精準地計算輸出值很小的函數,如log(1+x);可動態地生成C或者CUDA代碼,用來編譯成高效的機器代碼。

37. TensorFlow

TensorFlow是相對高階的機器學習庫,其核心代碼使用C++編寫,並支持自動求導,使得用戶可以方便地設計神經網絡結構,不需要親自編寫C++或CUDA代碼,也無須通過反向傳播求解梯度。由於底層使用C++語言編寫,運行效率得到了保證,並簡化了線上部署的複雜度。

除了核心代碼的C++接口以外,TensorFlow還有官方的Python、Go和Java接口以外,用戶可以在一個硬體配置較好的機器中用Python進行實驗,並在資源比較緊張的嵌入式環境或需要低延遲的環境中用C++部署模型。

TensorFlow不只局限於神經網絡,其數據流式圖還支持非常自由的算法表達,也可以輕鬆實現深度學習以外的機器學習算法。

38. Keras

Keras是一個高度模塊化的神經網絡庫,使用Python實現,並可以同時運行在TensorFlow和Theano上。

Keras專精於深度學習,其提供了到目前為止最方便的API,用戶僅需將高級的模塊拼在一起便可設計神經網絡,大大降低了編程開銷(code overhead)與理解開銷(cognitive overhead)。

Keras同時支持卷積網絡和循環網絡,支持級聯的模型或任意的圖結構的模型,從CPU上計算切換到GPU加速無須任何代碼的改動。簡化了編程的複雜度的同時,在性能上絲毫不遜色於TensorFlow和Theano。

相關焦點

  • python機器學習:常用庫的介紹及安裝
    現在,隨著人工智慧的興起,機器學習越來越被各行業看重,從而使得人工智慧的需求會越來越大。今天,我們就從零基礎開始學習人工智慧的基礎篇——機器學習。工欲善其事必先利其器,所以,我們首先來看一下,我們要學習這些東西,需要準備些什麼!首先電腦一臺,這是必備的。下面我們來看一下需要安裝些什麼軟體到電腦上!
  • 2019年必知的10大頂級Python庫
    python 在開發人員中流行的原因有很多。然而,最重要的一點是它有大量的庫供用戶使用。python 的簡單性吸引了許多開發人員為機器學習創建新的庫。由於有大量的庫,python 在機器學習專家中變得非常流行。所以,這裡要介紹的第一個庫是 TensorFlow。
  • 學習筆記,從NumPy到Scrapy,學習Python不能錯過這些庫
    在網絡上看到幾位前輩寫了關於python深度學習庫的文章,對於小小白來說,因為我剛開始學python,我得承認自己看完後依然覺得雲裡霧裡的,不知道這些庫到底對我有什麼用處。所以我到網絡上搜集補充關於這些庫的說明內容,感覺在這個整理資料的過程中,對於這些python程序庫了解了更多,以下是我整理的學習筆記。
  • 數據科學和機器學習的最佳Python庫
    嗡嗡聲與我們生成的數據量有很大關係。數據是驅動ML模型所需的燃料,並且由於我們處在大數據時代,因此很清楚為什麼將數據科學視為該時代最有希望的工作角色!我會說數據科學和機器學習是技能,而不僅僅是技術。它們是從數據中獲得有用的見解並通過建立預測模型解決問題所需的技能。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    講授者同時在多家企業任職首席或顧問,有豐富的工業經驗,能夠保證聽者儘快了解數據挖掘、機器學習、深度學習的本質和實踐應用。 四、講師簡介 鄒博,中國科學院副研究員,天津大學軟體學院創業導師,成立中國科學院鄒博人工智慧研究中心(杭州站),在翔創、天識、睿客邦等公司擔任技術顧問,研究方向機器學習、深度學習、計算幾何,應用於大型氣象設備圖像與文本挖掘、股票交易與預測、量子化學醫藥路徑尋優、傳統農資產品價格預測和決策等領域。
  • 一文總結數據科學家常用的Python庫(下)
    用於建模的Python庫我們已經到達了本文最受期待的部分 - 構建模型!這就是我們大多數人首先進入數據科學領域的原因,不是嗎?讓我們通過這三個Python庫探索模型構建。/* Scikit-learn */就像用於數據操作的Pandas和用於可視化的matplotlib一樣,scikit-learn是構建模型的Python庫領導者。沒有什麼比得上它了。事實上,scikit-learn建立在NumPy,SciPy和matplotlib之上。它是開源的,每個人都可以訪問,並且可以在各種環境中重用。
  • 2020年六大機器學習Python庫!
    外頭有許多類型的python庫可用,本文介紹了一些流行的機器學習庫。1. NumPy:NumPy是一種通用的數組處理軟體包。它提供高性能的多維數組對象和用於處理這些數組的工具。它是用於科學計算的基本Python軟體包。NumPy針對Python的CPython參考實現,這是一種非優化的字節碼解釋器。
  • 數據科學的Python軟體包
    您只需命名域,Python就會為您提供最佳的軟體包和庫。數據科學和機器學習是這個時代的兩項苛刻技術,而Python在這兩個領域的表現要好於優。除Python之外,R是數據科學項目中經常使用的另一種程式語言。R更快,並且包含更多的計算和統計庫;但是,在本文中,我們僅介紹了頂級Python數據科學庫,如果您想掌握數據科學,則應該了解這些庫。
  • 掌握了這24個頂級Python庫,你就是大神!
    在業界常用於測試,但對於網頁抓取也非常方便。Selenium在IT領域非常流行。編寫Python腳本來自動化使用Selenium的web瀏覽器是很容易的。它允許免費高效地提取數據,並將其存儲在首選格式中以備後用。
  • 數據工程師需要掌握的 18 個 Python 庫
    Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。數據可視化Matplotlibmatplotlib是受MATLAB的啟發構建的。MATLAB是數據繪圖領域廣泛使用的語言和工具。
  • 這幾個常用的python庫你需要知道
    但是對於向小編一樣的小白來說,剛開始學習還是有些困難的,需要首先了解python的一些基礎知識。所以小編就整理了一些常用的python庫,希望對正在學習python的小夥伴有所幫助。1.MatplotlibMatplotlib是一個用於創建二維圖和圖形的底層庫。
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    不管你是Python或R的初學者,還是SQL或機器學習的入門者,或者準備學習Hadoop,這裡都有能滿足你的資料。我們這一期小白學數據專欄篩選了28份小抄,根據覆蓋面、清晰度和內容實用性,分別涵蓋了機器學習、數據科學、概率、SQL和大數據的領域。裡面包括了你所需要的工具、流程、各種包和語言。 第一部分 數據科學專場:Python小抄表 小白:我們先來回顧一下之前聊過的Python。
  • 2017,最受歡迎的 15 大 Python 庫有哪些?
    因此,我根據近來的使用體驗,在本文中列出了對數據科學家、工程師們最有用的那些庫。由於這些庫都開源了,我們從Github上引入了提交數,貢獻者數和其他指標,這可以作為庫流行程度的參考指標。核心庫1.然而,SciPy Stack相當龐大,其中有十幾個庫,我們把焦點放在核心包上(特別是最重要的)。關於建立科學計算棧,最基本的包是Numpy(全稱為Numerical Python)。它為Python中的n維數組和矩陣的操作提供了大量有用的功能。該庫提供了NumPy數組類型的數學運算向量化,可以改善性能,從而加快執行速度。2.
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    不管你是Python或R的初學者,還是SQL或機器學習的入門者,或者準備學習Hadoop,這裡都有能滿足你的資料。 目錄: 1.數據科學專場: Python小抄表 2.數據科學專場:R的小抄表 3.機器學習小抄表 4.概率小抄表 5.SQL和MySQL小抄表 6.大數據小抄表
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 業界| 四大機器學習程式語言對比:R、Python、MATLAB、Octave
    它的結構使其在大規模和小規模編程中都能清晰明了。 MATLAB(matrix laboratory)是一種多範型數值計算環境。 儘管 MATLAB 的設計初衷是數值計算,但其中的可選工具箱使用 MuPAD symbolic engine,具備符號計算能力。額外的包 Simulink 添加了圖多領域模擬和針對動態和嵌入系統的基於模型的設計。
  • 令人讚嘆的8個Python新手工具!
    其中scikit-learn是最有名的,是開源的,任何人都可以免費地使用這個庫或者進行二次開發。它是一個非常強大的工具,能為庫的開發提供高水平的支持和嚴格的管理。它也得到了很多第三方工具的支持,有豐富的功能適用於各種用例。scikit-learn主要有六大基本功能,分別是分類、回歸、聚類、數據將維、模型選擇和數據預處理。
  • Python語言中使用pyqtgraph庫實現數據可視化
    背景在Python程式語言中,matplotlib是一種常用的用於數據可視化的繪圖庫,它提供了一套和matlab相似的命令API,開發者可以僅需幾行代碼,便可生成如直方圖,功率譜,條形圖,錯誤圖,散點圖等圖形,適用於交互式繪圖,而且也可以方便地將它作為繪圖控制項嵌入到GUI應用程式中
  • 2017年最流行的15個數據科學Python庫
    這個 stack 相當龐大,其中有十幾個庫,所以我們想聚焦在核心包上(特別是最重要的)。NumPy(代表 Numerical Python)是構建科學計算 stack 的最基礎的包。它為 Python 中的 n 維數組和矩陣的操作提供了大量有用的功能。該庫還提供了 NumPy 數組類型的數學運算向量化,可以提升性能,從而加快執行速度。
  • 您必須在2019年知道的十大Python庫
    5.大型社區毋庸置疑,如果它是由谷歌開發的,那麼已經有一大批軟體工程師不斷致力於穩定性改進。6.開源關於這個機器學習庫的最好的事情是它是開源的,所以只要有網際網路連接,任何人都可以使用它。您每天都在使用TensorFlow,但間接使用Google語音搜索或Google相冊等應用。這些應用程式是使用此庫開發的。在TensorFlow中創建的所有庫都是用C和C ++編寫的。但是,它有一個複雜的Python前端。