一文總結數據科學家常用的Python庫(下)

2021-03-06 磐創AI

編譯 | 安可

來源 | analyticsvidhya.com

【磐創AI導讀】：本系列文章為大家總結了24個熱門的python庫，查看上篇。想要獲取更多的機器學習、深度學習資源，歡迎大家點擊上方藍字關注我們的公眾號：磐創AI。一文總結數據科學家常用的Python庫（上）

用於建模的Python庫

我們已經到達了本文最受期待的部分 - 構建模型！這就是我們大多數人首先進入數據科學領域的原因，不是嗎？

讓我們通過這三個Python庫探索模型構建。

/* Scikit-learn */
就像用於數據操作的Pandas和用於可視化的matplotlib一樣，scikit-learn是構建模型的Python庫領導者。沒有什麼比得上它了。

事實上，scikit-learn建立在NumPy，SciPy和matplotlib之上。它是開源的，每個人都可以訪問，並且可以在各種環境中重用。

以下是安裝scikit-learn的代碼：

Scikit-learn支持在機器學習中執行的不同操作，如分類，回歸，聚類，模型選擇等。

我還建議您瀏覽以下連結以了解有關scikit-learn的更多信息：

/* TensorFlow */
TensorFlow由Google開發，是一個流行的深度學習庫，可幫助您構建和培訓不同的模型。它是一個開源的端到端平臺。TensorFlow提供簡單的模型構建，強大的機器學習生成，以及強大的實驗工具和庫。

TensorFlow提供多個抽象級別供您根據需要進行選擇。它通過使用高級Keras API用於構建和訓練模型，這使得TensorFlow入門和機器學習變得容易。

瀏覽此連結以查看安裝過程：https://www.tensorflow.org/install。使用這些文章開始使用TensorFlow：

TensorFlow 101：了解張量和圖形，讓您開始深度學習

(https://www.analyticsvidhya.com/blog/2017/03/tensorflow-understanding-tensors-and-graphs/)

使用Keras和TensorFlow在R中開始深度學習
(https://www.analyticsvidhya.com/blog/2017/06/getting-started-with-deep-learning-using-keras-in-r/）

/* PyTorch */

什麼是PyTorch？嗯，這是一個基於Python的科學計算包，可以用作：

NumPy的替代品，可以使用GPU的強大功能

深度學習研究平臺，提供最大的靈活性和速度

轉到此處(https://pytorch.org/get-started/locally/)查看不同作業系統的安裝過程。

PyTorch提供以下功能：

以下是有關PyTorch的兩篇非常詳細且易於理解的文章：

PyTorch簡介 - 一個簡單而強大的深度學習庫
(https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/)

PyTorch入門 - 了解如何構建快速準確的神經網絡（4個案例研究！）
(https://www.analyticsvidhya.com/blog/2019/01/guide-pytorch-neural-networks-case-studies/)

用於數據可解釋性的Python庫

你真的了解你的模型是如何工作的嗎？你能解釋為什麼你的模型能夠得出結果嗎？這些是每個數據科學家應該能夠回答的問題。構建黑盒模型在業界是沒有用的。

所以，我已經提到了兩個Python庫，可以幫助您解釋模型的性能。

/* LIME */
LIME是一種算法（和庫），可以解釋任何分類器或回歸量的預測。LIME如何做到這一點？通過一個可解釋的模型來近似它。靈感來自「為什麼我應該相信你？」：解釋任何分類器的預測「，這個模型解釋器可用於生成任何分類算法的解釋器。

安裝LIME很簡單：

本文將幫助構建LIME背後的直覺和模型解釋性：

/* H2O */
我相信很多人都會聽說過H2O.ai. 他們是自動化機器學習的市場領導者。但是你知道他們在Python中也有一個模型可解釋性庫嗎？

H2O的無人駕駛AI提供簡單的數據可視化技術，用於表示高度特徵交互和非線性模型行為。它通過可視化提供機器學習可解釋性（MLI），闡明建模結果和模型中特徵的影響。

通過以下連結閱讀有關H2O的無人駕駛AI執行MLI的更多信息。

用於音頻處理的Python庫

音頻處理或音頻分析是指從音頻信號中提取信息和含義以進行分析或分類或任何其他任務。它正在成為深度學習中的一種流行功能，所以要留意這一點。

/* LibROSA */
LibROSA是一個用於音樂和音頻分析的Python庫。它提供了創建音樂信息檢索系統所需的構建塊。

單擊此連結(https://librosa.github.io/librosa/install.html)以查看安裝詳細信息。

這是一篇關於音頻處理及其工作原理的深入文章：

/* Madmom */
這個名字可能聽起來很有趣，但Madmom是一個非常漂亮的音頻數據分析Python庫。它是一個用Python編寫的音頻信號處理庫，主要關注音樂信息檢索（MIR）任務。

您需要先安裝以下庫才能安裝Madmom：

您需要以下軟體包來測試安裝是否成功：

安裝Madmom的代碼：

我們甚至有一篇文章要了解Madmom如何用於音樂信息檢索：

/* pyAudioAnalysis */

pyAudioAnalysis是一個用於音頻特徵提取，分類和分段的Python庫。它涵蓋了廣泛的音頻分析任務，例如：

對未知聲音進行分類

檢測音頻事件並排除長時間錄音中的靜音時段

執行有監督和無監督的分割

提取音頻縮略圖等等

您可以使用以下代碼安裝它：

pip install pyAudioAnalysis

用於圖像處理的Python庫

如果您正在尋找數據科學行業的角色，您必須學習如何使用圖像數據。隨著組織能夠收集越來越多的數據（主要得益於計算資源的進步），圖像處理正變得無處不在。

因此，請確保您對以下三個Python庫中的至少一個感到滿意。

/* OpenCV-Python */
談到圖像處理，OpenCV是我想到的第一個名字。OpenCV-Python是用於圖像處理的Python API，它結合了OpenCV C ++ API和Python語言的最佳特性。

它主要用於解決計算機視覺問題。

OpenCV-Python使用了我們在上面看到的NumPy。所有OpenCV陣列結構都與NumPy數組進行轉換。這也使得與使用NumPy的其他庫（如SciPy和Matplotlib）集成更容易。

在您的系統中安裝OpenCV-Python：

pip3 install opencv-python

以下是兩個關於如何在Python中使用OpenCV的流行教程：

使用深度學習從視頻構建人臉檢測模型（Python實現）
(https://www.analyticsvidhya.com/blog/2018/12/introduction-face-detection-video-deep-learning-python/)

16個OpenCV函數啟動計算機視覺之旅（使用Python代碼）
(https://www.analyticsvidhya.com/blog/2019/03/opencv-functions-computer-vision-python/)

/* Scikit-image */
圖像處理的另一個python庫是Scikit-image。它是用於執行多個和不同圖像處理任務的算法集合。

您可以使用它來執行圖像分割，幾何變換，色彩空間操作，分析，過濾，形態學，特徵檢測等等。

我們需要在安裝scikit-image之前使用以下軟體包：

Python（> = 3.5）

NumPy（> = 1.11.0）

SciPy（> = 0.17.0）

joblib（> = 0.11）

這就是你可以在你的機器上安裝scikit-image的方法：

pip install -U scikit-learn

/* Pillow */
Pillow是PIL（Python ImagingLibrary）的新版本。它是從PIL派生出來的，在Ubuntu等一些Linux發行版中已被用作原始PIL的替代品。

Pillow提供了幾種執行圖像處理的標準程序：

每像素操作

掩蔽和透明處理

圖像過濾，例如模糊，輪廓，平滑或邊緣查找

圖像增強，例如銳化，調整亮度，對比度或顏色

向圖像添加文字等等！

如何安裝Pillow？這很簡單：

查看以下AI漫畫，了解Pillow在計算機視覺中的使用：

用於資料庫的Python庫

學習如何從資料庫存儲，訪問和檢索數據是任何數據科學家必備的技能。你根本無法擺脫角色的這個方面。構建模型很棒但是如果不首先檢索數據，你會怎麼做？

我選擇了兩個與SQL相關的Python庫，你可能會發現它們很有用。

/* psycopg */
Psycopg是最受歡迎的PostgreSQL（一種用於Python程式語言的高級開源關係資料庫）適配器。Psycopg的核心是完全實現Python DB API 2.0規範。

目前的psycopg2實現支持：

Python版本2.7

Python 3版本從3.4到3.7

PostgreSQL伺服器版本從7.4到11

9.1的PostgreSQL客戶端庫版本

以下是如何安裝psycopg2的方法：

/* SQLAlchemy */
啊，SQL。最流行的資料庫語言。SQLAlchemy是一個Python SQL工具包和Object Relational Mapper，它為應用程式開發人員提供了SQL的全部功能和靈活性。

它旨在實現高效，高性能的資料庫訪問。SQLAlchemy認為資料庫是關係代數引擎，而不僅僅是表的集合。

要安裝SQLAlchemy，您可以使用以下代碼行：

用於部署的Python庫

你知道什麼型號的部署？如果沒有，你應該儘快學習。部署模型意味著將最終模型放入最終應用程式（或技術上稱為生產環境）。

/* Flask */
Flask是一個用Python編寫的Web框架，通常用於部署數據科學模型。Flask有兩個組成部分：

查看下面的示例以列印「Hello world」：

from flask import Flask
app = Flask(__name__)

@app.route("/")
def hello():
return "Hello World!"

if __name__ == "__main__":
app.run()

以下文章是學習Flask的一個很好的起點：

結束筆記

在本文中，我們看到了一大堆python庫，它們在進行數據科學項目時常用。那裡有更多的庫，但這些是每個數據科學家應該知道的核心庫。

我錯過了任何Python庫？或者我們列表中您特別有用的任何庫？請在下面的評論部分告訴我們！
文章來源：https://www.analyticsvidhya.com/blog/2019/07/dont-miss-out-24-amazing-python-libraries-data-science/

你也許還想看：

● 21個必須知道的機器學習開源工具

● 重磅！！！一文總結Pytorch的8張思維導圖！

● 半監督學習將再度興起！谷歌祭出大殺器：無監督數據增強

歡迎掃碼關注：

點擊下方 | 閱讀原文 | 了解更多

一文總結數據科學家常用的Python庫(下)

相關焦點

python數據分析常用庫

數據科學中一些不常用但很有用的Python庫

常用python機器學習庫總結

Python常用庫大全

Python之Numpy庫常用函數合集

python的常用擴展庫以及使用方式

每個python人都離不開的12個python庫

讓所有程式設計師絕不能錯過的59個Python庫總結!

python機器學習:常用庫的介紹及安裝

這幾個常用的python庫你需要知道

2017年數據科學15個最好用的Python庫

Python常用庫- xlrd庫

慢步學習,python庫文件概述,再來點第三方庫文件安裝的乾貨

python數據分析常用庫之pandas入門(2)

數據科學家最喜歡的5個自然語言處理Python庫

python推薦 | 面向地學領域的Python庫匯總

Python 爬蟲:8 個常用的爬蟲技巧總結!

Python數據分析之NumPy庫

用Python 做機器學習不得不收藏的重要庫

數據科學|十大最受歡迎的Python庫