一文總結數據科學家常用的Python庫(下)

2021-03-06 磐創AI

編譯 | 安可

來源 | analyticsvidhya.com

【磐創AI導讀】:本系列文章為大家總結了24個熱門的python庫,查看上篇。想要獲取更多的機器學習、深度學習資源,歡迎大家點擊上方藍字關注我們的公眾號:磐創AI。一文總結數據科學家常用的Python庫(上)

用於建模的Python庫

我們已經到達了本文最受期待的部分 - 構建模型!這就是我們大多數人首先進入數據科學領域的原因,不是嗎?

讓我們通過這三個Python庫探索模型構建。

/* Scikit-learn */
就像用於數據操作的Pandas和用於可視化的matplotlib一樣,scikit-learn是構建模型的Python庫領導者。沒有什麼比得上它了。

事實上,scikit-learn建立在NumPy,SciPy和matplotlib之上。它是開源的,每個人都可以訪問,並且可以在各種環境中重用。

以下是安裝scikit-learn的代碼:

Scikit-learn支持在機器學習中執行的不同操作,如分類,回歸,聚類,模型選擇等。

我還建議您瀏覽以下連結以了解有關scikit-learn的更多信息:

/* TensorFlow */
TensorFlow由Google開發,是一個流行的深度學習庫,可幫助您構建和培訓不同的模型。它是一個開源的端到端平臺。TensorFlow提供簡單的模型構建,強大的機器學習生成,以及強大的實驗工具和庫。

TensorFlow提供多個抽象級別供您根據需要進行選擇。它通過使用高級Keras API用於構建和訓練模型,這使得TensorFlow入門和機器學習變得容易。

瀏覽此連結以查看安裝過程:https://www.tensorflow.org/install。使用這些文章開始使用TensorFlow:

TensorFlow 101:了解張量和圖形,讓您開始深度學習

(https://www.analyticsvidhya.com/blog/2017/03/tensorflow-understanding-tensors-and-graphs/)

使用Keras和TensorFlow在R中開始深度學習
(https://www.analyticsvidhya.com/blog/2017/06/getting-started-with-deep-learning-using-keras-in-r/)

/* PyTorch */

什麼是PyTorch?嗯,這是一個基於Python的科學計算包,可以用作:

NumPy的替代品,可以使用GPU的強大功能

深度學習研究平臺,提供最大的靈活性和速度

轉到此處(https://pytorch.org/get-started/locally/)查看不同作業系統的安裝過程。

PyTorch提供以下功能:


以下是有關PyTorch的兩篇非常詳細且易於理解的文章:

PyTorch簡介 - 一個簡單而強大的深度學習庫
(https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/)

PyTorch入門 - 了解如何構建快速準確的神經網絡(4個案例研究!)
(https://www.analyticsvidhya.com/blog/2019/01/guide-pytorch-neural-networks-case-studies/)

用於數據可解釋性的Python庫

你真的了解你的模型是如何工作的嗎?你能解釋為什麼你的模型能夠得出結果嗎?這些是每個數據科學家應該能夠回答的問題。構建黑盒模型在業界是沒有用的。

所以,我已經提到了兩個Python庫,可以幫助您解釋模型的性能。

/* LIME */
LIME是一種算法(和庫),可以解釋任何分類器或回歸量的預測。LIME如何做到這一點?通過一個可解釋的模型來近似它。靈感來自「為什麼我應該相信你?」:解釋任何分類器的預測「,這個模型解釋器可用於生成任何分類算法的解釋器。

安裝LIME很簡單:


本文將幫助構建LIME背後的直覺和模型解釋性:

/* H2O */
我相信很多人都會聽說過H2O.ai. 他們是自動化機器學習的市場領導者。但是你知道他們在Python中也有一個模型可解釋性庫嗎?

H2O的無人駕駛AI提供簡單的數據可視化技術,用於表示高度特徵交互和非線性模型行為。它通過可視化提供機器學習可解釋性(MLI),闡明建模結果和模型中特徵的影響。

通過以下連結閱讀有關H2O的無人駕駛AI執行MLI的更多信息。

用於音頻處理的Python庫

音頻處理或音頻分析是指從音頻信號中提取信息和含義以進行分析或分類或任何其他任務。它正在成為深度學習中的一種流行功能,所以要留意這一點。

/* LibROSA */
LibROSA是一個用於音樂和音頻分析的Python庫。它提供了創建音樂信息檢索系統所需的構建塊。

單擊此連結(https://librosa.github.io/librosa/install.html)以查看安裝詳細信息。

這是一篇關於音頻處理及其工作原理的深入文章:

/* Madmom */
這個名字可能聽起來很有趣,但Madmom是一個非常漂亮的音頻數據分析Python庫。它是一個用Python編寫的音頻信號處理庫,主要關注音樂信息檢索(MIR)任務。

您需要先安裝以下庫才能安裝Madmom:

您需要以下軟體包來測試安裝是否成功:


安裝Madmom的代碼:



我們甚至有一篇文章要了解Madmom如何用於音樂信息檢索:

/* pyAudioAnalysis */

pyAudioAnalysis是一個用於音頻特徵提取,分類和分段的Python庫。它涵蓋了廣泛的音頻分析任務,例如:

對未知聲音進行分類

檢測音頻事件並排除長時間錄音中的靜音時段

執行有監督和無監督的分割

提取音頻縮略圖等等

您可以使用以下代碼安裝它:

pip install pyAudioAnalysis

用於圖像處理的Python庫

如果您正在尋找數據科學行業的角色,您必須學習如何使用圖像數據。隨著組織能夠收集越來越多的數據(主要得益於計算資源的進步),圖像處理正變得無處不在。

因此,請確保您對以下三個Python庫中的至少一個感到滿意。

/* OpenCV-Python */
談到圖像處理,OpenCV是我想到的第一個名字。OpenCV-Python是用於圖像處理的Python API,它結合了OpenCV C ++ API和Python語言的最佳特性。

它主要用於解決計算機視覺問題。

OpenCV-Python使用了我們在上面看到的NumPy。所有OpenCV陣列結構都與NumPy數組進行轉換。這也使得與使用NumPy的其他庫(如SciPy和Matplotlib)集成更容易。

在您的系統中安裝OpenCV-Python:

pip3 install opencv-python

以下是兩個關於如何在Python中使用OpenCV的流行教程:

使用深度學習從視頻構建人臉檢測模型(Python實現)
(https://www.analyticsvidhya.com/blog/2018/12/introduction-face-detection-video-deep-learning-python/)

16個OpenCV函數啟動計算機視覺之旅(使用Python代碼)
(https://www.analyticsvidhya.com/blog/2019/03/opencv-functions-computer-vision-python/)

/* Scikit-image */
圖像處理的另一個python庫是Scikit-image。它是用於執行多個和不同圖像處理任務的算法集合。

您可以使用它來執行圖像分割,幾何變換,色彩空間操作,分析,過濾,形態學,特徵檢測等等。

我們需要在安裝scikit-image之前使用以下軟體包:

Python(> = 3.5)

NumPy(> = 1.11.0)

SciPy(> = 0.17.0)

joblib(> = 0.11)

這就是你可以在你的機器上安裝scikit-image的方法:

pip install -U scikit-learn

/* Pillow */
Pillow是PIL(Python ImagingLibrary)的新版本。它是從PIL派生出來的,在Ubuntu等一些Linux發行版中已被用作原始PIL的替代品。

Pillow提供了幾種執行圖像處理的標準程序:

每像素操作

掩蔽和透明處理

圖像過濾,例如模糊,輪廓,平滑或邊緣查找

圖像增強,例如銳化,調整亮度,對比度或顏色

向圖像添加文字等等!

如何安裝Pillow?這很簡單:

查看以下AI漫畫,了解Pillow在計算機視覺中的使用:

用於資料庫的Python庫

學習如何從資料庫存儲,訪問和檢索數據是任何數據科學家必備的技能。你根本無法擺脫角色的這個方面。構建模型很棒但是如果不首先檢索數據,你會怎麼做?

我選擇了兩個與SQL相關的Python庫,你可能會發現它們很有用。

/* psycopg */
Psycopg是最受歡迎的PostgreSQL(一種用於Python程式語言的高級開源關係資料庫)適配器。Psycopg的核心是完全實現Python DB API 2.0規範。

目前的psycopg2實現支持:

Python版本2.7

Python 3版本從3.4到3.7

PostgreSQL伺服器版本從7.4到11

9.1的PostgreSQL客戶端庫版本

以下是如何安裝psycopg2的方法:

/* SQLAlchemy */
啊,SQL。最流行的資料庫語言。SQLAlchemy是一個Python SQL工具包和Object Relational Mapper,它為應用程式開發人員提供了SQL的全部功能和靈活性。

它旨在實現高效,高性能的資料庫訪問。SQLAlchemy認為資料庫是關係代數引擎,而不僅僅是表的集合。

要安裝SQLAlchemy,您可以使用以下代碼行:

用於部署的Python庫

你知道什麼型號的部署?如果沒有,你應該儘快學習。部署模型意味著將最終模型放入最終應用程式(或技術上稱為生產環境)。

/* Flask */
Flask是一個用Python編寫的Web框架,通常用於部署數據科學模型。Flask有兩個組成部分:

查看下面的示例以列印「Hello world」:

from flask import Flask
app = Flask(__name__)

@app.route("/")
def hello():
return "Hello World!"

if __name__ == "__main__":
app.run()

以下文章是學習Flask的一個很好的起點:

結束筆記

在本文中,我們看到了一大堆python庫,它們在進行數據科學項目時常用。那裡有更多的庫,但這些是每個數據科學家應該知道的核心庫。

我錯過了任何Python庫?或者我們列表中您特別有用的任何庫?請在下面的評論部分告訴我們!
文章來源:https://www.analyticsvidhya.com/blog/2019/07/dont-miss-out-24-amazing-python-libraries-data-science/

你也許還想

● 21個必須知道的機器學習開源工具

● 重磅!!!一文總結Pytorch的8張思維導圖!

● 半監督學習將再度興起!谷歌祭出大殺器:無監督數據增強

歡迎掃碼關注:

 點擊下方 |  | 了解更多

相關焦點

  • python數據分析常用庫
    python被稱作膠水語言原因是具有非常非常多的庫可以使用。其中做數據分析時那些庫常用,怎麼用是本篇文字討論的內容。一、PandasPandas 是一個開源 Python 庫,它被廣泛用於分析數據,以及數據清洗和準等工作。它的名字來源是由 Panel data(面板數據,一個計量經濟學名詞)兩個單詞拼成的。簡單地說,你可以把 Pandas 看作是 Python 版的 Excel。
  • 數據科學中一些不常用但很有用的Python庫
    導讀提到數據科學的python包,大家想到的估計是numpy,pandas,scikit-learn之類的,這裡給大家介紹一些不常用,但是非常有用的python包,就像是痒痒撓,雖然大部分時間用不上,但是真要用起來,還是挺爽的。
  • 常用python機器學習庫總結
    眾所周知現在人工智慧非常的火熱,機器學習也算是人工智慧中的一個領域,在其中有一塊是對文本進行分析,對數據進行深入的挖掘提取一些特徵值,然後用一些算法去學習,訓練,分析,甚至還能預測,我們就來看看python有哪些機器學習庫吧!1.
  • Python常用庫大全
    when.py – 提供用戶友好的函數來幫助用戶進行常用的日期和時間操作。 文本處理用於解析和操作文本的庫。 scikit-video – SciPy 視頻處理常用程序。 地理位置地理編碼地址以及用來處理經緯度的庫。GeoDjango – 世界級地理圖形 web 框架。
  • Python之Numpy庫常用函數合集
    轉自:博客園最近學習Python,才發現原來python裡的各種庫才是大頭!
  • python的常用擴展庫以及使用方式
    一、常用庫(標準庫+擴展庫)標準庫 說明math 數學模塊random 隨機數以及隨機化相關模塊datetime
  • 每個python人都離不開的12個python庫
    如果說python能取得今天的成就,一方面是它簡介的語法,更重要的一方面就是它豐富的第三方庫,可以毫不誇張的說,只要你能想到的任何一個功能模塊,都有對應的python庫,可以說正是因為有了豐富的python庫,python才發展得如此迅速,下面我們來看看python人最常用的20個python
  • 讓所有程式設計師絕不能錯過的59個Python庫總結!
    Python有以下三個特點:易用性和靈活性全行業高接受度:Python無疑是業界最流行的數據科學語言用於數據科學的Python庫的豐富數量優勢本文介紹了python人最常用的59個python庫。一起來看看吧~用於數據收集的Python庫1.
  • python機器學習:常用庫的介紹及安裝
    如:我要安裝Numpy庫,那麼我就可以打開Anaconda的DOS界面,輸入「pip install numpy"即可下載安裝對應的庫了。這裡需要下載後安裝,所以在安裝新庫的時候要保證網絡是接通的,否則無法下載安裝。
  • 這幾個常用的python庫你需要知道
    python可以說是近幾年最火熱、最實用的、最容易上手的工具之一了。功能強大、應用廣泛,可以幫你搜集工作數據,還能幫你下載音樂,電影,於是就掀起了一波學習python的大潮,小編也毫不猶豫的加入了。但是對於向小編一樣的小白來說,剛開始學習還是有些困難的,需要首先了解python的一些基礎知識。所以小編就整理了一些常用的python庫,希望對正在學習python的小夥伴有所幫助。1.MatplotlibMatplotlib是一個用於創建二維圖和圖形的底層庫。藉由它的幫助,你可以構建各種不同的圖標,從直方圖和散點圖到費笛卡爾坐標圖。
  • 2017年數據科學15個最好用的Python庫
    導讀:隨著近幾年Python已成為數據科學行業中大火的程式語言,我們將根據以往的經驗來為大家總結一下數據科學家和工程師幾個最實用的python庫。Seaborn(Github提交次數:1699,貢獻者人數:71)Seaborn主要關注統計模型的可視化,包括熱分布圖(用來總結數據及描繪數據的整體分布)。 Seaborn是基於且高度依賴於Matplotlib的一個python庫。
  • Python常用庫- xlrd庫
    xlrd是python語言中用於讀取excel表格內容的庫,還有一個xlwt庫用於將內容寫入excel。
  • 慢步學習,python庫文件概述,再來點第三方庫文件安裝的乾貨
    當然,如果你是來自哆啦A夢那個時代的科學家,你也可以自己創造出「通天門」、「入地門」的庫文件,然後再利用它們來實現你的編程功能。庫文件,就像一個能實現特定功能的寶貝,按它的設計去使用,你就能實現它的功能。本質就是有特定功能的代碼庫。python第三方庫python的庫文件又分內置的庫,和第三方庫。
  • python數據分析常用庫之pandas入門(2)
    索引、選擇和賦值昨天介紹了pandas的模塊引入、創建和讀取數據,今天主要看看怎麼從數據結構中獲得想要的值,也就是數據的索引查找、
  • 數據科學家最喜歡的5個自然語言處理Python庫
    非結構化數據包括傳感器數據、圖像、視頻文件、音頻文件、網站和API的數據、社交媒體數據、電子郵件以及更多與文本相關的信息。由於其特殊的特性,我們無法以一種簡單的方式處理數據,為了解決這一問題,在大數據和數據科學環境下,出現了許多技術和工具來解決這一問題。自然語言處理是人工智慧領域的前沿技術之一。
  • python推薦 | 面向地學領域的Python庫匯總
    ECWMF提供了cfgrib工具可將grib格式轉換為NetCDF格式,cfgrib庫支持Mac,Linux和windows系統。•csv, xlsx等格式:pandas你值得擁有,無論是氣象還是其他領域的類似格式數據,使用pandas可以解決你的常用操作。
  • Python 爬蟲:8 個常用的爬蟲技巧總結!
    用python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本
  • Python數據分析之NumPy庫
    NumPy庫簡介NumPy庫使用Python進行科學計算,尤其是數據分析時,所用到的一個基礎庫。它是大量Python數學和科學計算包的基礎,比如我們後面會講到的pandas庫就用到了NumPy。pandas庫專門用於數據分析,充分借鑑了Python標準庫NumPy的相關概念。
  • 用Python 做機器學習不得不收藏的重要庫
    Python通常被應用統計技術或者數據分析人員當做工作中的首選語言。數據科學家也會用python作為連接自身工作與WEB 應用程式/生產環境集成中。 Python在機器學習領域非常出色。 Python的一個最大的資產是其廣泛的庫。 庫是一組用給定語言編寫的程序和功能的集合。一組健壯的庫可以使開發人員更容易執行複雜的任務,而無需重寫許多代碼。 機器學習很大程度上是基於數學。具體來說就是數學優化、統計和概率。Python庫幫助那些不具備開發人員知識的研究人員/數學家輕鬆地「進行機器學習」。
  • 數據科學|十大最受歡迎的Python庫
    如果研究數據並從中得出有用的結論讓你著迷,那麼這就是津津樂道的事情了!Python作為最流行的程式語言之一,擁有豐富的數據科學庫集。Python主要用於數據挖掘、數據處理和建模、數據可視化和數據提取。因此,我們列出了數據科學中使用的10個最流行的Python庫。獻給所有的數據愛好者和數據科學家,我們希望這篇清單體文章能為你帶來價值!