入門Python爬蟲——獲取數據篇

2021-01-13 百度校園

作者: 李菲 來源:人工智慧學習圈

在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。

首先,在爬蟲中最常見的代碼便是:

即引入requests庫,是一切爬蟲程序的基礎。在Python中,有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。

*這裡要注意,如果之前沒有在電腦上安裝過requests庫,需要先進行安裝。Mac用戶在終端中輸入pip3 install requests,按下回車即可。Windows用戶需要打開命令提示符程序,輸入pip install requests。

在引入requests資料庫後,就可以使用其中的requests.get()方法了。其具體的用法為:

其中,variable代表變量的名稱,常用的命名為res。(不過也可以自定義變量名,並不會影響程序的運行。)括號中的參數是所需要的數據的網址。

在這裡需要注意,不是所有伺服器都會歡迎爬蟲程序。建議大家在運行爬蟲程序前先去查一下相應網站的Robots協議,了解一下哪些頁面是可以抓取的。而查看Robots協議的方式也很簡單,只需在網站域名後加上/robots.txt就可以了。網址前如有顯示『Allow』即為允許爬取,而帶有『Disallow』後的網址就不建議大家去抓取了。比如,下圖就是知乎的部分Robots協議截圖。

那麼,在這裡舉個例子。比如,我想要爬取某網站的信息,假設它的網址為https://www.xxxxx/,那麼獲取數據部分的完整的代碼便是:

除此之外,我們還可以通過print(type(res))來查看數據的類型。如運行無誤,終端中會顯示<class 'requests.models.Response』>。代表變量res屬於requests.models.Response類。而此類中的常用屬性及作用分別為:

1)變量.status_code

用於查看請求是否成功。如終端返回200,則代表請求成功,伺服器會返回相應數據。

2)變量.content

用於轉換response對象到二進位數據。常用於圖片、音頻與視頻數據。

3)變量.text

用於轉換response對象到字符串數據。常用於文本數據。

4)變量.encoding

用於定義response對象的編碼。注意:只有亂碼情況下才會使用到此屬性。

只有短短幾行的代碼,是不是看起來很簡單呢?

不過,千萬不要掉以輕心啦,因為這只是爬蟲中的冰山一角。在了解到如何獲取數據後,還需要學習如何解析、提取、以及儲存數據。這樣才算掌握了最基本的爬蟲技能。

原文連結:https://zhuanlan.zhihu.com/p/149326920

相關焦點

  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • Python開發簡單爬蟲【學習資料總結】
    ,學會使用python開發環境,使用python開發一些簡單的案例) (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數, (3)類與對象,繼承,多態 (4)tkinter界面編程 (5)文件與異常,數據處理簡介
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?  2020重磅升級的Python數據科學入門與網絡爬蟲案例實戰研討會開始報名啦!
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    Python這幾年都挺火的,比如說應用於數據分析、機器學習、自動化辦公、寫爬蟲採集數據等等……因為我之前發過幾篇和python有關的推文,所以不止一個朋友加私信問我說,你是怎麼學的,能不能談一談學習的經驗和技巧。
  • 「Python爬蟲與文本實例技術與應用」培訓班通知
    各科研院所單位:    隨著網際網路的發展,網絡信息呈現指數式增長,要在短時間內獲取大量信息,網絡爬蟲無疑是一種最適合的方法。
  • Python爬蟲工具篇 - 必會用的6款Chrome插件
    Python爬蟲工具篇 - 必會用的6款Chrome插件 在日常 PC 端的Python爬蟲過程工作中,Chrome 瀏覽器是我們常用的一款工具。鑑於 Chrome 瀏覽器的強大,Chrome 網上應用商店很多強大的插件可以幫助我們快速高效地進行數據爬蟲。
  • Python爬蟲入門之請求庫的安裝
    請求庫的安裝爬蟲可以簡單地分為幾步:抓取頁面、分析頁面和存儲數據。在抓取頁面的過程中,我們需要模擬瀏覽器向伺服器發出請求,所以需要用到一些python庫來實現HTTP請求操作。在爬蟲的講解過程中,我們將用到的第三方庫有requests、Selenium和aiohttp等。我們將先介紹這些請求庫的方法。
  • Python網頁爬蟲工具有哪些?
    一個真實的項目,一定是從獲取數據開始的。不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?
  • Python網絡爬蟲第七篇——數據存儲
    Python網絡爬蟲(第七篇)——數據存儲存儲在文件中,包括TXT文件和CSV文件存儲在MySQL資料庫中。創建資料庫:例如創建網絡爬蟲的資料庫,在界面庫輸入create database scrapying;按下Ctrl+Enter後沒報錯就顯示創建了一個scrapying 的資料庫創建之後所有的命令都會運行在這個資料庫中,除非切換到另一資料庫(use another;)創建數據表並查看:這個剛創建的資料庫什麼都沒有,我們需要在這個scrapying
  • 十六本python入門學習書籍推薦,python入門新手必看
    隨著人工智慧時代的到來,python程式語言一步登天衝到編程排行榜第一名,因此更多朋友想轉行學習python程式語言的朋友,可以一起看一下:python入門新手必看的十六本python入門學習書籍1、python基礎教程司維所著圖書:本書包括Python程序設計的方方面面,首先從Python的安裝開始,隨後介紹了Python的基礎知識和基本概念,
  • Python爬蟲培訓機構推薦新手怎麼學習Python爬蟲
    近兩年,大數據和AI人工智慧的興起,讓Python成為全球4大流行程式語言之一,這一現狀在2018年會持續升溫,因此,對於想從事Python編程的人員來說,目前是學習的絕佳時期!接下來是Python爬蟲培訓機構推薦。
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    Python爬蟲是由Python程序開發的網絡爬蟲(webspider,webrobot),是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據,也就是自動抓取數據。為什麼需要用爬蟲?
  • python爬蟲――寫出最簡單的網頁爬蟲
    最近對python爬蟲有了強烈地興趣,在此分享自己的學習路徑,歡迎大家提出建議。我們相互交流,共同進步。
  • 簡單使用scrapy爬蟲框架批量採集網站數據
    本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。 本篇文章以豆瓣電影Top250的數據為例,講解一下scrapy框架爬取數據的基本流程。 豆瓣Top250 這個數據就不過多分析,靜態網站,網頁結構十分適合寫爬取,所以很多基礎入門的爬蟲案例都是以豆瓣電影數據 以及貓眼電影數據為例的。
  • 代碼森林帶你實踐熱門編程書籍——《Python編程:從入門到實踐》
    Python主要用於機器學習、爬蟲、數據分析、腳本編寫、人工智慧等領域,語言簡潔靈活,高效方便。要想學好Python,小白應該選擇什麼樣的書籍呢?第一本你必須要擁有的書籍一定是《Python編程:從入門到實踐》它是一本針對所有層次的Python讀者的編程學習書——《Python編程:從入門到實踐》本書內容本書旨在讓你成為優秀的程式設計師,具體地說,是優秀的Python程式設計師。通過閱讀本書,你將迅速掌握編程概念,打下堅實的基礎,並養成良好的習慣。
  • python入門書籍推薦
    今天給大家分享一下python的入門書籍。筆者曾經讀書的時候,對編程特別感興趣,可是我本身不是學計算機的,所以編程只能看視頻自學。那時候,我接觸到的第一門語言是C++,就是學了很久,但是這門語言太過深奧,我學了幾個月,連一些基本的圖形開發也實現不了,後來,我就放棄編程了。
  • Python爬蟲工作基本流程以及常用的urllib模塊
    根據使用場景,網絡爬蟲可分為通用爬蟲(傳統爬蟲)和聚焦爬蟲兩種通用網絡爬蟲捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將網際網路上的網頁下載到本地,形成一個網際網路內容的鏡像備份。但是大多數情況下,網頁裡面90%的內容對用戶來說是無用的。
  • Python爬蟲並自製新聞網站,太好玩了
    來源 | 凹凸數據(ID:alltodata)我們總是在爬啊爬,爬到了數據難道只是為了做一個詞雲嗎?當然不!這次我就利用flask為大家呈現一道小菜。Flask是python中一個輕量級web框架,相對於其他web框架來說簡單,適合小白練手。使用Flask+爬蟲,教大家如何實時展示自己爬下來的數據到網頁上。
  • Python入門到機器學習,網絡爬蟲分析到實踐,這幾本書不要錯過
    Python編程從入門到實踐另外,《Python編程 從入門到實踐 第2版(圖靈出品)》這本書籍屬於Python3.x編程入門圖書,機器學習,數據處理,網絡爬蟲熱門程式語言,從基本概念到完整項目開發,從入門到實踐,幫助零基礎讀者迅速掌握
  • python之父:小學生都用這本書學python,堪稱python入門教科書
    入門教科書  眾所周知,python的特點就是:簡單、入門快、工資高、工作選擇多,但是雖然是一門最快入門的程式語言,對於沒有接觸過編程的人來說還是有一定的難度,在眾多python學習書籍中,能稱為教科書的實在不多!