Python學習第141課——Python爬蟲簡介

2020-12-11 石問新

【每天幾分鐘,從零入門python編程的世界!】

今天我們簡單的了解下網絡爬蟲,網絡爬蟲其實就是一個自動獲取網頁內容的程序。

Python的爬蟲需要用到一個第三方的庫requests

requests庫可以在git bash中使用命令pip install requests進行安裝

如果你安裝了anaconda的話,它裡面就自帶這個requests庫

那麼要使用這個requests庫,還是跟以前一樣,用import進行引入。然後我們請求網易的這個網站的網址,然後把獲取到的網頁的原始碼列印出來。

代碼如下:

運行結果:

由於列印的結果是非常長的文本字符串,所以只截取其中一小部分。

我們平常上網是這樣一個過程

在地址欄輸入網址,其實就是請求該網址指向的網站伺服器,伺服器會把相應的網頁原始碼以及圖片等資源,發送到我們的電腦或者手機上,然後我們的電腦或者手機上面的瀏覽器會對伺服器發送過來的網頁原始碼等資源進行解析,然後渲染成我們人類能夠看得懂的內容

現在我們把剛剛用requests請求到的網易的網頁原始碼,在Python裡面進行解析。Python裡面沒有瀏覽器,那麼怎麼進行解析呢?

這就要用到另一個第三方庫Beautiful Soup來進行解析。

同樣,如果你安裝了anaconda,它就自帶了這個庫如果你沒有安裝anaconda,可以在git bash中用pip install BeautifulSoup來進行安裝。

(關於Beautiful Soup,如果你感興趣,可以自行百度,查看它的文檔)。

現在我們在Python中,引入BeautifulSoup這個第三方庫對請求到的網頁原始碼進行解析。

代碼如下:

以上代碼說明

BeautifulSoup這個第三方庫就相當於Python裡面的瀏覽器

Python是一門面向對象的程式語言,它裡面的萬事萬物都可以看做是一個對象。所以這裡用BeautifulSoup()函數可以創建出一個專門的對象,這個對象是專門對接BeautifulSoup的對象。

soup = BeautifulSoup(a,"html.parser")返回的結果是一個對象,保存在soup中。第一個參數a,是要解析的字符串對象,這裡的a就是使用requests請求到的網頁原始碼的文本字符串,第二個參數"html.parser"表示解析成什麼格式的文件,BeautifulSoup可以解析很多種格式的文件,在這裡html.parser就表示解析成html格式的文件,因為網頁文件就是html文件。

print(soup.p)表示把解析出來的html格式的對象soup的第一個段落列印出來,p在html標記語言中表示段落標籤。關於html相關的知識,如果是沒有接觸過web前端相關知識的小夥伴,可能不是很清楚,後面會介紹。

以上代碼運行結果:

我們打開網易官網,

我們在網易官網網頁上就看到了「曾國藩靠什麼中年逆襲」這個文章標題(當然這是我幾個月前操作時的結果,現在網易官網網頁上的內容可能已經變了,但是這個問題不影響我們學習,網頁內容變了,我們的代碼爬取到的內容肯定是跟網頁一樣的),這就驗證了我們在Python中用BeautifulSoup解析網易的網頁原始碼的結果。

我是時問新,歡迎關注我。跟我一起從零開始學習Python,每天花一點時間,開啟python編程新世界的大門,領略新的風光,讓人生多一種可能!

相關焦點

  • Python開發簡單爬蟲【學習資料總結】
    一、簡單爬蟲架構 開發爬蟲步驟 python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例)
  • Python最佳經典學習路線
    如何學習Python python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例) (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數,
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    那今天就來說說學python這件事兒吧,從三個方面來說:第一,學了python之後轉行找工作的問題;第二,具體的學習方法;第三,講講學了python之後應用於辦公自動化和寫爬蟲。4600字。關於恰飯:不用猜了,這篇依舊沒有廣告。
  • python 爬蟲學習路線:從入門到進階
    在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、快速入門的學習路徑。本文依舊需要有一些python基礎,至少要求掌握python語法。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    6套課程) 資料庫操作(1套課程) python高級編程(6套課程) 注:零基礎全能篇中,針對windows和liunx系統均有兩套課程可供選擇學習,單純學python,哪個系統都一樣,初學者只需選擇自己熟悉的系統學習相應課程即可。
  • python初學者必看的學習路線 Python是近幾年比較火的程式語言
    Python是近幾年比較火的程式語言之一,因為人工智慧的火爆,讓很多人都想從事python開發。很多零基礎學員在學習python的時候都會走一些彎路,下面小編就為大家分享python學習路線圖,幫助零基礎學員在學習的時候少走彎路。 很多人都在問Python學習步驟應該如何安排?
  • python個人學習指南
    慕課網截圖上面有許多免費的課程,python的話,推薦嵩天老師的課程,講解的很詳細,從入門到爬蟲(大N自己還未學,但是搜索資源時大致看了下,挺好的;大N從網上搜索資源時也有許多人推薦嵩天老師,學習爬蟲)都有,希望大家可以找到適合自己的課程。
  • 零基礎入門學習python
    零基礎入門可以學習python嗎?書聲琅琅Python培訓徐老師介紹,很多的朋友諮詢徐老師,想知道如果自己是零基礎的話,到底要如何快速學習Python,由於Python的作用非常大,我們知道PYTHON有全棧課,PYTHON有人工智慧課,今天我們來介紹一下小白如何最快學會寫簡單Python爬蟲。
  • python爬蟲學習之路-抓包分析
    往往可以躲過簡單的反扒策略登錄狀態獲取,如果我們在瀏覽器中登錄,抓包拿到cookies,加到我們的爬蟲中,往往就可以繞過登錄這道坎,爬蟲直接登堂入室,抓取更有價值的數據post請求,例如頁面中通過post提交的表單。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    想要入門Python 爬蟲首先需要解決四個問題:1.熟悉python編程2.了解HTML3.了解網絡爬蟲的基本原理4.學習使用python爬蟲庫1、熟悉python編程剛開始入門爬蟲,初學者無需學習python的類,多線程,模塊和其他稍微困難的內容。
  • Python學習好書推薦
    現在學習Python的人越來越多,無論是自學還是跟老師學習,書是必不可少的,在這裡,向大家推薦幾本適合初學者學習的書籍,希望對大家有幫助 !第二本:Python Cookbook(第3版)中文版這本書包含大量實用Python編程技巧和Python黑魔法,對於深入理解Python編程是有很大幫助的,這是一本工具書,每個小節都是圍繞著解決問題出發的,強烈推薦!
  • python爬蟲-urllib、urllib2、requests三者關係
    只要人能看到的東西,理論上都是爬蟲可以獲取的。不論靜態頁面還是動態頁面。也不論pc端的頁面還是移動端的app。話有點大,但這就是本系列的目的。爬蟲編程,有很多語言可選,python、php、go、java···甚至是c。這裡我們選擇python作為爬蟲的程式語言,因為它簡單易上手,並且節約生命。
  • python爬蟲篇一:最直白,易懂的爬蟲講解!
    是一段由C#,python等程式語言編寫的具有收集信息能力的程序。高級的爬蟲具有三個結構,它們之間相互獨立卻又協調合作。這段程序首先有一個「內核」,可以從所有網址獲取信息(好比是一個不顯示圖像的瀏覽器),然後具有一個「腦子」,也就是一段邏輯判斷,用於篩選得到的信息,最後有一個「資料庫」,來儲存需要的信息。
  • java、php、python誰更容易學習呢?
    IT開發是公認的高薪行業吸引了很多人的加入,目前市場上受歡迎的程式語言很多,其中java是老牌程式語言,擁有很高的市場佔有率,php被看做是Web後端開發的主要語言,而python隨著人工智慧時代的到來而備受關注。
  • python開發爬蟲有門檻嗎?
    如果你不是科班出身,沒有開發經驗,初次接觸開發爬蟲這檔子事兒,相信這篇文章能幫到你。python開發爬蟲肯定是有門檻的。儘管python很簡單,上手不難,但是開發起來你會發現,開發爬蟲不只是單單會python就可以了,你還得需要下列這些技能。
  • python爬蟲100個入門項目
    11新浪微博爬蟲分享(一天可抓取 1300 萬條數據)12新浪微博分布式爬蟲分享13python爬蟲教程,帶你從零到一14豆瓣讀書的爬蟲15鏈家網和貝殼網房價爬蟲群50清華大學網絡學堂爬蟲整理不易,希望大家多多支持,文章最後有供大家入門學習到進階的學習資料免費無償給大家,51去哪兒52前程無憂Python招聘崗位信息爬取分析53人人影視
  • 小瘋談python:對毫無編程基礎的小夥伴學習python的幾條建議
    最近SOHO中國董事長潘石屹在微博上宣布,開始學習一門新的程式語言Python,這讓原本在這幾年便火起來的python燃燒的更加洶湧。於是乎許多小夥伴便想大佬都開始學習python了,那麼我是不是也應該去學習呢?
  • python爬蟲――寫出最簡單的網頁爬蟲
    最近對python爬蟲有了強烈地興趣,在此分享自己的學習路徑,歡迎大家提出建議。我們相互交流,共同進步。
  • python爬蟲很強大,在爬蟲裡如何自動操控瀏覽器呢?
    概述:python通過selenium爬取數據是很多突破封鎖的有效途徑。但在使用selenium中會遇到很多問題,本文就通過一問一答的形式來通熟易懂的普及如何通過selenium執行javascript程序,進而獲取動態執行後的網頁。如果你喜歡,歡迎轉發本文。
  • Python學習第94課-通過第三方接口獲得數據並導入Python繪圖
    【每天幾分鐘,從零入門python編程的世界!】上節課我們學習了導入外部文件數據並繪圖。這節課我們學習通過第三方接口獲得數據並導入Python進行繪圖。我們的數據接口使用Tushare,Tushare是一個免費、開源的python財經數據接口包。Tushare的網址是:http://tushare.org/。我們需要先下載安裝Tushare。