python程序媛BeautifulSoup快速入門

2021-01-07 PythonStar

爬蟲最常用就是要在response回的html文件中獲取我們想要的資源,而常用方法除了正則就是BeautifulSoup庫了。其實,媛媛本人呢,是習慣使用正則的,不過經常聽到很多同學表示正則太複雜,想要使用BeautifulSoup庫,今天呢,就滿足大家,帶著大家超級簡單案例,快速入門。

1.首先,使用一個庫,先安裝。參考媛媛之前的帖子,有詳細的教大家第三方庫安裝。

2.再,導入我們要用的各種庫。媛媛使用python環境為3.6。想要問問什麼不用2.7的同學,請看媛媛之前的帖子。或者加下我的學習交流群,零基礎入門,(145 010 486)。

# 導入需要的庫

import requests

from bs4 import BeautifulSoup

3.上過老師課的同學應該知道,爬蟲就是模擬瀏覽器訪問資源去爬取我們需要的東東的,所以,瀏覽器去訪問資源時,第一步呢就是輸入url,同樣的,我們的爬蟲,第一步也是拿到這個url。簡單以百度為例。

url = 『www.baidu.com'

4.通過requests去模擬登錄網站(開發者工具,在requests請求頭可以看到發送http請求的方式為get)並獲取html代碼,存入變量」html」中

html = requests.get(url)

5.我們把網頁解析為 BeautifulSoup格式,以便我們用BeautifulSoup 庫來分析網頁。

soup = BeautifulSoup(html, 『html.parser』)

6.現在我們有了包含整個網頁的HTML代碼的變量soup。我們就從soup開始著手提取信息。BeautifulSoup庫中的find()函數可以幫助我們進入不同的層次提取內容。我們需要的HTML類「名稱」在整個網頁中是獨一無二的,因此我們可以簡單的查找<div>.如下圖。

# 獲取「名稱」類的<div>代碼段落並提取相應值

name_box = soup.find(『h2』, attrs={『class』: 『s-news-list-wrapper』})

在我們得到標籤之後,我們可以用name_box的text屬性獲取相應值

name = name_box.text.strip() # strip() 函數用於去除前後空格

print name

相關焦點

  • BeautifulSoup 詳細知識(一)
    beautifulsoup4Beautiful Soup提供一些簡單的、python
  • 爬蟲入門系列(四):HTML文本解析庫BeautifulSoup
    安裝 BeautifulSouppip install beautifulsoup4BeautifulSoup3 被官方放棄維護,你要下載最新的版本 BeautifulSoup4。HTML 標籤學習 BeautifulSoup4 前有必要先對 HTML 文檔有一個基本認識,如下代碼,HTML 是一個樹形組織結構。
  • Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多線程爬蟲爬取糗事百科
    本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。
  • python爬蟲常用庫之BeautifulSoup詳解
    因為是第三方庫所以我們需要下載,在命令行敲下以下代碼進行下載pip install beautifulsoup4安裝第三方解析庫如果不知道有什麼用請往下看1.相關解析庫的介紹這裡官方推薦解析庫為lxml,因為它的效率高。
  • 想入門 Python 爬蟲?那麼 Beautiful Soup 是你必須要學習的
    過濾器的類型:字符串正則表達式列表True方法字符串:查找文檔中所有的標籤soup.find_all('b')正則表達式:找出所有以b開頭的標籤import refor tag in soup.find_all(re.compile("^b")): print(tag.name)
  • Python爬蟲html解析,還在用BeautifulSoup嗎?試試PyQuery吧
    在初學python時,大家都喜歡寫些小腳本來爬些網頁,因為這能在最短的時間讓我們達到一種小小的滿足感,通常我們解析網頁時有幾種方法:正則表達式匹配 - 比較低級用beautifulsoup、pyquery等包解析用scrapy、pyspider等框架來解析其實,方法
  • 技術分享|利用Python和BeautifulSoup進行網頁爬取(新手教程)
    python基礎條件了解簡單的Python編程規則(Python 3.x)了解簡單的網頁Html標籤如果您是完全的新手也不用擔心,通過本文您可以很容易地理解。安裝所需包首先,您需要先安裝好Python 3.x,Python安裝包可以從python.org下載,然後我們需要安裝requests和beautifulsoup4兩個包,安裝代碼如下:$ pip install requests$ pip install beautifulsoup4爬取網頁數據現在我們已經做好了一切準備工作
  • BeautifulSoup
    # <title>The Dormouse's story</title>soup.title.name# u'title'soup.title.string# u'The Dormouse's story'soup.title.parent.name# u'head'soup.p# <p class="title"><b>The Dormouse's
  • 如何使用 Python 和 BeautifulSoup 爬取網站
    用你的程序從網站請求數據時不要過激(也稱為濫發),因為這可能會對網站造成破壞。確保你的程序以一種合理的方式運行(即表現得像個人)。每秒請求一個頁面是很好的做法。網站的布局可能會不時發生變化,所以一定要重新訪問網站,並根據需要重寫代碼。作為例子,讓我們看一個來自 Bloomberg Quote 網站的頁面。
  • Requests的好基友BeautifulSoup4
    為什麼說是好基友呢,因為python爬蟲入門就要學bs4, 他是一個解析html的庫,非常好用.requests請求 bs4解析妥妥的.1.我們來看一下基本使用苦逼的博主沒有人給充值,想拿廣告當測試頁面有沒有,所以我們就拿北京居住證辦理平臺當測試頁面吧.測試頁面是張這個樣子的:
  • 5分鐘快速學習掌握python爬蟲Beautifulsoup解析網頁
    python爬蟲用Beatifulsoup庫解析網頁提取所需元素新手看懂個人觀點:之前我們有講過爬蟲和網頁的一些聯繫,網頁的一些組成部分,爬蟲就是對網頁裡面的數據進行提取然後對其進行數據處理,篩選出所需部分,供需要者使用。
  • BeautifulSoup | 讓你一次性搞清楚BeautifulSoup!(上)
    說到BeautifulSoup大家一定都不陌生,它是python的一個庫,最主要的功能是從網頁抓取數據,但是繁瑣的規矩和看不懂網頁的結構總讓人似懂非懂
  • Python3長徵路第004天--BeautifulSoup庫你也報錯的時候!
    文/愛琳玩python今天是python長徵之路的第四天了,感覺時間過得還是挺快的,在這裡還是先感謝你的點擊加閱讀,對我python3長徵之路的支持,在做這個python3長徵之路時,我有想過放棄,因為我畢竟學歷很低,不怕各位朋友笑話,我就一個高中生,而且還是個讀了4年的高中生,到最後都沒有考起大學的這麼一個人,當我在出生社會後,換過很多工作,心中卻依然放不下高中時的一個夢想
  • python爬蟲beautifulsoup4系列1
    前言本篇詳細介紹beautifulsoup4的功能,從最基礎的開始講起,讓小夥伴們都能入門
  • Python網絡編程之BeautifulSoup庫的使用(一)
    1 BeautifulSoup庫簡介BeautifulSoup是python的一個庫,其提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程式。
  • Python快速入門的方法
    現在如果有人問:要把哪門語言作為入門的首選語言?不少人都會回答:Python!因為Python簡單,所以學起來快,有編程經驗的程式設計師一周就能上手Python。但是!Python對有基本的程序概念的人來說很簡單,但對於新手來說真不一定算簡單。
  • Python3中BeautifulSoup的使用方法
    它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程式。BeautifulSoup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時你僅僅需要說明一下原始編碼方式就可以了。
  • python : 利用 asyncio 進行快速抓取
    如需轉載,發送「轉載」二字查看說明web數據抓取是一個經常在python的討論中出現的主題。DIY自己的解決方案同樣十分流行:你可以使用requests、beautifulsoup或者pyquery來實現。方法如此多樣的原因在於,數據「抓取」實際上包括很多問題:你不需要使用相同的工具從成千上萬的頁面中抓取數據,同時使一些Web工作流自動化(例如填一些表單然後取回數據)。
  • BeautifulSoup解析html介紹
    #pip install beautifulsoup4==4.0.1 #指定版本,不指定會安裝最新版本#pip install lxml==3.3.6 指定版本,不指定會安裝最新版本進入Python命令行試試是否安裝成功>>> import bs4>>> import lxml
  • 「小白學爬蟲連載(5)」——Beautiful Soup庫詳解
    歡迎大家關注公眾號【哈希大數據】Beautiful Soup是解析、遍歷、維護HTML或XML文件的Python功能庫,它能幫助我們快速獲取到文件中的數據信息。Beautiful Soup安裝與測試對於Windows平臺:首先介紹一種簡單的安裝包的方法,打開cmd,執行pip installbeautifulsoup4,這裡千萬不要忘記最後的數字4。