經過了前面幾篇文章的學習,估計你已經會爬不少中小型網站了。但是有人說,前面的正則很難唉,學不好。正則的確很難,有人說過:如果一個問題用正則解決,那麼就變成了兩個問題。所以說學不會是很正常的,不怕,除了正則,我們還可以用另外一個強大的庫來解析html。所以,今天的主題就是來學習這個強大的庫--BeautifulSoup,不過正則還是需要多多練習下的。
因為是第三方庫所以我們需要下載,在命令行敲下以下代碼進行下載
pip install beautifulsoup4
安裝第三方解析庫
如果不知道有什麼用請往下看
1.相關解析庫的介紹
這裡官方推薦解析庫為lxml,因為它的效率高。下面都是用lxml解析庫來進行解析的。
2.詳細語法介紹
本文是進行解析豆瓣圖書首頁https://book.douban.com/
1)創建bs對象
from bs4 import BeautifulSoup
import requests
response = requests.get('https://book.douban.com/').text
soup = BeautifulSoup(response, 'lxml') # 使用到了lxml解析庫
2)獲取相關標籤
標籤:
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>
上面的a就是一個標籤名字,最簡單的就是<a></a>這樣,可以簡單理解為<>裡面的第一個單詞就是標籤名
print(soup.li)
<li class="">
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>
</li>
3)獲取標籤的名字和內容
標籤的名字和內容:
如上面所說,a就是標籤名字,而兩個標籤之中所夾雜的內容就是我們所說的內容,如上,豆瓣就是該標籤的內容
print(soup.li.name)
print(soup.li.string)
li
None
由於這個li標籤裡面還有個子標籤,所以它的文本內容為None
下面這個就可以獲取它的文本內容
print(soup.li.a)
print(soup.li.a.string)
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>
豆瓣
4)獲取標籤屬性,有兩種方法
標籤屬性:
<a href="https://www.douban.com" target="_blank">豆瓣</a>
可以簡單理解為屬性就是在標籤名字旁邊而且在前一個<>符號裡面的,還有是有等號來進行體現的。所以上面的href就是標籤屬性名字,等號右邊的就是屬性的值,上面的值是個網址
print(soup.li.a['href'])
print(soup.li.a.attrs['href'])
https://www.douban.com
https://www.douban.com
5)獲取標籤內的子標籤
子標籤:
比如我們現在獲取的li標籤,所以a標籤就是li標籤的子標籤
print(soup.li.a)
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>
6)獲取所有子節點
子節點:這個和子標籤是差不多的,只不過這裡是獲取一個標籤下的所有子標籤,上面的只是獲取最接近該標籤的子標籤
print(soup.div.contents)
for n, tag in enumerate(soup.div.contents):
print(n, tag)
['\n', <div class="bd">
<div class="top-nav-info">
<a class="nav-login" href="https://www.douban.com/accounts/login?source=book" rel="nofollow">登錄</a>
...
0
1 <divhljs-string">">
<divhljs-string">">
...
這個是獲取div下的所有子節點,.content就是獲取子節點的屬性
7)第二種方法獲取所有子節點
print(soup.div.children)
for n, tag in enumerate(soup.div.children):
print(n, tag)
這個是用.children獲取所有的子節點,這個方法返回的是一個迭代器
8)獲取標籤的子孫節點,就是所有後代
子孫節點:
<ul>
<li>
<a>豆瓣</a>
</li>
</ul>
從上面知道,li標籤是ul標籤的子標籤,a標籤是li標籤的子標籤,若此時我們獲取的是ul標籤,所以li標籤和a標籤都是ul標籤的子孫節點
print(soup.div.descendants)
for n, tag in enumerate(soup.div.descendants):
print(n, tag)
# 結果
...
<generator object descendants at 0x00000212C1A1E308>
0
1 <div class="bd">
<div class="top-nav-info">
<a class="nav-login" href="https://www.douban.com/accounts/login?source=book" rel="nofollow">登錄</a>
...
這裡用到了.descendants屬性,獲取的是div標籤的子孫節點,而且返回結果是一個迭代器
9)獲取父節點和所有祖先節點
既然有了子節點和子孫節點,反過來也是有父節點和祖先節點的,所以都很容易理解的
print(soup.li.parent)
print(soup.li.parents)
for n, tag in enumerate(soup.li.parents):
print(n, tag)
.parent屬性是獲取父節點,返回來的是整個父節點,裡面包含該子節點。.parents就是獲取所有的祖先節點,返回的是一個生成器
10)獲取兄弟節點
兄弟節點:
<ul>
<li>
<a>豆瓣1</a>
</li>
<li>
<a>豆瓣2</a>
</li>
<li>
<a>豆瓣3</a>
</li>
</ul>
比如上面的html代碼,裡面的li標籤都是ul標籤的子節點,而li標籤都是處於同級的,所以上面的li標籤都是各自的兄弟。這就是兄弟節點。
print(soup.li.next_siblings)
for x in soup.li.next_siblings:
print(x)
<generator object next_siblings at 0x000002A04501F308>
<li class="on">
<a data-moreurl-dict='{"from":"top-nav-click-book","uid":"0"}' href="https://book.douban.com">讀書</a>
</li>
...
.next_siblings屬性是獲取該標籤的所有在他後面的兄弟節點,不包括他本身。同時返回結果也是一個迭代器
同理,既然有獲取他的下一個所有兄弟標籤,也有獲取他前面的所有兄弟標籤
soup.li.previous_siblings
如果只是獲取一個即可,可以選擇把上面的屬性後面的s字母去掉即可,如下
soup.li.previous_sibling
soup.li.next_sibling
3.bs庫的更高級的用法
在前面我們可以獲取標籤的名字、屬性、內容和所有的祖孫標籤。但是當我們需要獲取任意一個指定屬性的標籤還是有點困難的,所以,此時有了下面這個方法:
soup.find_all( name , attrs , recursive , text , **kwargs )
1)先使用name參數來進行搜索
print(soup.find_all('li'))
[<li class="">
<a data-moreurl-dict='{"from":"top-nav-click-main","uid":"0"}' href="https://www.douban.com" target="_blank">豆瓣</a>
</li>, <li>
...
這裡獲取了所有標籤名字為li的標籤
2)使用name和attrs參數
print(soup.find_all('div', {'class': 'more-meta'}))
[<div class="more-meta">
<h4 class="title">
刺
</h4>
...
這裡搜索了具有屬性為class='more-meta'的div標籤
3)根據關鍵字參數來搜索
print(soup.find_all(class_='more-meta'))
和上面的結果一樣
...
這裡注意,我們找的是class屬性為more-meta的標籤,用了關鍵字參數,但是python裡面有class關鍵字,所以為了不使語法出錯,所以需要在class加個下劃線
其他參數的就不再介紹了,可以自行去官網查看
4)find()方法
此方法與find_all()方法一樣,只不過這個方法只是查找一個標籤而已,後者是查找所有符合條件的標籤。
還有很多類似的方法,用法都差不多,就不再一一演示了,需要的可以去官網查看
5)select()方法
這個方法是使用css選擇器來進行篩選標籤的。
css選擇器:就是根據標籤的名字,id和class屬性來選擇標籤。
通過標籤名:直接寫該標籤名,如 li a ,這個就是找li標籤下的a標籤
通過class屬性:用. 符號加class屬性值,如 .title .time 這個就是找class值為title下的class值為time的標籤
通過id屬性:用# 加id屬性值來進行查找,如 #img #width 這個就是找id值為img下的id值為width的標籤
上面三者可以混合使用,如 ul .title #width
如果還不太會的話,可以直接在瀏覽器上按下f12來查看
位置在箭頭所指的位置就是選擇器的表達
代碼如下
print(soup.select('ul li div'))
print(soup.select('.info .title'))
print(soup.select('#footer #icp'))
print(soup.select('ul li .cover a img'))
這裡的獲取屬性和文本內容
for attr in soup.select('ul li .cover a img'):
print(attr['alt'])
for tag in soup.select('li'):
print(tag.get_text())
.get_tex()方法和前面的.string屬性有點不一樣哈,這裡的他會獲取該標籤的所有文本內容,不管有沒有子標籤
寫在最後
以上的這些都是個人在學習過程中做的一點筆記。還有點不足,如果有錯誤的話歡迎大佬指出哈。如果想要查看更多相關用法可以去官方文檔查看:http://beautifulsoup.readthedocs.io/zh_CN/latest/
學習參考資料:https://edu.hellobi.com/course/157
如果這篇文章對你有用,點個讚,轉個發如何?
還有,祝大家今天愚人節快樂
日常學python
代碼不止bug,還有美和樂趣