python爬蟲用Beatifulsoup庫解析網頁提取所需元素新手看懂
個人觀點:
之前我們有講過爬蟲和網頁的一些聯繫,網頁的一些組成部分,爬蟲就是對網頁裡面的數據進行提取然後對其進行數據處理,篩選出所需部分,供需要者使用。
___________________________________________________________
所需工具:
瀏覽器打開任意我們想要解析網頁,比如某大型搜尋引擎,什麼什么娘,heihei
編輯器:pycharm,
—————————————————————————
我們分成三部分來完成今天的工作:
第一部分:使用Beautifulsoup來解析解析網頁,
首先我們講一下這個Beautifulsoup庫,我們用來解析網頁和提取網頁元素的模塊並不止這個,有Xpath ,re正則表達式,urllib,小夥伴們可以都去了解一下其他的,我個人認為Beatifusoup比較簡單粗暴,裡面的lxml庫比較快,而且對很多網頁都可以使用,直接根部提取,但是這好比一個工具,並不是所有人用著就順手,見仁見智吧。
下圖BeautifuSoup解析網頁的語句:
大家看到括號裡面是一個html網頁,後面的lxml是解析庫,
第二 部分:提取網頁中的元素:描述你要爬取的東西在那裡?
Soup.select是要找到我們要爬去的東西在哪裡,有什麼條件,
第三部分:就是提取道元素並清洗,去掉不必要的結構,比如下面p標籤這些,得到哪些是我們想要的去掉那些不是我們所需的,
然後裝入一個表裡供我們查詢使用:
Beautifulsoup解析網頁的步驟就這些,小夥伴們可以實際操作一下。因為大家都是小白,或者有點基礎,所以不說那麼多,下一次我們實際操作爬去一個網頁給大家進行演示,我本人對爬蟲和數據分析比較感興趣,每一次為了爬去自己想要的東西,可以就天忘記了時間,太享受了,就是起來走路的時候有點腳發飄,這是提醒和我一樣喜歡坐電腦前的小夥伴們注意身體健康。