在上一篇推文Gooseeker抓取豆瓣電影排行榜-劇情片中,我向大家分享了如何爬取「豆瓣排行榜-劇情片」這個類別中評分在前10%的電影。
這篇推文將是對上篇文章的進一步深入,主要介紹如何將其他分類中排在前10%的電影一起抓取下來。
其實,這個操作非常簡單,只需要在上篇推文創建的規則上添加一個條件就可以了。即在「DS打數機」中,右鍵點擊「主題—管理線索—添加」,按提示,將URL網址依次添加進來即可。
但,最大的問題在於,如何獲取URL?在這裡,如果分類網址只有29個,暫且還可以用手動複製粘貼的方法獲取;但如果今天我們希望獲取的網址信息有成百上千個,手動獲取得花費多少時間啊~
接下來我就教大家一個簡單的方法,用這個辦法,我們可以更快更準確的獲取到網址信息。
我在之前的文章中已經說到,URL網址的組成都有它的規律,所有的網頁信息都有它們的HTML原始碼。
只要稍作觀察,就不難發現,豆瓣分類排行榜的網址的變動主要集中在下圖標註的name和type上面:
現在,在豆瓣電影排行榜這個網頁中,點擊F12,調出網頁原始碼,點擊下圖紅色橢圓框選的按鈕,快速的定位到分類網址所在的位置。
如圖可知,每個span屬性下存放著一個href屬性,裡面包含了我們先要的分類名稱name和類型代碼type:
現在選中所有分類屬性所在的上一級屬性<div class=「types」>,右鍵選擇「copy—copyelement」:
接下來,打開Excel,將內容Ctrl+V粘貼進來。
在這裡,我主要通過Ctrl+H「替換」的方式,將重複且多餘的內容一一替除,然後手動刪除了小部分信息冗雜部分;最後用「數據—分列」的方法將依然不能刪除的多餘信息分列出去,並刪除。經過刪減,最後得到了如下圖所示的B列;
最後,用公式「=$A$1&B1&$C$1」將URL網址的前後重複部分與B列合併,得到了所有分類的URL網址:
選擇D列,按Ctrl+C,再按「選擇性粘貼」Ctrl+Alt+V,選擇「數值」Alt+V,確定。
最後,將D列網址複製,粘貼到推文最初提到的添加線索欄中:
添加完成後,按確定,右鍵點擊主題「電影爬」,查看「統計線索」,如下圖所示,線索有29條,也就是有29個URL網址處於待抓取狀態。
最後,點擊「單搜」,將線索改為「29」,確認,抓取完成即可。
該案例中需要處理的URL網址只有29條,可能你並不能感受到這種方法有多麼便利,其他類型的URL網址也不可能都像豆瓣網址這樣組合。
所以,這篇推文主要提供的是這種發現和處理URL的思路,通過這種思路,大家可以更加得心應手的解決URL網址的抓取問題。
如果大家想要了解更多,可以點擊閱讀原文,學習松鼠的爬蟲視頻課程哦。~
註:如直接點擊閱讀原文購買後,購買帳號即為你的微信號。