爬蟲 | 如何快速獲取網頁URL連結

2021-02-14 數據挖掘與可視化分析

在上一篇推文Gooseeker抓取豆瓣電影排行榜-劇情片中,我向大家分享了如何爬取「豆瓣排行榜-劇情片」這個類別中評分在前10%的電影。

這篇推文將是對上篇文章的進一步深入,主要介紹如何將其他分類中排在前10%的電影一起抓取下來。

其實,這個操作非常簡單,只需要在上篇推文創建的規則上添加一個條件就可以了。即在「DS打數機」中,右鍵點擊「主題—管理線索—添加」,按提示,將URL網址依次添加進來即可。

但,最大的問題在於,如何獲取URL?在這裡,如果分類網址只有29個,暫且還可以用手動複製粘貼的方法獲取;但如果今天我們希望獲取的網址信息有成百上千個,手動獲取得花費多少時間啊~

接下來我就教大家一個簡單的方法,用這個辦法,我們可以更快更準確的獲取到網址信息。

我在之前的文章中已經說到,URL網址的組成都有它的規律,所有的網頁信息都有它們的HTML原始碼。

只要稍作觀察,就不難發現,豆瓣分類排行榜的網址的變動主要集中在下圖標註的nametype上面:

現在,在豆瓣電影排行榜這個網頁中,點擊F12,調出網頁原始碼,點擊下圖紅色橢圓框選的按鈕,快速的定位到分類網址所在的位置。

如圖可知,每個span屬性下存放著一個href屬性,裡面包含了我們先要的分類名稱name和類型代碼type:

現在選中所有分類屬性所在的上一級屬性<div class=「types」>,右鍵選擇「copy—copyelement」:

 

接下來,打開Excel,將內容Ctrl+V粘貼進來。

在這裡,我主要通過Ctrl+H「替換」的方式,將重複且多餘的內容一一替除,然後手動刪除了小部分信息冗雜部分;最後用「數據—分列」的方法將依然不能刪除的多餘信息分列出去,並刪除。經過刪減,最後得到了如下圖所示的B列;

最後,用公式「=$A$1&B1&$C$1」將URL網址的前後重複部分與B列合併,得到了所有分類的URL網址:

選擇D列,按Ctrl+C,再按「選擇性粘貼」Ctrl+Alt+V,選擇「數值」Alt+V,確定。

最後,將D列網址複製,粘貼到推文最初提到的添加線索欄中:

添加完成後,按確定,右鍵點擊主題「電影爬」,查看「統計線索」,如下圖所示,線索有29條,也就是有29個URL網址處於待抓取狀態。

最後,點擊「單搜」,將線索改為「29」,確認,抓取完成即可。

該案例中需要處理的URL網址只有29條,可能你並不能感受到這種方法有多麼便利,其他類型的URL網址也不可能都像豆瓣網址這樣組合。

所以,這篇推文主要提供的是這種發現和處理URL的思路,通過這種思路,大家可以更加得心應手的解決URL網址的抓取問題。

如果大家想要了解更多,可以點擊閱讀原文,學習松鼠的爬蟲視頻課程哦。~

註:如直接點擊閱讀原文購買後,購買帳號即為你的微信號。

相關焦點

  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • Python爬蟲實戰,AcFun彈幕視頻網
    utm_source=app日常跳轉:導入獲取視頻的信息番劇劇集連結源碼及效果獲取視頻的信息通過m3u8文件地址下載視頻源碼及效果單個短視頻番劇劇集很多人學習python,不知道從何學起。很多已經做案例的人,卻不知道如何去學習更加高深的知識。那麼針對這三類人,我給大家提供一個好的學習平臺,免費領取視頻教程,電子書籍,以及課程的原始碼!??¤QQ群:623406465導入前段時間我已經將B站的爬取方法做了一個總結:Python爬蟲:嗶哩嗶哩(bilibili)視頻下載。
  • Python漫畫爬蟲——漫畫喵的100行代碼逆襲
    我們這個爬蟲使用selenium + phantomjs來實現。喲,這個爬蟲軟體應該有個響噹噹的名字。。。就叫漫畫喵吧,英文名Cartoon Cat。下面我們一點點的介紹這個爬蟲的實現過程吧。這樣的好處是實現比較簡單,壞處是一旦得到網頁源碼就能很容易的解析。而像scrapy這樣的爬蟲工具只能抓取靜態的代碼(動態的需要自己分析ajax,有點麻煩)。而顯然這裡的頁面是動態的,使用了ajax來實現。所以光是得到網頁源碼並不能真的得到圖片,而是必須讓其中的js代碼運行才可以。所以我們才需要使用瀏覽器或者PhantomJs這樣的可以執行js代碼的工具。
  • Python網頁爬蟲工具有哪些?
    一個真實的項目,一定是從獲取數據開始的。不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?
  • 爬蟲學習(1):從數據看奧斯卡陪跑健將到底是誰?哪類電影受歡迎?
    ;lxml庫主要是使用xpath進行提取網頁中的一些數據;pymongo是為了將提取的一些非結構化數據進行存儲,前面已有一篇介紹的文章MongoDB快速學習,有興趣的可以點擊看看一下一些基本的安裝增刪改查等等;pandas這麼無情的庫就不用多介紹了吧,本文用它來讀取MongoDB中的數據;xpath-helper是一個直接可以在網頁上使用xpath表達式提取信息的工具,需要自己安裝,如沒有安裝包,請私信或留言聯繫我
  • Python網絡爬蟲-第一行代碼-windows環境
    Python有強大的支持爬蟲功能的庫,是爬取網頁數據的首選。先看看是否有Python:cmd界面執行Python已經安裝完成,版本是2.7.15。可能是我安裝vue開發環境或者安卓開發環境的時候順便裝上了。然後檢查pip是否安裝。
  • Python爬蟲獲取豆瓣電影並寫入excel
    這篇文章主要介紹了Python爬蟲獲取豆瓣電影並寫入excel ,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值
  • Python爬蟲數據抓取方法匯總!所有方法都在此!
    1、python進行網頁數據抓取有兩種方式:一種是直接依據url連結來拼接使用get方法得到內容,一種是構建post
  • Python爬蟲追美劇?你咋這麼溜溜溜『上篇』
    當你打開網頁,複製網頁資源連結到迅雷裡,迅雷過一會兒給你彈出個提示:「網絡資源已經下架」。你是不是很蛋疼?這種情況一般就發生在新出的美劇,隔了幾周之後,就會有這種資源下架的問題。還有一種情況比較煩惱,就是,如果你同時追著很多劇,你是不是每天都得查看這個劇是不是更新了?
  • 每日一課丨Python爬蟲:單線程、多線程和協程的爬蟲性能對比
    ,並分別用普通的單線程、多線程和協程來爬取,從而對比單線程、多線程和協程在網絡爬蟲中的性能。        ', '上映日期:', ' ', '2021-02-12(中國大陸)', ' / ', '2020-08-01(上海電影節)', '\n        ', '片長:', ' ', '100分鐘', '\n        ', '又名:', ' 熊出沒大電影7 / 熊出沒科幻大電影 / Boonie Bears: The Wild Life', '\n        ', 'IMDb連結
  • 5分鐘快速學習掌握python爬蟲Beautifulsoup解析網頁
    python爬蟲用Beatifulsoup庫解析網頁提取所需元素新手看懂個人觀點:之前我們有講過爬蟲和網頁的一些聯繫,網頁的一些組成部分,爬蟲就是對網頁裡面的數據進行提取然後對其進行數據處理,篩選出所需部分,供需要者使用。
  • Python爬蟲學習:抓取電影網站內容的爬蟲
    根據視頻所有分類的URL獲取網站中所有視頻分類騰訊的所有視頻的URL為:http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html首先我們import urllib2包,封裝一個讀取url中html的方法,詳細代碼如下:導入需要的模塊並定義全局變量: # -*- coding
  • 什麼是Python爬蟲?華為科普知識來看看
    《小白看過來,讓Python爬蟲成為你的好幫手》原文:隨著信息化社會的到來,人們對網絡爬蟲這個詞已經不再陌生。但什麼是爬蟲,如何利用爬蟲為自己服務,這些在ICT技術小白聽起來又有些高入雲端。爬蟲可以在抓取過程中進行各種異常處理、錯誤重試等操作,確保爬取持續高效地運行。它分為通用爬蟲和專用爬蟲。通用爬蟲是捜索引擎抓取系統的重要組成部分,主要目的是將網際網路上的網頁下載到本地,形成一個網際網路內容的鏡像備份;專用爬蟲主要為某一類特定的人群提供服務,爬取的目標網頁定位在與主題相關的頁面中,節省大量的伺服器資源和帶寬資源。
  • 抖音小姐姐視頻爬蟲
    其實在看創造101之前,就已經在抖音上關注了她,今天就來爬爬她的抖音視頻(楊超越的抖音已經沒有更新了),你的樣子我都有~本文主要講解:PS:雖然很多網友罵她沒實力,但別人運氣是真的好~抖音視頻爬蟲這裡依舊是通過fiddler抓包,現在的抖音有加密算法,之前網上的大部分代碼都不能用了,我們先看看有哪些加密欄位。
  • 小叮噹高級爬蟲(二):Scrapy創建項目「五部曲」獲取豆瓣電影信息
    當然是不用,下面,小叮噹就為大家分享,如何使用Python中的Scrapy框架,來獲取豆瓣的電影信息。還不了解Scrapy的夥伴們,可以去看下「小叮噹高級爬蟲(一):爬蟲利器Scrapy」。巴金先生有他的「激流三部曲」,《家》、《春》、《秋》;而小叮噹卻有「Scrapy五部曲」,比巴金先生還多了兩部,就問巴金先生「慌不慌」。
  • 關於反爬蟲,看這一篇就夠了
    直到有一次,四月份的時候,我們刪除了一個url,然後有個爬蟲不斷的爬取url,導致大量報錯,測試開始找我們麻煩。我們只好特意為這個爬蟲發布了一次站點,把刪除的url又恢復回去了。 但是當時我們的一個組員表示很不服,說,我們不能幹掉爬蟲,也就罷了,還要專門為它發布,這實在是太沒面子了。於是出了個主意,說:url可以上,但是,絕對不給真實數據。
  • Python3網絡爬蟲(一):利用urllib進行簡單的網頁抓取
    因此打算寫一個Python3.x的爬蟲筆記,以便後續回顧,歡迎一起交流、共同進步。網絡爬蟲就是根據網頁的地址來尋找網頁的,也就是URL。    網絡爬蟲就是根據這個URL來獲取網頁信息的。三、簡單爬蟲實例    在Python3.x中,我們可以使用urlib這個組件抓取網頁,urllib是一個URL處理包,這個包中集合了一些處理URL的模塊,如下:
  • 長URL連結轉短連結算法
    引言很多大型網站都加入了短連結的功能。之所以要是使用短連結,主要是因為微博只允許發140 字,如果連結地址太長的話,那麼發送的字數將大大減少。短連結的主要職責就是把原始連結很長的地址壓縮成只有6 個字母的短連結地址,當我們點擊這6 個字母的連結後,我們又可以跳轉到原始連結地址。
  • 通過正則表達式快速獲取電影的下載地址!正則-永遠滴神!
    在爬取網頁信息時,如果在HTML代碼中通過獲取標籤的方式來提取電影的下載地址時,不僅要編寫比較多的代碼,還需要不斷的確認每一層的標籤是否正確,這樣的操作無疑是煩瑣的