爬蟲 | 如何快速獲取網頁URL連結

2021-02-14 數據挖掘與可視化分析

在上一篇推文Gooseeker抓取豆瓣電影排行榜-劇情片中，我向大家分享了如何爬取「豆瓣排行榜-劇情片」這個類別中評分在前10%的電影。

這篇推文將是對上篇文章的進一步深入，主要介紹如何將其他分類中排在前10%的電影一起抓取下來。

其實，這個操作非常簡單，只需要在上篇推文創建的規則上添加一個條件就可以了。即在「DS打數機」中，右鍵點擊「主題—管理線索—添加」，按提示，將URL網址依次添加進來即可。

但，最大的問題在於，如何獲取URL？在這裡，如果分類網址只有29個，暫且還可以用手動複製粘貼的方法獲取；但如果今天我們希望獲取的網址信息有成百上千個，手動獲取得花費多少時間啊~

接下來我就教大家一個簡單的方法，用這個辦法，我們可以更快更準確的獲取到網址信息。

我在之前的文章中已經說到，URL網址的組成都有它的規律，所有的網頁信息都有它們的HTML原始碼。

只要稍作觀察，就不難發現，豆瓣分類排行榜的網址的變動主要集中在下圖標註的name和type上面：

現在，在豆瓣電影排行榜這個網頁中，點擊F12，調出網頁原始碼，點擊下圖紅色橢圓框選的按鈕，快速的定位到分類網址所在的位置。

如圖可知，每個span屬性下存放著一個href屬性，裡面包含了我們先要的分類名稱name和類型代碼type：

現在選中所有分類屬性所在的上一級屬性<div class=「types」>，右鍵選擇「copy—copyelement」：

接下來，打開Excel，將內容Ctrl+V粘貼進來。

在這裡，我主要通過Ctrl+H「替換」的方式，將重複且多餘的內容一一替除，然後手動刪除了小部分信息冗雜部分；最後用「數據—分列」的方法將依然不能刪除的多餘信息分列出去，並刪除。經過刪減，最後得到了如下圖所示的B列；

最後，用公式「=$A$1&B1&$C$1」將URL網址的前後重複部分與B列合併，得到了所有分類的URL網址：

選擇D列，按Ctrl+C，再按「選擇性粘貼」Ctrl+Alt+V，選擇「數值」Alt+V，確定。

最後，將D列網址複製，粘貼到推文最初提到的添加線索欄中：

添加完成後，按確定，右鍵點擊主題「電影爬」，查看「統計線索」，如下圖所示，線索有29條，也就是有29個URL網址處於待抓取狀態。

最後，點擊「單搜」，將線索改為「29」，確認，抓取完成即可。

該案例中需要處理的URL網址只有29條，可能你並不能感受到這種方法有多麼便利，其他類型的URL網址也不可能都像豆瓣網址這樣組合。

所以，這篇推文主要提供的是這種發現和處理URL的思路，通過這種思路，大家可以更加得心應手的解決URL網址的抓取問題。

如果大家想要了解更多，可以點擊閱讀原文，學習松鼠的爬蟲視頻課程哦。~

註：如直接點擊閱讀原文購買後，購買帳號即為你的微信號。

相關焦點

初學者如何用「python爬蟲」技術抓取網頁數據?

而這裡的「技術手段」就是指網絡爬蟲。今天，小編將與您分享一個爬蟲的基本知識和入門教程：什麼是爬蟲？網絡爬蟲，也叫作網絡數據採集，是指通過編程從Web伺服器請求數據（HTML表單），然後解析HTML以提取所需的數據。
Python爬蟲實戰,AcFun彈幕視頻網

utm_source=app日常跳轉：導入獲取視頻的信息番劇劇集連結源碼及效果獲取視頻的信息通過m3u8文件地址下載視頻源碼及效果單個短視頻番劇劇集很多人學習python，不知道從何學起。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家提供一個好的學習平臺，免費領取視頻教程，電子書籍，以及課程的原始碼！??¤QQ群：623406465導入前段時間我已經將B站的爬取方法做了一個總結：Python爬蟲：嗶哩嗶哩（bilibili）視頻下載。
Python漫畫爬蟲——漫畫喵的100行代碼逆襲

我們這個爬蟲使用selenium + phantomjs來實現。喲，這個爬蟲軟體應該有個響噹噹的名字。。。就叫漫畫喵吧，英文名Cartoon Cat。下面我們一點點的介紹這個爬蟲的實現過程吧。這樣的好處是實現比較簡單，壞處是一旦得到網頁源碼就能很容易的解析。而像scrapy這樣的爬蟲工具只能抓取靜態的代碼（動態的需要自己分析ajax，有點麻煩）。而顯然這裡的頁面是動態的，使用了ajax來實現。所以光是得到網頁源碼並不能真的得到圖片，而是必須讓其中的js代碼運行才可以。所以我們才需要使用瀏覽器或者PhantomJs這樣的可以執行js代碼的工具。
Python網頁爬蟲工具有哪些?

一個真實的項目，一定是從獲取數據開始的。不管文本處理，機器學習和數據發掘，都需求數據，除了通過一些途徑購買或者下載的專業數據外，常常需求我們自己著手爬數據，爬蟲就顯得分外重要。那麼，Python網頁爬蟲東西有哪些呢?
爬蟲學習(1):從數據看奧斯卡陪跑健將到底是誰？哪類電影受歡迎？

；lxml庫主要是使用xpath進行提取網頁中的一些數據；pymongo是為了將提取的一些非結構化數據進行存儲，前面已有一篇介紹的文章MongoDB快速學習，有興趣的可以點擊看看一下一些基本的安裝增刪改查等等；pandas這麼無情的庫就不用多介紹了吧，本文用它來讀取MongoDB中的數據；xpath-helper是一個直接可以在網頁上使用xpath表達式提取信息的工具，需要自己安裝，如沒有安裝包，請私信或留言聯繫我
Python網絡爬蟲-第一行代碼-windows環境

Python有強大的支持爬蟲功能的庫，是爬取網頁數據的首選。先看看是否有Python：cmd界面執行Python已經安裝完成，版本是2.7.15。可能是我安裝vue開發環境或者安卓開發環境的時候順便裝上了。然後檢查pip是否安裝。
Python爬蟲獲取豆瓣電影並寫入excel

這篇文章主要介紹了Python爬蟲獲取豆瓣電影並寫入excel ,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值
Python爬蟲數據抓取方法匯總!所有方法都在此!

1、python進行網頁數據抓取有兩種方式：一種是直接依據url連結來拼接使用get方法得到內容，一種是構建post
Python爬蟲追美劇?你咋這麼溜溜溜『上篇』

當你打開網頁，複製網頁資源連結到迅雷裡，迅雷過一會兒給你彈出個提示：「網絡資源已經下架」。你是不是很蛋疼？這種情況一般就發生在新出的美劇，隔了幾周之後，就會有這種資源下架的問題。還有一種情況比較煩惱，就是，如果你同時追著很多劇，你是不是每天都得查看這個劇是不是更新了？
每日一課丨Python爬蟲:單線程、多線程和協程的爬蟲性能對比

，並分別用普通的單線程、多線程和協程來爬取，從而對比單線程、多線程和協程在網絡爬蟲中的性能。 ', '上映日期:', ' ', '2021-02-12(中國大陸)', ' / ', '2020-08-01(上海電影節)', '\n ', '片長:', ' ', '100分鐘', '\n ', '又名:', ' 熊出沒大電影7 / 熊出沒科幻大電影 / Boonie Bears: The Wild Life', '\n ', 'IMDb連結
5分鐘快速學習掌握python爬蟲Beautifulsoup解析網頁

python爬蟲用Beatifulsoup庫解析網頁提取所需元素新手看懂個人觀點：之前我們有講過爬蟲和網頁的一些聯繫，網頁的一些組成部分，爬蟲就是對網頁裡面的數據進行提取然後對其進行數據處理，篩選出所需部分，供需要者使用。
Python爬蟲學習:抓取電影網站內容的爬蟲

根據視頻所有分類的URL獲取網站中所有視頻分類騰訊的所有視頻的URL為：http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html首先我們import urllib2包，封裝一個讀取url中html的方法，詳細代碼如下：導入需要的模塊並定義全局變量： # -*- coding
什麼是Python爬蟲?華為科普知識來看看

《小白看過來，讓Python爬蟲成為你的好幫手》原文：隨著信息化社會的到來，人們對網絡爬蟲這個詞已經不再陌生。但什麼是爬蟲，如何利用爬蟲為自己服務，這些在ICT技術小白聽起來又有些高入雲端。爬蟲可以在抓取過程中進行各種異常處理、錯誤重試等操作，確保爬取持續高效地運行。它分為通用爬蟲和專用爬蟲。通用爬蟲是捜索引擎抓取系統的重要組成部分，主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的鏡像備份；專用爬蟲主要為某一類特定的人群提供服務，爬取的目標網頁定位在與主題相關的頁面中，節省大量的伺服器資源和帶寬資源。
抖音小姐姐視頻爬蟲

其實在看創造101之前，就已經在抖音上關注了她，今天就來爬爬她的抖音視頻（楊超越的抖音已經沒有更新了），你的樣子我都有~本文主要講解：PS：雖然很多網友罵她沒實力，但別人運氣是真的好~抖音視頻爬蟲這裡依舊是通過fiddler抓包，現在的抖音有加密算法，之前網上的大部分代碼都不能用了，我們先看看有哪些加密欄位。
小叮噹高級爬蟲(二):Scrapy創建項目「五部曲」獲取豆瓣電影信息

當然是不用，下面，小叮噹就為大家分享，如何使用Python中的Scrapy框架，來獲取豆瓣的電影信息。還不了解Scrapy的夥伴們，可以去看下「小叮噹高級爬蟲（一）：爬蟲利器Scrapy」。巴金先生有他的「激流三部曲」，《家》、《春》、《秋》；而小叮噹卻有「Scrapy五部曲」，比巴金先生還多了兩部，就問巴金先生「慌不慌」。
關於反爬蟲,看這一篇就夠了

直到有一次，四月份的時候，我們刪除了一個url，然後有個爬蟲不斷的爬取url，導致大量報錯，測試開始找我們麻煩。我們只好特意為這個爬蟲發布了一次站點，把刪除的url又恢復回去了。但是當時我們的一個組員表示很不服，說，我們不能幹掉爬蟲，也就罷了，還要專門為它發布，這實在是太沒面子了。於是出了個主意，說：url可以上，但是，絕對不給真實數據。
Python3網絡爬蟲(一):利用urllib進行簡單的網頁抓取

因此打算寫一個Python3.x的爬蟲筆記，以便後續回顧，歡迎一起交流、共同進步。網絡爬蟲就是根據網頁的地址來尋找網頁的，也就是URL。網絡爬蟲就是根據這個URL來獲取網頁信息的。三、簡單爬蟲實例在Python3.x中，我們可以使用urlib這個組件抓取網頁，urllib是一個URL處理包，這個包中集合了一些處理URL的模塊，如下：
長URL連結轉短連結算法

引言很多大型網站都加入了短連結的功能。之所以要是使用短連結，主要是因為微博只允許發140 字，如果連結地址太長的話，那麼發送的字數將大大減少。短連結的主要職責就是把原始連結很長的地址壓縮成只有6 個字母的短連結地址，當我們點擊這6 個字母的連結後，我們又可以跳轉到原始連結地址。
通過正則表達式快速獲取電影的下載地址!正則-永遠滴神!

在爬取網頁信息時，如果在HTML代碼中通過獲取標籤的方式來提取電影的下載地址時，不僅要編寫比較多的代碼，還需要不斷的確認每一層的標籤是否正確，這樣的操作無疑是煩瑣的

爬蟲 | 如何快速獲取網頁URL連結

相關焦點

初學者如何用「python爬蟲」技術抓取網頁數據?

Python爬蟲實戰,AcFun彈幕視頻網

Python漫畫爬蟲——漫畫喵的100行代碼逆襲

Python網頁爬蟲工具有哪些?

爬蟲學習(1):從數據看奧斯卡陪跑健將到底是誰？哪類電影受歡迎？

Python網絡爬蟲-第一行代碼-windows環境

Python爬蟲獲取豆瓣電影並寫入excel

Python爬蟲數據抓取方法匯總!所有方法都在此!

Python爬蟲追美劇?你咋這麼溜溜溜『上篇』

每日一課丨Python爬蟲:單線程、多線程和協程的爬蟲性能對比

5分鐘快速學習掌握python爬蟲Beautifulsoup解析網頁

Python爬蟲學習:抓取電影網站內容的爬蟲

什麼是Python爬蟲?華為科普知識來看看

抖音小姐姐視頻爬蟲

小叮噹高級爬蟲(二):Scrapy創建項目「五部曲」獲取豆瓣電影信息

關於反爬蟲,看這一篇就夠了

Python3網絡爬蟲(一):利用urllib進行簡單的網頁抓取

長URL連結轉短連結算法

通過正則表達式快速獲取電影的下載地址!正則-永遠滴神!