Python多進程爬蟲爬取愛奇藝vip視頻

2020-08-30 Python之王

文章目錄

      • 一、基本思路
      • 二、selenium爬蟲
      • 三、查看數據


一、基本思路

目標url:https://www.lagou.com/

用selenium爬蟲實現,輸入任意關鍵字,比如 python 數據分析,點擊搜索,得到的有關崗位信息,爬取下來保存到Excel。

有30頁,每個頁面有15條招聘信息。

二、selenium爬蟲

from selenium import webdriverimport timeimport loggingimport randomimport openpyxlwb = openpyxl.Workbook()sheet = wb.activesheet.append([&39;, &39;, &39;,&39;, &39;, &39;,&39;,&39;])logging.basicConfig(level=logging.INFO, format=&39;)def search_product(key_word): browser.find_element_by_id(&39;).click() 39;search_input& 定位搜索框 輸入關鍵字 browser.find_element_by_class_name(&39;).click() 最大化窗口 time.sleep(2) browser.find_element_by_class_name(&39;).click() 34;scroll(0,3000)& 下拉滾動條 get_data() 模擬點擊下一頁 翻頁爬取數據 每爬取一頁數據 休眠 控制抓取速度 防止被反爬 讓輸驗證碼 for i in range(29): browser.find_element_by_class_name(&39;).click() time.sleep(1) browser.execute_script(&34;) get_data() time.sleep(random.randint(3, 5))def get_data(): items = browser.find_elements_by_xpath(&34;s_position_list&39;) for item in items: job_name = item.find_element_by_xpath(&34;p_top&39;).text company_name = item.find_element_by_xpath(&34;company_name&39;).text city = item.find_element_by_xpath(&34;p_top&34;add&39;).text industry = item.find_element_by_xpath(&34;industry&39;).text salary = item.find_element_by_xpath(&34;money&39;).text experience_edu = item.find_element_by_xpath(&34;p_bot&34;li_b_l&39;).text welfare = item.find_element_by_xpath(&34;li_b_r&39;).text job_label = item.find_element_by_xpath(&34;list_item_bot&34;li_b_l&39;).text data = f&39; logging.info(data) sheet.append([job_name, company_name, city,industry, salary, experience_edu, welfare, job_label])def main(): browser.get(&39;) time.sleep(random.randint(1, 3)) search_product(keyword) wb.save(&39;)if __name__ == &39;: keyword = &39; 39;D:\python\pycharm2020\chromedriver.exe& 關閉左上方 Chrome 正受到自動測試軟體的控制的提示 options.add_experimental_option(&39;, False) options.add_experimental_option(&34;, [&39;]) browser = webdriver.Chrome(options=options, executable_path=chrome_driver) main() browser.quit()

爬蟲運行,成功爬取數據並保存到Excel,運行結果如下:

三、查看數據



相關焦點

  • 如何利用python爬蟲爬取各大網站VIP電影?小白都能看懂
    環境:windows python3.7文末有最新python資料下載地址以及視頻 思路:1、先選取你要爬取的電影2、用vip解析工具解析,獲取地址3、寫好腳本,下載片斷>2、import requests模塊安裝方法用windows命令行終端pip install requests 一、先選取你要爬
  • 用Python爬取B站、騰訊視頻、愛奇藝和芒果TV視頻彈幕
    ,小編是一名python開發工程師,這裡有我自己整理的一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。本文運用Python爬取B站視頻、騰訊視頻、芒果TV和愛奇藝視頻等彈幕,讓你輕鬆獲取主流視頻網站彈幕數據。
  • 用Python爬取B站、騰訊視頻、芒果TV和愛奇藝視頻彈幕
    本文運用Python爬取B站視頻、騰訊視頻、芒果TV和愛奇藝視頻等彈幕,讓你輕鬆獲取主流視頻網站彈幕數據。 一、B站視頻彈幕1.網頁分析本文以爬取up主硬核的半佛仙人發布的《你知道奶茶加盟到底有多坑人嗎?》視頻彈幕為例,首先通過以下步驟找到存放彈幕的真實url。
  • 簡短的爬蟲程序,14行Python代碼輕鬆實現爬取網站視頻
    requestre(http.cookiejar 後續爬蟲進場會使用到的庫,本項目反爬不涉及所以可以不添加)如果import過程顯示沒有上述庫,可以通過文件→設置→projet interpreter中右側點擊+來添加(如果您使用
  • python爬蟲系列教程,用python爬取全國範圍內的KFC店地址
    下面羽憶教程教你會python爬取全國範圍內的KFC店地址,這是一篇python爬蟲系列的教程,簡單又能讓人填飽肚子。python爬蟲介紹python發展至今,python爬蟲已經成為了一種職業,因為其可以幫助企業快速得到網絡上的最新信息,但是為什麼很多寫python爬蟲的程式設計師會面臨牢獄之災呢?
  • 網絡爬蟲爬取VIP下載音樂,這就是Python的魅力呀
    目標:下面我們來介紹要利用爬蟲下載收費音樂。主要過程: 我們來實現幾個案例,來實現我們的目的,這裡相當簡單。我們先來看看檢查元素中的內容:可以看到這裡有這麼多,但我們要的只是我們需要的我們來看運行效果,我這裡進行了聞件的判斷,這裡提示爬取成功。
  • Python爬蟲實戰:爬取任意你想看的視頻
    大家好,今天小編就以B站為例,帶大家爬取視頻,學會之後你也能爬取你想要的視頻!或不多說,上正文爬蟲用的好,牢飯吃的早!本文僅作知識分享,切勿用於違法行為!根據上一步分析,我們得到了網頁的源碼,並在源碼中定位到了視頻地址,接下來,我們就用代碼自動獲取這個地址了#用正則、json得到視頻url;用pq失敗後的無奈之舉
  • 還在考慮去哪找小視頻?Python爬蟲帶你爬取數百萬部國產小視頻
    鄭重聲明:本項目旨在學習Scrapy爬蟲框架和MongoDB資料庫,不可用於其他不正當的事情與商業。若使用不當產生任何不好的後果,以及法律責任,均由個人承擔!!!該項目爬取的是PornHub.com,它的結構簡潔,運行速度超快。爬取PornHub視頻的速度可以達到500萬/天以上。這個爬取速度還因網絡的情況來定。本項目還可多線程請求,如果網速跟的上,可以啟動多線程請求,以達到更快的爬取速度,具體的配置方法見 [啟動前配置]。
  • Python爬蟲實戰:2020最新BOOS直聘爬取教程
    Python爬蟲實戰:2020最新BOOS直聘爬取教程前言完整代碼及注釋分析圖片輔助分析運行結果更多爬蟲教程關注我失策失策,以前爬取別的網站從沒有這麼嚴格的反爬蟲機制,沒到到翻車了page_bs.find(class_=&34;).find(class_=&34;).text.strip() except: introduce = &34; 有的公司地址後帶有502,我們把它替換成空串 address = page_bs.find(class_=&34;).text.replace(&34;,&34;) 多頁爬取
  • PythonPython100個練手項目|github|瀏覽器|爬蟲|python|斷點_網易...
    天貓商品數據爬蟲    3. 爬取淘寶我已購買的寶貝數據    4. 每天不同時間段通過微信發消息提醒女友    5. 爬取5K解析度超清唯美壁紙    6. 爬取豆瓣排行榜電影數據(含GUI界面版)    7.
  • Python爬蟲:爬取虎牙星秀主播圖片
    動態爬取思路講解導入需要的python模塊通過爬蟲獲得的主播圖片在Pycharm中所敲的代碼動態爬取思路講解1.簡單的爬蟲只需要訪問網站搜索欄處的url,就可以在開發者工具(F12)處,利用正則表達式、Xpath、css等進行定位並抓取數據;2.虎牙星秀頁面不同於簡單的網頁
  • python爬蟲100個入門項目
    1淘寶模擬登錄2天貓商品數據爬蟲3爬取淘寶我已購買的寶貝數據4每天不同時間段通過微信發消息提醒女友5爬取5K解析度超清唯美壁紙6爬取豆瓣排行榜電影數據(含GUI界面版)7多線程+代理池爬取天天基金網、股票數據(無需使用爬蟲框架)8一鍵生成微信個人專屬數據報告(了解你的微信社交歷史)9一鍵生成QQ個人歷史報告10微信公眾號文章爬蟲
  • python爬蟲senlenium爬取拉勾網招聘數據
    ,輸入任意關鍵字,比如 python 數據分析,點擊搜索,得到的有關崗位信息,爬取下來保存到Excel#39;body-btn').click() # 關閉彈窗 啥領取紅包窗口 time.sleep(random.randint(1, 3)) browser.execute_script("scroll(0,3000)") # 下拉滾動條 get_data() # 調用抓取數據的函數 # 模擬點擊下一頁 翻頁爬取數據
  • 2020年度火熱開發實戰:python爬蟲爬取美女圖片
    岸圖網站裡有大量的高清圖片素材和壁紙,並且可以免費下載,讀者也可以根據自己需要爬取其他類型圖片,方法是類似的,本文通過python爬蟲批量下載網站裡的高清美女圖片,熟悉python寫爬蟲的基本方法:發送請求、獲取響應、解析並提取數據、保存到本地。
  • Python爬蟲「學前班」!別踩坑了!輕鬆爬取大規模數據
    前言爬蟲應用的廣泛,例如搜尋引擎、採集數據、廣告過濾、數據分析等。當我們對少數網站內容進行爬取時寫多個爬蟲還是有可能的,但是對於需要爬取多個網站內容的項目來說是不可能編寫多個爬蟲的,這個時候我們就需要智能爬蟲。
  • 2020年度火熱開發實戰:python爬蟲爬取ge圖片各類
    岸圖網站裡有大量的高清圖片素材和壁紙,並且可以免費下載,讀者也可以根據自己需要爬取其他類型圖片,方法是類似的,本文通過python爬蟲批量下載網站裡的高清美女圖片,熟悉python寫爬蟲的基本方法:發送請求、獲取響應、解析並提取數據、保存到本地。
  • python爬蟲29 | 使用scrapy爬取糗事百科
    是時候給你說說爬蟲框架了使用框架來爬取數據會節省我們更多時間很快就能抓取到我們想要抓取的內容b那麼接下來就是學習 python 的正確姿勢好了現在假設你已經安裝好了 scrapy 這個框架那麼接下來小帥b會帶你使用它來爬取一下
  • 簡單一文教你如何用python爬蟲爬取扇貝單詞
    那麼就嘗試爬取一下這個網頁!一、網頁分析我們打開此網站之後,通過以往爬取網頁的經驗,會發現此網頁特別容易爬取。大概查看了網頁,我們只需爬取單詞和含義即可小編是一名python開發工程師,這裡有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,並在後臺私信小編:「01」即可領取。
  • python爬蟲如何爬取各大招聘網站?看完本文你就會了
    拉勾網爬蟲筆記——selenium爬取拉勾網職位信息初步爬蟲框架構造第一頁職位信息爬取第二頁等頁面的職位信息爬取爬取數據的保存細節處理爬取過程中出現需要登錄的處理爬取過程中網頁崩潰的處理在拉勾網的爬蟲過程中,由於反爬蟲機制,requests方法爬取嘗試失敗,故嘗試採用selenium爬取職位信息,以python職位信息為例(拉勾網搜索python):
  • 爬蟲|Python菜鳥的學習之路——爬取一本小說
    新建scrapy爬蟲項目scrapy是python的爬蟲框架。使用以下語句安裝scrapy。pip install scrapy安裝完成後,打開命令行窗口,轉到你想建立project的目錄下,使用下面這句話新建scrapy項目。