從0開始學Python爬蟲——Lesson2

2021-01-07 仙道這裡有乾貨

01安裝selenium庫

Python爬蟲常用的庫有:beautifulsoup(美麗湯)、requests、pyquery、selenium等等,某人云:站在巨人的肩膀上,那麼你離成功會更近。有一句從另一個方面講述了這個道理:人生苦短,請用Python,因為Python擁有強大的標準庫與第三方庫,你不用花時間去編寫,直接拿來用即可。本系列教程主要用的就是selenium庫來進行與瀏覽器交互,完成自動化處理,從而達到爬蟲的目的。講了這麼多,大家肯定迫不及待了,那麼咱們直接進入正題

拿起你們的雙手,運行CMD,來更新一下pip,這是安裝和管理軟體包的,如圖所示輸入:python -m pip install --upgrade pip到最後提示successfully installed代表安裝成功

然後我們再輸入pip install selenium來安裝selenium庫,如圖所示

到這裡還沒有結束,咱們還需要去下載一個Chrome的瀏覽器驅動:webdriver,仙道比較喜歡用chrome,像firefox、IE等均有對應的driver,進入某寶鏡像站(https://npm.taobao.org/mirrors/chromedriver?spm=a2c6h.14029880.0.0.735975d7rP4QEz)裡去找到對應版本的驅動(你Chrome的版本,建議更新至最新版本)

將下載來的zip解壓得到chromedriver.exe,將其移至Python的根目錄下即可,如圖所示

ps:可能有些同學找不到python的根目錄,一般默認安裝的情況下,會是在這裡:C:\Users\你的用戶名\AppData\Local\Programs\Python\Python37-32

02

在開始裡找到並打開PythonIDLE,輸入from selenium import webdriver(意思是從selenium庫裡引用瀏覽器驅動)回車後,咱們輸入w = webdriver.Chrome() 設一個w的變量,將其定義瀏覽器驅動運行Chrome,回車後:自動運行了一個谷歌瀏覽器,神奇有木有?!

咱們先練練手,如何登陸百度呢?很簡單,用get(url)即可,url代表網址,那麼網址為字符串,必須要用單引號包起來:'http://www.baidu.com' 好了開始吧,如圖輸入w.get('http://www.baidu.com') 回車後:剛才打開的谷歌瀏覽器自動登錄了百度首頁了,恭喜你離爬蟲又近了一步啦,第二課就到這兒嘍

相關焦點

  • 如何從零開始學Python
    如何從零開始學python?書聲琅琅教育番茄老師介紹,零基礎的朋友學python相對來講難度要大,但是很多python大牛都是從零基礎上來的,對於這些python大牛來講,參加合理的培訓指導和有一套python學習路線是分不開的,有目標有計劃的學習才能更加高效。
  • 從零開始的python爬蟲速成指南
    在前言:最近後臺有人留言問:有沒有python爬蟲的相關教程,爬蟲不是我專業方向,很多不是很熟悉,而網上很多資料講的過於散亂,不能很好的系統性學習爬蟲,而且水平參差不齊。特委託一位熟悉爬蟲的小夥伴,幫忙把關,將網上現有資料進行整合,整理了一份相對比較系統的資料。
  • Python爬蟲之urllib庫—爬蟲的第一步
    第一個爬蟲代碼的實現我想應該是從urllib開始吧,博主開始學習的時候就是使用urllib庫敲了幾行代碼就實現了簡單的爬數據功能,我想大多夥伴們也都是這麼過來的
  • 從零開始的 Python 爬蟲速成指南,10篇 Python 技術熱文
    其中有基礎知識,爬蟲項目實戰,資料庫,web開發等。註:以下文章,點擊標題即可閱讀《從零開始的 Python 爬蟲速成指南》本文主要內容為以最短的時間寫一個最簡單的爬蟲,可以抓取論壇的帖子標題和帖子內容等。
  • 10個Python爬蟲入門實例
    涉及主要知識點:web是如何交互的requests庫的get、post函數的應用response對象的相關函數,屬性python文件的打開,保存代碼中給出了注釋,並且可以直接運行哦如何安裝requests庫(安裝好python的朋友可以直接參考,沒有的,
  • 如何開始寫你的第一個python腳本——簡單爬蟲入門!
    好多朋友在入門python的時候都是以爬蟲入手,而網絡爬蟲是近幾年比較流行的概念,特別是在大數據分析熱門起來以後,學習網絡爬蟲的人越來越多,哦對,現在叫數據挖掘了!其實,一般的爬蟲具有2個功能:取數據和存數據!好像說了句廢話。。。
  • Python爬蟲學到什麼程度就可以去找工作了?
    有朋友在群裡和大家討論,問的最多的問題就是,python 爬蟲學到什麼程度可以去找工作了,關於這點,和大家分享下我的理解。去招聘網上看看需求都有哪些,直接做個拉勾網爬蟲(有需要的私信)出結果了:仔細看看,我們可以得出以下幾點:1、 python 不是唯一可以做爬蟲的,很多語言都可以,
  • Python破解反爬蟲:最新反爬蟲有道翻譯中英文互譯破解,附代碼
    由於爬蟲的出現,導致很多網頁都設置了反爬蟲機制:常見的反爬蟲機制就是在客戶端發出請求的時候,在請求的內容中新增一些內容,而這些內容都是經過「加密的」,每次請求都是不同的,這樣就導致了很多傳統的爬蟲失效。
  • Python 爬蟲「學前班」!學會免踩坑!
    雖然說這種基於網頁內容的爬蟲可以減少爬蟲的數量,但是需要人工參與進行訓練 NLP 模型,沒有 AI 開發經驗或 AI 開發經驗很少的程式設計師很難寫出這類爬蟲,並且爬蟲爬取時間很長效率還很低。2.安裝這個爬蟲框架需要首先安裝依賴:shellsudo apt-get install libxml2-dev libxslt-devsudo apt-getinstall libjpeg-dev zlib1g-dev libpng12-dev
  • Python爬蟲:一些常用的爬蟲技巧總結
    也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過簡單驗證碼識別腳本。爬蟲在開發過程中也有很多復用的過程,這裡總結一下,以後也能省些事情。
  • 從零開始學會Python 爬蟲,該怎麼做?
    從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站,那麼網絡蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。
  • Python 爬蟲:8 個常用的爬蟲技巧總結!
    用python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • Python 從零開始--入門篇
    ,目的只有一個是大家一起能夠使用 python 寫自己的爬蟲,能夠達到公司要求的基本水平。-- 當然也比較有趣正式學習之前大家可以看一下python發展歷史[人生苦短,只需一部Python簡史](https://www.douban.com/note/543082723/)版本選擇Python2.x是遺產,Python3.x是現在和未來的語言。Python2.x默認編碼為ASSIC碼,不支持中文。
  • python爬蟲很強大,在爬蟲裡如何自動操控瀏覽器呢?
    概述:python通過selenium爬取數據是很多突破封鎖的有效途徑。但在使用selenium中會遇到很多問題,本文就通過一問一答的形式來通熟易懂的普及如何通過selenium執行javascript程序,進而獲取動態執行後的網頁。如果你喜歡,歡迎轉發本文。python爬蟲編程:用selenium執行javascript出錯了,該咋改?
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    本課程為python教程大合集,包含python所有就業方向,每套課程均來自市面上主流培訓機構的原版教程,價值都在數百元以上 每套課程均包含:視頻課程+課件+原始碼 重要:建議根據自己工作方向和需求,重點選擇2到3套課程學精,吃透,然後在工作 重要:零基礎小白建議先選擇零基礎全能篇的一套課程學精
  • 從零開始的Python爬蟲教程(一):獲取HTML文檔
    從零開始的Python爬蟲教程(零):粗識HTML結構中,粗略給大家介紹了一下HTML文檔,是為了在接下來的教程中讓大家更容易理解和掌握。在接下來的教程中,需要大家提前安裝python3.x版本,大家不必拘泥於具體的版本,不管安裝的是3.0還是最新的3.7,都不影響接下來的操作。至於安裝教程,這裡就不過多贅述了,讀者可自行搜索到詳細的教程。
  • 10-python爬蟲之lxml庫
    官方文檔 http://lxml.de/index.html學習目的利用上節課學習的XPath語法,來快速的定位 特定元素以及節點信息,目的是 提取出 HTML、XML 目標數據如何安裝sudo apt-get install libxml2-dev libxslt1-dev python-dev
  • python 爬蟲 | 解析庫之 XPath(1)
    自己學習 python 爬蟲已經有段時間了,但編程的學習過程總是邊學邊忘
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    那今天就來說說學python這件事兒吧,從三個方面來說:第一,學了python之後轉行找工作的問題;第二,具體的學習方法;第三,講講學了python之後應用於辦公自動化和寫爬蟲。4600字。關於恰飯:不用猜了,這篇依舊沒有廣告。