01安裝selenium庫
Python爬蟲常用的庫有:beautifulsoup(美麗湯)、requests、pyquery、selenium等等,某人云:站在巨人的肩膀上,那麼你離成功會更近。有一句從另一個方面講述了這個道理:人生苦短,請用Python,因為Python擁有強大的標準庫與第三方庫,你不用花時間去編寫,直接拿來用即可。本系列教程主要用的就是selenium庫來進行與瀏覽器交互,完成自動化處理,從而達到爬蟲的目的。講了這麼多,大家肯定迫不及待了,那麼咱們直接進入正題
拿起你們的雙手,運行CMD,來更新一下pip,這是安裝和管理軟體包的,如圖所示輸入:python -m pip install --upgrade pip到最後提示successfully installed代表安裝成功
然後我們再輸入pip install selenium來安裝selenium庫,如圖所示
到這裡還沒有結束,咱們還需要去下載一個Chrome的瀏覽器驅動:webdriver,仙道比較喜歡用chrome,像firefox、IE等均有對應的driver,進入某寶鏡像站(https://npm.taobao.org/mirrors/chromedriver?spm=a2c6h.14029880.0.0.735975d7rP4QEz)裡去找到對應版本的驅動(你Chrome的版本,建議更新至最新版本)
將下載來的zip解壓得到chromedriver.exe,將其移至Python的根目錄下即可,如圖所示
ps:可能有些同學找不到python的根目錄,一般默認安裝的情況下,會是在這裡:C:\Users\你的用戶名\AppData\Local\Programs\Python\Python37-32
02
在開始裡找到並打開PythonIDLE,輸入from selenium import webdriver(意思是從selenium庫裡引用瀏覽器驅動)回車後,咱們輸入w = webdriver.Chrome() 設一個w的變量,將其定義瀏覽器驅動運行Chrome,回車後:自動運行了一個谷歌瀏覽器,神奇有木有?!
咱們先練練手,如何登陸百度呢?很簡單,用get(url)即可,url代表網址,那麼網址為字符串,必須要用單引號包起來:'http://www.baidu.com' 好了開始吧,如圖輸入w.get('http://www.baidu.com') 回車後:剛才打開的谷歌瀏覽器自動登錄了百度首頁了,恭喜你離爬蟲又近了一步啦,第二課就到這兒嘍