最近在想著爬一些有趣的網站,豆瓣淘寶京東,這些網站大多都被爬爛了,然後就想著爬點簡單點的,例如某色網站啥的是吧,男生一般都會有幾個自己知道的網站,不過這裡就不討論細節問題了,直接擼代碼。
開發環境: python3.6.1+window64+idea14使用到的第三方庫:pymysql xlrd xlwt xlutils beautifulsoup requests聲明一個爬蟲類Crawer,requests負責抓取目標網頁信息
獲取到目標信息後,使用beautifulsoup解析
判斷添加到資料庫,這裡我們只添加到xls,最終文件想要的私聊
現在寫requests爬取數據:
我們把保存數據的操作寫了,最後再把涉及到html解析的部分補上來。。
最後就到獲取到的html解析過程了:
使用谷歌瀏覽器F12-右鍵目標html代碼-copy-選擇copy selector,會得到目標代碼的html相對位置信息
body > div:nth-child(10) > div > ul > li:nth-child(1) > li
根據這些數據來進行beautifulsoup定位
okay,寫完,我是不會告訴你們網址的。。。23333333
作者:MarcoHorse
源自:http://www.jianshu.com/p/b39e58dbde46
聲明:文章著作權歸作者所有,如有侵權,請聯繫小編刪除