.
聲明:本人只是分享一些床長人工智慧教程相關的免費pdf下載文檔而已,並非床長人工智慧網校的收費文章。尊重版權,支持原創!
更新
其實本文的初衷是為了獲取淘寶的非匿名旺旺,在淘寶詳情頁的最下方有相關評論,含有非匿名旺旺號。
可就在今天,淘寶把所有的帳號設置成了匿名顯示,,獲取非匿名旺旺號已經不可能了
前言
嗯,淘寶,它一直是個難搞的傢伙。
而且買家在買寶貝的時候大多數都是匿名評論的,大家都知道非匿名評論是非常有用的,比如對於大數據分析,分析某個寶貝的購買用戶星級狀況等等。
現在已經不能獲取非匿名了,此句已沒有意義了。
對於抓淘寶,相信嘗試過的童鞋都能體會到抓取它的艱辛,最簡單的方法莫過於模擬瀏覽器了,本節我們就講解一下利用抓取淘寶評論的方法。
項目提供了如下功能
輸入淘寶關鍵字採集淘寶連結並寫入到文件
從文件讀取連結,執行評論採集
將評論和旺旺號保存到中
記錄當前採集連結索引,保存進度
準備工作
首先你需要安裝,版本是
然後需要安裝的類庫。
安裝瀏覽器。
然後下載,是驅動瀏覽器的工具,需要把它配置到環境變量裡。
有的童鞋說,為什麼不用,因為為了防止淘寶禁掉我們,需要登錄淘寶帳號,登錄過程可能會出現奇奇怪怪得驗證碼,滾動條,手機驗證,如果用的話不方便操作,所以在這裡我們就使用了。
流程簡述
隨意打開天貓一個連結
示例連結
發現所有的評論都是匿名的。
即使這個用戶不是匿名評論的,那也會顯示匿名,淘寶這保密做的挺好。
接下來我們返回寶貝詳情頁面,然後一直下拉下拉,拉到最最後,可以看到有個看了又看板塊。
這是什麼?這是此寶貝相關寶貝以及它的一些評論。
看到了有非匿名用戶了,哈哈哈,淘寶加密了評論,推薦部分卻沒有加密。
嗯,就從這裡,我們把它們的旺旺號都抓下來,順便把評論和購買的寶貝抓下來。
現在已經全部改成了匿名,上述話已經無意義了。
那麼抓取完之後,保存到哪裡呢?為了便於管理和統計,在這裡保存到中,那麼就需要用到等庫。
嗯,動機就是這樣。
實戰爬取
抓取過程
首先我們觀察這個連結,在最初的時候,其實網頁並沒有加載最下方的看了又看內容的,慢慢往下滑動網頁,滑到最下方之後,才發現看了又看頁面才慢慢加載出來。
很明顯,這個地方使用了,由於我們用的是,所以這裡我們不能直接來模擬的,需要我們來模擬真實的用戶操作。
所以我們要模擬的就是,在網頁部分加載出來之後,模擬瀏覽器滑動到下方,使看了又看內容顯示出來,然後獲取網頁原始碼,解析之即可。
兩個至關重要的點,判斷網頁框架大體加載出來,模擬滑動直到最下方的內容加載出來。
首先,我們解決第一個問題,怎樣判斷網頁框架大體加載出來。
我們可以用網頁中的某個元素的出現與否來判斷。
比如
這一部分是否加載出來。
審查一下代碼,叫做,好,那就用它來作為網頁初步加載成功的標誌。
在中,我們用顯式等待的方法來判斷該元素是否已經加載成功。
已經成功加載出下方櫥窗推薦寶貝信息
接下來我們需要模擬下拉瀏覽器,不妨直接下拉到底部,再從底部向上拉,可能需要下拉多次,所以在這裡定義了一個下拉次數,那麼判斷看了又看正文內容是否出現依然可以用顯式等待的方法。
瀏覽器審查元素發現它的選擇器是
那麼可以用如下方法來判斷是否加載成功
下拉過程可以用執行的方法實現。
其中是下拉的次數,經過測試之後,每次拉動距離和是平方關係比較科學,具體不再描述,當然你可以改成自己想要的數值。
嗯,加載出來之後,就可以用來獲取網頁原始碼了。
用解析即可。
採集連結
剛才我們測試的連結是哪裡來的?我們不能一個個去找吧?所以,在這裡又提供了一個採集連結的過程,將採集的連結保存到文本,然後抓取的時候從文本讀取一個個連結即可。
所以在這裡我們模擬搜索的過程,關鍵字讓用戶輸入,將搜索的連結採集下來。
在此模擬了輸入文字,點擊按鈕和翻頁的功能。
下面的方法模擬了加載出搜索框之後輸入文字點擊回車的過程,將網頁的結果返回。
加載頁面失敗成功找到了搜索框,輸入關鍵字,沒有找到搜索框正在查詢該關鍵字查詢失敗
下面的方法模擬了翻頁的過程,到指定的翻頁數目為止
正在採集下一頁的寶貝連結,頁面下拉失敗找到了翻頁按鈕,。。。