在採集數據時,可能存在網頁沒有正常打開(所需數據未能加載出來,多刷新下能正常加載),頁面出現驗證碼、登錄等等防採集的情況,從而造成數據漏採。
針對這種情況,八爪魚推出了「重試+防封」(防封:重試時同時切換代理IP、重試時同時切換瀏覽器版本)功能。您可以根據網頁實際打開情況,在規則配置頁面,通過設置「重試」條件對網頁進行重新打開,即再次刷新頁面。對於防採集的頁面還可以設置「重試+防封」來正常打開網頁,解決數據漏採問題。通過配置相應的重試條件,在滿足條件時通過切換代理IP和瀏覽器版本來重新打開網頁,即使用新的IP和瀏覽器版本再次打開網頁。因為網站的防採集多數是通過IP和瀏覽器封鎖來實現的。
功能界面
在「打開網頁」和「點擊元素」的「高級選項」界面均可看到並配置此「重試」、「重試+防封」功能。
使用版本限制
目前本地採集、雲採集(需升級到旗艦版)均可使用此功能
「重試」功能,所有用戶可用,按照教程設置重試條件即可
「重試+防封」功能,除「優質代理」是專業版及以上用戶可用外,「隨機偽造IP」和「重試時同時切換瀏覽器版本」所有用戶可用
使用後是否可永久解決數據漏採問題?
使用「重試時同時切換代理IP」中的「優質代理」,需購買優質代理IP。購買代理IP後,我們無法保證重試+防封能100%正常打開網頁,解決數據漏採問題。實際使用過程中,您需要不斷調試+測試規則,方可穩定使用。
「重試」
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,但必須配合以下幾個重試參數執行。請注意,以下幾種判斷的情況任意一種出現時,八爪魚都將重試打開網頁。
① 當前網頁的網址/文本/XPath,包含/不包含
如果當前頁面網址/文本/XPath總是出現/不出現某個特殊內容,則使用此選項可以判斷有沒有打開預期頁面,需要重試
② 最大重試次數
為了避免無限制重複嘗試,請使用本選項限制最大重複嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
③ 時間間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該儘量避免設置過長的等待時間,因為這會影響採集速度
「重試+防封」
部分網頁是由於封禁了特定IP,所以不能正常打開網頁,可以嘗試通過「重試+防封」解決。「防封」不可單獨使用,需配合「重試」一起使用。當滿足某個「重試」條件觸發重試時,根據設置,啟動「重試時同時切換代理IP」或「重試時同時切換瀏覽器版本」。
進入規則配置頁面,下圖紅色區域為實際配置區域:
勾選「重試時同時切換代理IP」後,可選擇勾選「優質代理」,也可選擇勾選「隨機偽造IP」。「優質代理」收費,八爪魚提供優質代理IP服務,可用性高,防採集效果優良。「隨機偽造IP」免費,對於一些防採集技術水平不高的網站,可以通過隨機偽造IP功能進行突破。「隨機偽造IP」的副作用:偽造的IP來自全國各地,部分網站可能會根據不同IP顯示不同地區的頁面內容,啟用此項將會導致採集規則失效。您需要針對目標網站進行充分實驗,然後再決定是否啟用此功能。
勾選「重試時同時切換瀏覽器版本」後,再點擊右側的「設置瀏覽器列表」連結字樣,就可以配置採集過程中,瀏覽器版本(UA)的切換列表。實際配置過程中,請注意有些網站並不能在所有UA下都完美顯示,需要進行調試和觀察。
與任務設置頁面的智能防封有何異同
在八爪魚中,有兩個地方可以設置代理IP。一個是任務設置界面的「智能防封」,一個是規則配置界面的「重試+防封」。購買的優質代理IP,在任務設置界面的「智能防封」和規則配置界面的「重試+防封」中,均可使用。
建議:只在一處勾選使用代理IP,使網頁能正常打開進行數據採集即可。如果兩個地方都使用代理IP,代理IP的消耗量會很大。一般而言,重試時使用代理IP效果更佳。
如何收費
已購買的優質代理IP餘額有效期?
代理IP是一次性消耗使用的,比如購買500個代理IP,消耗一個少一個,剩下499個代理IP;如果帳戶一直為專業版及以上版本未過期,則這499個代理IP可一直使用,直到用完為止;如果帳戶降為免費版,則這499個代理IP無法使用,需要升級為專業版及以上版本方可使用。
代理IP存在一定的廢棄率,在啟用優質代理IP採集數據過程中,我們都會實時監測每個代理IP的可用性。代理IP採用預扣除的形式,對於廢棄的代理IP,會在規則執行完半小時內進行返還。