全文共2618字,預計學習時長7分鐘
圖源:unsplash
「網際網路上有很多數據」,這麼說太保守了。事實上,2020年,「數字宇宙」預計將擁有40萬億字節或40澤字節(zettabytes)的信息,一個澤字節擁有的數據足以填滿大約五分之一曼哈頓大小的數據中心。
可供分析的信息如此之多,將收集數據的任務留給AI就顯得合情合理了。網絡機器人能以令人難以置信的速度抓取網頁,提取所需的相關信息。不過,儘管許多數據科學家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網絡人工智慧日益普及,網絡機器人還是逐漸被汙名化了。
對人工智慧的大部分負面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時候也要提防著AI。此外,某些web用戶以不道德的方式使用網絡機器人,導致即便是專業、誠心使用數據的人也備受打擊。
對於許多專業人士來說,網頁抓取仍然是必不可少的工具。那麼,對於與網絡機器人的汙名,我們能做些什麼呢?
首先,網頁抓取是什麼
你可以簡單地把網頁抓取行為理解為數據提取。儘管數據科學家和其他專業人士使用抓取來分析非常複雜的數字信息棧,但從網站複製粘貼文本的行為本身就可以被認作一種簡單的抓取形式。
然而,就算可以在網站上盡情訪問,由於可用信息太多,可能也要花費非常長的時間從來源處收集數據。大多數情況下,網頁抓取都是留給人工智慧來完成的,人工智慧會將檢索到的數據進行透徹分析以達到各種目的。雖然這對網絡爬蟲來說極為便利,但網站所有者和旁觀者都非常擔心人工智慧在網絡上的「濫用」
使用網絡機器人進行網頁抓取會更好嗎
有這麼多的信息要分析,求助於人工智慧來收集數據理所當然。實際上,谷歌本身就是為感興趣的各方提供網頁抓取工具最可信的來源之一。例如,你可以使用其數據集搜尋引擎快速訪問認為可以免費使用的數據,甚至能定製搜索,以了解這些信息是否可用於商業用途。完成這些任務只需要幾秒鐘。
如果沒有谷歌AI如此高效檢查每個網站的相關數據,恐怕無法實現這樣的速度。這是一個利用人工智慧以純道德的方式為研究或商業收集有用信息的完美例子,其速度之快也證明了「網絡機器人」如何讓執行網頁抓取任務變得如此容易。
人工智慧流量變得如此普遍,如今已經佔到網際網路流量的一半以上。即便如此,我們還是容易忽視其造成的影響。
機器人程序流量報告
有人認為,人工智慧在網際網路流量中佔主導地位令人擔憂。讓這一問題變得更糟的原因是,有一小部分人工智慧流量是由「糟糕的機器人」組成的。即使抓取的意圖很好,方法也合乎道德,人工智慧的汙名還是不可避免。
使用網絡機器人來處理大量數據是合理的步驟。除了人工智慧,在網頁數據抓取時考慮其他必要工具也很重要。
代理如何提供幫助
使用代理進行網絡抓取有很多優點,匿名性正是其中之一。比方說,如果你想對一個競爭品牌進行調研,並利用這些信息來確定改善自己公司發展的最佳方案,你可能不想讓別人知道自己訪問了他們的網站。在這種情況下,使用代理既能訪問、檢查數據,又不會洩露身份,兩全其美。
做進一步探討之前,先來快速回顧一下代理伺服器:
· 代理伺服器的設計目的是充當用戶和web伺服器之間的中間人。
· 功能多樣:個人和公司都能使用代理伺服器來滿足特定需求。
· 代理的一個常見用途與網頁抓取有關:使用代理伺服器可以繞過網站管理員設置的限制,從而大量收集數據。
那麼問題來了,為什麼要設置限制呢?這些數據不是可以在網上免費獲得嗎?對人類用戶來說,是的。這裡有一個典型的例子。價格聚合商的整個商業模式是建立在準確信息之上的,它為「我在哪裡能買到價格最低的X產品?」這個問題提供確切答案。
儘管這對客戶來說是一個省錢的好機會,但供應商對其他公司窺探他們的數據並不太感興趣,原因是聚合器的網絡爬蟲軟體(通常稱為「網絡機器人」或「網頁蜘蛛」)給網站帶來了額外的負載。因此,如果網站管理員懷疑給定的網絡活動不是由真正的用戶進行的,就會限制用戶訪問網站。
代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會顯示你是來自X國的真正用戶,你可自定義來自哪個國家。對住宅代理的需求很簡單:(可疑的)網絡機器人活動通常來自某些國家,所以即使是來自這些國家的真正用戶也經常遇到地域限制。
此外,當你試圖從數據源收集數據、卻因各種原因無法訪問時,使用代理尤其有用。在網絡抓取時有很多使用代理的方法,但為了在數字社區中建立信任,我們建議你堅持使用那些可以建立品牌信任和權威的方法。
圖源:unsplash
利用人類可見性和可信賴的品牌來對抗人工智慧的汙名
目前,人工智慧發展速度確實超過了上網人數增長速度。不過,網際網路在未來幾年將會如何發展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉,也不能斷定它代表著一種固有的消極趨勢。
要想扭轉網絡上有關人工智慧流量的負面言論,最佳辦法就是讓網際網路上的人工智慧使用恢復人性化。還需注意,要以建立信任的方式使用人工智慧,無需考慮太多。
· 堅持使用由高認知度、可信賴的品牌提供的可信賴的產品和服務。
· 堅持合乎道德的網頁抓取操作。不要濫用信任,忽略網站上robots.txt文件,或在短時間內大量使用機器人程序。
· 以專業、負責的方式使用數據。核實你是否擁有將抓取獲得的數據用於預期目的的權限。
· 多多普及人工智慧。多去和其他人說說如何以及為什麼使用網絡抓取,讓人們對網絡抓取有更深的認識。人們對使用人工智慧獲取、研究大量數據的好處了解得越多,對網頁抓取和網絡機器人持負面看法的可能性就越小。
通過純粹的人工操作來手動訪問網站數據或許讓人很放心,但由於信息太多,這幾乎不可能。可用的數據量幾乎無窮無盡,使用人工智慧是我們瀏覽網站和儘可能高效分析數據的最佳手段。不過,它或許還需要再加點兒「人情味」。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範