認識網頁抓取:一切都交給AI,還是加點「人情味」?

2020-10-23 讀芯術

全文共2618字,預計學習時長7分鐘


圖源:unsplash


「網際網路上有很多數據」,這麼說太保守了。事實上,2020年,「數字宇宙」預計將擁有40萬億字節或40澤字節(zettabytes)的信息,一個澤字節擁有的數據足以填滿大約五分之一曼哈頓大小的數據中心。

可供分析的信息如此之多,將收集數據的任務留給AI就顯得合情合理了。網絡機器人能以令人難以置信的速度抓取網頁,提取所需的相關信息。不過,儘管許多數據科學家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網絡人工智慧日益普及,網絡機器人還是逐漸被汙名化了。

對人工智慧的大部分負面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時候也要提防著AI。此外,某些web用戶以不道德的方式使用網絡機器人,導致即便是專業、誠心使用數據的人也備受打擊。

對於許多專業人士來說,網頁抓取仍然是必不可少的工具。那麼,對於與網絡機器人的汙名,我們能做些什麼呢?

首先,網頁抓取是什麼

你可以簡單地把網頁抓取行為理解為數據提取。儘管數據科學家和其他專業人士使用抓取來分析非常複雜的數字信息棧,但從網站複製粘貼文本的行為本身就可以被認作一種簡單的抓取形式。

然而,就算可以在網站上盡情訪問,由於可用信息太多,可能也要花費非常長的時間從來源處收集數據。大多數情況下,網頁抓取都是留給人工智慧來完成的,人工智慧會將檢索到的數據進行透徹分析以達到各種目的。雖然這對網絡爬蟲來說極為便利,但網站所有者和旁觀者都非常擔心人工智慧在網絡上的「濫用」

使用網絡機器人進行網頁抓取會更好嗎

有這麼多的信息要分析,求助於人工智慧來收集數據理所當然。實際上,谷歌本身就是為感興趣的各方提供網頁抓取工具最可信的來源之一。例如,你可以使用其數據集搜尋引擎快速訪問認為可以免費使用的數據,甚至能定製搜索,以了解這些信息是否可用於商業用途。完成這些任務只需要幾秒鐘。

如果沒有谷歌AI如此高效檢查每個網站的相關數據,恐怕無法實現這樣的速度。這是一個利用人工智慧以純道德的方式為研究或商業收集有用信息的完美例子,其速度之快也證明了「網絡機器人」如何讓執行網頁抓取任務變得如此容易。

人工智慧流量變得如此普遍,如今已經佔到網際網路流量的一半以上。即便如此,我們還是容易忽視其造成的影響。

機器人程序流量報告


有人認為,人工智慧在網際網路流量中佔主導地位令人擔憂。讓這一問題變得更糟的原因是,有一小部分人工智慧流量是由「糟糕的機器人」組成的。即使抓取的意圖很好,方法也合乎道德,人工智慧的汙名還是不可避免。

使用網絡機器人來處理大量數據是合理的步驟。除了人工智慧,在網頁數據抓取時考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進行網絡抓取有很多優點,匿名性正是其中之一。比方說,如果你想對一個競爭品牌進行調研,並利用這些信息來確定改善自己公司發展的最佳方案,你可能不想讓別人知道自己訪問了他們的網站。在這種情況下,使用代理既能訪問、檢查數據,又不會洩露身份,兩全其美。

做進一步探討之前,先來快速回顧一下代理伺服器:

· 代理伺服器的設計目的是充當用戶和web伺服器之間的中間人。

· 功能多樣:個人和公司都能使用代理伺服器來滿足特定需求。

· 代理的一個常見用途與網頁抓取有關:使用代理伺服器可以繞過網站管理員設置的限制,從而大量收集數據。

那麼問題來了,為什麼要設置限制呢?這些數據不是可以在網上免費獲得嗎?對人類用戶來說,是的。這裡有一個典型的例子。價格聚合商的整個商業模式是建立在準確信息之上的,它為「我在哪裡能買到價格最低的X產品?」這個問題提供確切答案。

儘管這對客戶來說是一個省錢的好機會,但供應商對其他公司窺探他們的數據並不太感興趣,原因是聚合器的網絡爬蟲軟體(通常稱為「網絡機器人」或「網頁蜘蛛」)給網站帶來了額外的負載。因此,如果網站管理員懷疑給定的網絡活動不是由真正的用戶進行的,就會限制用戶訪問網站。

代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會顯示你是來自X國的真正用戶,你可自定義來自哪個國家。對住宅代理的需求很簡單:(可疑的)網絡機器人活動通常來自某些國家,所以即使是來自這些國家的真正用戶也經常遇到地域限制。

此外,當你試圖從數據源收集數據、卻因各種原因無法訪問時,使用代理尤其有用。在網絡抓取時有很多使用代理的方法,但為了在數字社區中建立信任,我們建議你堅持使用那些可以建立品牌信任和權威的方法。

圖源:unsplash


利用人類可見性和可信賴的品牌來對抗人工智慧的汙名

目前,人工智慧發展速度確實超過了上網人數增長速度。不過,網際網路在未來幾年將會如何發展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉,也不能斷定它代表著一種固有的消極趨勢。

要想扭轉網絡上有關人工智慧流量的負面言論,最佳辦法就是讓網際網路上的人工智慧使用恢復人性化。還需注意,要以建立信任的方式使用人工智慧,無需考慮太多。

· 堅持使用由高認知度、可信賴的品牌提供的可信賴的產品和服務。

· 堅持合乎道德的網頁抓取操作。不要濫用信任,忽略網站上robots.txt文件,或在短時間內大量使用機器人程序。

· 以專業、負責的方式使用數據。核實你是否擁有將抓取獲得的數據用於預期目的的權限。

· 多多普及人工智慧。多去和其他人說說如何以及為什麼使用網絡抓取,讓人們對網絡抓取有更深的認識。人們對使用人工智慧獲取、研究大量數據的好處了解得越多,對網頁抓取和網絡機器人持負面看法的可能性就越小。

通過純粹的人工操作來手動訪問網站數據或許讓人很放心,但由於信息太多,這幾乎不可能。可用的數據量幾乎無窮無盡,使用人工智慧是我們瀏覽網站和儘可能高效分析數據的最佳手段。不過,它或許還需要再加點兒「人情味」。


留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 從搜尋引擎角度分析網頁蜘蛛抓取內容的類別與過程
    從搜尋引擎的角度來看,網際網路上的網頁主要分為四類,即被抓取的網頁、被抓取的內容、可抓取的網頁和暗網。四類網頁,熟悉網頁分類顧名思義,爬網網頁是蜘蛛已經爬網的網頁內容。要爬網的網頁尚未爬網,但已進入等待列表。爬行是一個尚未被發現但已經存在的網頁。暗網是一個網頁,搜尋引擎無法通過自爬網找到一個連結,需要手動提交。平時我們分析的頁面抓取主要是非黑網絡中的頁面抓取。每個搜尋引擎在黑暗的網絡抓取都有自己獨特的算法。我們不做太多分析。搜尋引擎收錄有兩種主要策略,即廣度優先策略和深度優先策略。
  • 搜尋引擎的工作原理:了解抓取工具所需的一切
    儘管Google和其他搜尋引擎都對搜索結果背後的機制保密,但營銷人員卻從了解搜尋引擎的工作原理中受益。了解搜尋引擎如何查找,組織和選擇結果意味著您可以更好地優化網頁排名。一、搜尋引擎的工作原理:基礎知識「搜尋引擎」是幾種相互關聯的機制,這些機制可以根據您在搜索欄中輸入的文字一起識別網頁內容(圖像,視頻,網站頁面等)。
  • 數據從業者必讀:抓取了一千億個網頁後我才明白,爬蟲一點都不簡單
    流行的Python爬蟲框架Scrapy開發者Scrapinghub分享了他們抓取一千億個網頁後的經驗之談。現在爬蟲技術似乎是很容易的事情,但這種看法是很有迷惑性的。開源的庫/框架、可視化的爬蟲工具以及數據析取工具有很多,從網站抓取數據似乎易如反掌。然而,當你成規模地在網站上抓東西時,事情很快就會變得非常棘手。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    2、為什麼要懂HTMLHTML是一種用於創建網頁的標記語言,該網頁嵌入了諸如文本和圖像之類的數據,這些數據可以被瀏覽器讀取並呈現為我們看到的網頁。這就是為什麼我們首先爬網HTML,然後解析數據的原因,因為數據隱藏在HTML中。
  • 谷歌收錄查詢方法大全,如何讓Google快速收錄網頁?
    加快Google收錄網頁的辦法 1.建立適合Google搜尋引擎抓取的網站 Google蜘蛛,在抓取網站的時候,是跟著連結去抓取的。 3.使用Google站長工具 將網站添加到Google站長工具中,使用站長工具後臺的抓取功能。
  • title是什麼意思_HTML網頁標籤_SEO標題優化
    ,也是最為基礎的開始(搜索結果展示頁面直接呈現給用戶),title優化大家都知道,網站的關鍵詞布局(除內容外)涉及到標題、><body>內容</body></html>二、title形式tltle標籤成對出現在網站源文件內保存網站網頁出現的文件名就是網站title標籤內的文字顯示在瀏覽器的標題欄搜尋引擎抓取頁面,了解頁面信息,
  • 爬蟲,爬到一切你想要的,乾貨總結!
    本系列將由淺入深給大家介紹網絡爬蟲,一步一步教大家學會怎麼分析請求,抓取數據,真正意義上爬取一切你想要的!本章介紹:爬蟲簡介以及如何分析網絡請求一、什麼是爬蟲?能做什麼?通俗點講,就是使用程序請求網頁/接口,得到數據並做合理的處理,轉換為你想要的數據格式。常見的爬蟲一般使用Python來編寫,但不僅限於此,各種語言都能拿來做爬蟲,本系列主要以C#語言來展開對爬蟲的介紹。
  • 原始碼 從GeneCards資料庫批量抓取基因組織特異性信息
    對於基因的研究現在已經如火如荼的進行中,很多資料庫都涉及到豐富的基因相關注釋信息,例如基因功能,基因互作,基因相關疾病,基因相關的藥物,基因序列,結構信息等等。然而設計到基因組織分布的信息卻非常缺乏。基因的組織特異性信息雖然用途不如上述信息廣泛,但是在特定情況下可以發揮重要的作用。
  • DNF男街霸TB5最新加點 男街霸86二覺刷圖加點推薦
    DNFtb5改版將在11月19日到了,男街霸剛迎來二次覺醒後,在新版本中男街霸tb5最新刷圖加點該如何選擇呢?男街霸86級二次覺醒刷圖加點怎麼加?這就來先睹為快吧!男街霸最新加點:86二覺刷圖加點推薦等級:86SP:全部11010 已用10655 剩餘355TP:全部37已用37剩餘0
  • 郝玉靜:動物情和人情味
    綜上所述,動物的確是有「人情味」的。而身為高級動物的人類,如果沒有「人情味」,那他的靈魂必定是一片空虛。 人應當有情有義.情,是人和動物區別的標誌之一。對於一個醜人,你是容易心軟呢,還是偏向無情呢。 有情無情,從本身來說,是有一定的時間成本的,有情自然會投入精力,投入時間。俗話說,小孩才分對錯,成年人眼裡只有利弊。成年人自然會考慮投入,考慮精力,自然也沒有那麼多細膩的心思去考慮對方的感受。
  • AI算法入駐Google搜尋引擎,詞條再冷也可手到擒來!
    網際網路的能力是強大的,它幾乎囊括了一切我們日常生活中想要獲得的信息,但有時候因搜索詞條過於冷門而找不到信息時,大多數人也只能雙手攤開,表達自己的無奈。在這個bug的前提下,搜尋引擎人工智慧化成為目前不可阻擋的趨勢。
  • 谷歌:搜索結果移動版優先已涵蓋全球一半網頁
    騰訊科技訊 據國外科技媒體報導,谷歌日前宣布,在其全球網頁搜索結果中,超過一半的網頁使用移動版優先的索引和網頁抓取模式。這是谷歌在搜索結果中傾向於移動版而不是電腦版的一個重要裡程碑。據報導,谷歌這個項目的計劃已經醞釀多年。
  • 逾三成移動應用抓取用戶隱私 智慧型手機安全堪憂
    3.15前夕,一則關乎手機用戶隱私權益的敏感數據引起各方高度關注,DCCI網際網路數據中心在今天舉行的一場小範圍研討中透露:66.9%的智慧型手機移動應用在抓取用戶隱私數據,而其中高達34.5%的移動應用有「隱私越軌」行為——性質過分的越界抓取,在與本身功能毫不相干的情況下,獲取智慧型手機用戶的簡訊記錄、通話記錄、通訊錄等敏感個人信息;這些抓取行為並非相關移動Apps為用戶提供的應用服務功能所必需
  • Python新手爬蟲,簡單製作抓取廖雪峰的教程的小爬蟲
    先看幾張對比圖,分別是官網截圖和抓取下來的 txt文檔的截圖,不算那難看的排版的話,內容是一致的,圖片用 url替換了!在整個抓取過程中,除了普通的文本以外,還需要處理 3個地方,分別是:代碼、圖片、視頻,因為目前只寫到了文本文件,所以直接抓到圖片或者視頻的地址,標識清楚後寫入到 txt,這裡可以在進一步,寫到 word/pdf 或者其他文件,留待以後改進!
  • SEO的索引和抓取是什麼意思,外貿自建站如何優化索引和抓取?
    抓取和索引這兩件事就是SEO領域中簡單而又重要的觀念,熟悉了解它們之後便可以優化搜尋引擎蜘蛛抓取、索引你的網站。 索引完成之後,用戶才能在搜尋引擎中找到你的網站,簡單來講,先有抓取才會有索引,通過Google站長工具,我們可以看到網站被抓取、索引的情況。 抓取和索引是完全不同的兩件事,有可能你的頁面被Google正常抓取,卻沒有將頁面索引到搜尋引擎上,這樣的情況一般來講就很有可能是你的網站有違規的行為,又或者排名太差,在搜尋引擎上根本找不到自己的頁面。
  • 網站優化層級結構介紹,促進蜘蛛深度抓取
    網站的層級深度是一個條件,利於蜘蛛爬行的條件,做百度優化,網站首先需利於蜘蛛,層級越淺越利於蜘蛛爬行抓取,這個是根據普通站點而概敘的內容。二、建立左側導航欄菜單某些電商網站都會有左側導航菜單,可以說是考慮到用戶的點擊習慣,另外是因為蜘蛛爬行頁面時會根據頂部的左上角開始爬行,能有效節約蜘蛛的爬行抓取成本,左側導航欄簡單清晰,頁面簡潔給人一種舒適感。
  • AI界的State of the Art都在這裡了
    項目地址:https://www.stateoftheart.ai/正如這些學生所言:「我們希望將所有資源都高效地分配到如今迅猛發展的 AI 和 ML 領域。」因此這個項目可以更高效地利用手中的資源,包括將時間、精力和計算資源都投入到真正的當前最優方法和結果上。
  • 未來科技的發展,人工智慧還是熱點嗎?AI的意義是什麼呢?
    當然人工智慧榜上有名,ai的意義個人認為是人類在已有知識用計算機智能算法去重複演練的的一個過程。無論是簡單還是複雜的事情,人類選擇讓ai去做的事情都是人類已經反覆實驗反覆測試過的,能讓人類去做更有意義的事情,人類的文明也將進入一個新時代。