Web 爬蟲現已合法?

2021-01-09 CSDN

技術無罪?江湖傳言,網際網路上50%以上的流量都是由爬蟲創造的,很多人都表示:無爬蟲就無網際網路的繁榮。也正因為此,網上各種爬蟲教程風靡不絕,惹各路大神小白觀之參與之。但是,無節制的背後往往隱藏著風險,類似「只因寫了一段爬蟲,公司200多人被抓!」、「程式設計師爬蟲竟構成犯罪?」等報導也時有發生。關於爬蟲合法性的討論,CSDN也在此前的《爬蟲到底違法嗎?這位爬蟲工程師給出了答案》、《不要在爬蟲犯罪的邊緣瘋狂試探!》等文章中進行了探討——但是,關於爬蟲的爭論一直甚囂塵上。

近日,美國法院駁回 LinkedIn 針對分析公司 HiQ 抓取其數據的申訴一事件,似乎又為網絡爬蟲的自由添磚加了瓦。決議表明:任何可公開獲得且未經版權保護的數據都可供抓取!可以說,這是數據隱私和數據監管時代的歷史性時刻。那麼,作為開發者的你,如何看到這一事件呢?關於爬蟲的風險性又該怎麼定論?

作者 | Tom Waterman

整理 | 彎月,責編 | 郭芮

以下為譯文:

2019年末,美國上訴法院駁回了 LinkedIn 針對分析公司 HiQ 抓取其數據的申訴。

這項決議是數據隱私和數據監管時代的歷史性時刻。這項決議表明,任何可公開獲得且未經版權保護的數據都可供網絡爬蟲自由抓取。

但是抓取數據的商業用途仍然有限

然而,這項決議並沒有授予 HiQ 或其他網絡爬蟲將抓取獲得的數據用於商業目的的自由。

例如,網絡爬蟲可以在 YouTube 上搜索視頻標題,但由於這些視頻已獲得版權,因此不可以將 YouTube 視頻轉發到自己的網站上。

一般來說,無論你以何種方式獲取數據,數據(包括視頻或音樂之類的媒體文件數據)的版權依然有效。

某些形式的網頁爬蟲仍然是非法的

這項決議也沒有賦予網絡爬蟲自由地從需要身份驗證的站點獲取數據的權利。

例如,根據規定網絡爬蟲不可以登錄到 Facebook 並下載用戶的數據。

該規則不包括那些要求用戶在認證之前必須同意使用條款的網站,因為通常這些服務條款都會禁止諸如自動收集數據之類的活動。

但是,由於公開站點無法要求用戶在訪問數據之前同意任何服務條款,因此用戶可以自由使用網絡爬蟲程序從站點收集的數據。

各個網站仍然可以使用技術來限制網絡爬蟲

儘管如今各個公司不太可能通過法律途徑應對網絡爬蟲程序,但他們仍然可以通過其他方式限制網絡爬蟲。

例如,各個網站可以使用「限速」等技術來防止爬蟲程序一次下載太多網頁。此外,各個網站還可以使用 CAPTCHA 等技術來測試是用戶還是網絡爬蟲正在請求該頁面。

這些技術通常用於防止惡意機器人導致網站超載,引起網站崩潰。但是,這些技術也可以廣泛用於限制網絡爬蟲的自動抓取。

LinkedIn可能會進一步上訴

儘管美國上訴法院駁回了LinkedIn的請求,但他們可能還有最後一步棋:向美國最高法院提出上訴。

美國最高法院有權推翻上訴法院的判決,而且還可以撤銷網絡爬蟲公開使用非版權數據的合法化。但是,並非所有上訴至最高法院的決定都能得到實際的審查。

但是,我們仍然可以認為最高法院很可能會審查本案的裁決。畢竟數據政策和相關的隱私問題是相對較新的法律,而且會對 LinkedIn 等公司產生重大的商業影響。

原文:https://towardsdatascience.com/web-scraping-is-now-legal-6bf0e5730a78

作者:Tom Waterman,數據科學家@Facebook。

相關焦點

  • 爬蟲究竟是合法還是違法的?
    來源:格隆匯作者:純潔的微笑來源:純潔的微笑據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • 通付盾Web爬蟲防火牆與中科曙光伺服器成功完成國產化適配
    近日,通付盾最新升級的網絡應用安全防護產品「通付盾爬蟲防火牆軟體」與中科曙光H系列伺服器完成兼容適配聯合測試,適配檢測結果顯示,通付盾爬蟲防火牆軟體在兼容性、可靠性、穩定性及軟體性能等方面均以優異的成績達到適配標準,滿足用戶應用需求。
  • 網宿科技安全報告 爬蟲肆虐 Web應用攻擊增長翻番
    交通出行受惡意爬蟲攻擊最嚴重當前,爬蟲流量遍布於網際網路各個行業,不管是航空、酒店抑或是政府機構。更可怕的是,爬蟲流量正在以驚人的速度迎頭趕上人類在網際網路上真實的訪問流量 。2018年上半年,網宿安全平臺共監測並攔截了25.86億次有針對性的爬蟲攻擊事件,環比增長約55.79% 。
  • 手把手教你寫網絡爬蟲:Web應用的漏洞檢測實戰篇!
    作為剛入門的安全小白,對其工作原理產生了濃厚的興趣,逐漸深層剝離Web應用漏洞檢測的本質是網絡爬蟲技術與漏洞檢測技術的結合,網絡爬蟲主要爬取網站結構並收集可能存在的攻擊面,漏洞檢測技術則是在爬蟲結果的基礎上進行針對性的修改並重放,根據伺服器響應進行判斷。在本篇文章中,我們將重點介紹爬蟲技術方面的知識。
  • 在搜尋引擎領域,有哪些常用的網絡爬蟲?
    但業界內很少叫蜘蛛的,一般都叫做網絡爬蟲,Spider只是個別爬蟲的名稱。 網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從Internet網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
  • Python破解反爬蟲:最新反爬蟲有道翻譯中英文互譯破解,附代碼
    由於爬蟲的出現,導致很多網頁都設置了反爬蟲機制:常見的反爬蟲機制就是在客戶端發出請求的時候,在請求的內容中新增一些內容,而這些內容都是經過「加密的」,每次請求都是不同的,這樣就導致了很多傳統的爬蟲失效。
  • 第7天|10天搞定Python網絡爬蟲,Scrapy爬更快
    說了好幾天用requests進行網絡爬蟲編程了,是時候換成專業,高效率的爬蟲庫--Scrapy了。我之所以一開始用requests,就想告訴你,網絡爬蟲,方法挺多的,合適就行。還有在之前說的各種解析庫,在Scrapy中,也會經常用到,特別是Lxml的XPath。如果之前不說,留到現在還得說。
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    Python爬蟲是什麼?Python爬蟲是什麼?Python爬蟲是由Python程序開發的網絡爬蟲(webspider,webrobot),是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據,也就是自動抓取數據。為什麼需要用爬蟲?
  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • 數據從業者必讀:抓取了一千億個網頁後我才明白,爬蟲一點都不簡單
    成立於2010年的Scrapinghub是領先的數據析取公司之一,也是當今最健壯和流行的web爬蟲框架Scrapy的作者。目前Scrapinghub每月抓取許多全球最大型電子商務公司的頁面數超過80億(其中30億是產品頁面)。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    資料庫 14天天生鮮Django項目 15flask框架 17愛家租房項目 18通用爬蟲模塊使用 19Mongodb資料庫 20爬蟲scrapy框架及案例 21數據分析 22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲
  • 武漢Python Web全棧開發工程師修煉價格_web前端開發培訓哪家好...
    【課程介紹】課程以python語言為主導,進行web服務相關的全棧開發,包含後端伺服器開發,部署,監控;web前端開發,前後端不分離模板模式開發,前後端分離,單獨前端部署方案。在web項目以外的定時任務讓學員對非web項目有一個基本的了解。
  • AI足球大數據爬蟲分析(golang)
    /foot-web && go mod tidy手動創建資料庫資料庫名為: foot配置資料庫連接.主要入口build_linux.bat 一鍵打包linux發布程序build_windows.bat 一鍵打包windows發布程序FC000.go 運行beegoFC001DBInit.go 資料庫表同步初始化FC002Analy.go 運行結果分析FOOT000.go linux入口(主要使用)FOOT000Cmd.go windows入口(主要使用)FS000.go 運行數據爬蟲
  • 我是如何通過Web爬蟲找工作的
    我開發了網絡爬蟲工具,這能夠收集西雅圖100英裡範圍內軟體工程師相關工作的郵箱地址,並回覆郵件。代碼截圖我在原始腳本之上添加了些附加組件,讓爬取更為輕鬆。例如,我將結果保存到CSV和HTML頁面中,以便我能快速進行解析。
  • 玩「爬蟲」可能觸犯的三宗罪
    自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。 爬蟲技術違規嗎?開展業務到底存在哪些風險點?
  • 通付盾Web爬蟲防火牆聯合中科曙光伺服器打造全新國產化適配新舉措
    來源:北國網前一段時間,通付盾爬蟲防火牆軟體與中科曙光H系列伺服器聯合完成的最新升級網絡安全產品,經過檢測顯示,其在兼容性、可靠性、穩定性及軟體性等方面的表現都非常的優秀,可以為用戶提供更好的使用體驗。
  • Python,爬蟲開發的不二選擇
    如果我們把網際網路比作一張大的蜘蛛網,數據便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,沿著網絡抓取自己的獵物(數據)。爬蟲指的是:向網站發起請求,獲取資源後分析並提取有用數據的程序。如今,人類社會已經進入了大數據時代,如何高效的獲取數據,已經成了各個網際網路公司的技術研發重點,掌握爬蟲技術已經成為了大數據公司技術人員不可或缺的一項技能。
  • Python爬蟲實戰教程——爬取xkcd漫畫
    0 前言Python版本:3.7.0開發工具:IDLE(Python 3.7 64-bit)、Google Chrome1 網絡爬蟲(web crawler)?網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取網絡信息的程序或者腳本。
  • Python——網絡爬蟲、登錄、代理設置
    在web中,session主要用來在伺服器端存儲特定用戶對象會話所需要的信息。2、cookie和session產生的原因http協議是一個無狀態協議,在特定操作的時候,需要保存信息,進而產生了cookie和session。
  • 網貸領域爬蟲,既非原罪者也非無辜者
    在化解「網際網路金融風險」的目標下,網貸公司由於合規與監管困難而被逐漸清退,而很多討論認為不當使用爬蟲構成其中一個重要風險。網貸公司如果涉及暴力催收、設定不合理利率侵犯金融消費者合法權益而被追究民事、行政乃至刑事責任理所應當。但是令人疑惑的是,作為技術手段的爬蟲如何成為風口浪尖上的打擊對象?