有關數據爬取的三大法律案件

2021-01-12 CDA數據分析師

出品 | CDA數據分析師

在當下大數據時代,數據具有非常大的價值,許多企業都需要使用它,無論是以商用形式還是非商用形式。而Web抓取是最常見的數據獲取方式之一,Web抓取使用漫遊器自動訪問和收集公共可用的數據。許多網站和服務出於數據安全及利益的考慮,會禁止在其ToS中進行數據抓取,網頁抓取的合法性目前仍然是一個灰色地帶,然而到目前為止,全國各個國家關於數據爬取的法律條文都不太一致,強制實施程度也大不相同,因此進行數據抓取業務需要保持警惕,並應該根據過往一些法律案件判斷其合法性。這就是為什麼我們有必要討論一些對當前Web數據抓取條例起到開創性作用的案例,讓我們回顧一下有關當前Web數據抓取比較典型的三大法律案件。

案例一:Craigslist vs 3Taps

Craigslist和3Taps之間的案例為數據爬取的合法性以及企業拒絕訪問公開數據的權利設置了許多先例。它涉及以下三個公司:Craigslist,3Taps和PadMapper。

Craigslist是一個網站和平臺,允許用戶發布各種不同類別的分類廣告。用戶可以在Craigslist上做任何廣告,其用戶量也非常大。Craiglist使用的關鍵內容之一是找到住房以及備用房間。

PadMapper是一家匯總房屋廣告並允許用戶搜索其附近可用房屋的公司。為了實現此目的,PadMapper需要從各種不同的來源中抓取數據,Craigslist是PadMapper抓取數據的眾多站點之一。在2012年,PadMapper使用Craigslist生成的地圖可以顯示可用房間的位置。3Taps也是另一項業務,作為日常操作的一部分,它也在抓取Craigslist的數據,這其中涉及到了從公開可用的數據集中收集大量數據。

PadMapper和3Taps都在他們從Craigslist收集到的數據中獲得利益,儘管這種方式是間接的。但是,已抓取的數據是公開可用的,並且Craigslist並未嘗試限制對數據的訪問。Craigslist的創始人Craig Newmark曾經寫了一篇文章,哀嘆其服務的存在使Craigslists自己的資源非常緊張,並指出:「我們只考慮消耗大量寬帶的服務」。2012年6月,Craigslist向PadMapper發送了一封停止訪問信,要求他們之後不能再從該網站抓取有關房地產列表的數據。

Craigslist阻止了PadMapper和3Taps這兩家公司的IP位址訪問該網站,從而有效地切斷了他們對Craigslists數據的訪問及獲取。Craigslists認為此操作是對數據的訪問的進行了限制,換句話說,他們採取的立場是,在阻止這些企業的IP位址之後,應將他們對原本可以公開獲得的數據的訪問視為已受到密碼保護。

根據《計算機欺詐和濫用法》,未經授權訪問數據是非法的,而訪問公開數據不是非法的,因此此案的重點是Craigslist是否可以使用該行為來防止個人用戶訪問其他公開數據。對於整個數據抓取行業,這是一個重要的問題。2012年,該行業還處於一個相對較早的階段,在過去的七年中,它的發展無疑已經相當可觀。

3Taps使用代理服務繞過了IP位址,從而繼續抓取Craigslist網站上的數據。PadMapper然後也開始通過3Taps間接訪問Craigslist上的數據。然後,Craigslist便對這兩家公司的違法行為進行起訴。他們聲稱其違反了CFAA,並且侵犯了Craigslist的版權。3Taps方面則並不認為它違反了CFAA,因為相關數據是公開可用的,這意味著每個人都是法律上的授權用戶。同時,他們聲稱,實施模糊的訪問限制可能會帶來一些負面影響,這可能給其他濫用其任意撤銷數據訪問能力的企業打開了大門。

法院站在Craigslist的立場上,根據CFAA確認,智慧財產權的封鎖,停止和終止都可以單獨視為充分的撤銷訪問通知。最後,該案在庭外和解,Craigslist收到了100萬美元,這筆款項捐贈給了電子前沿基金會(Electronic Frontier Foundation),他們對Craigslist此案提供了很大的幫助。

這種情況提供的先例是,如果網站阻止了您的IP位址,如果繼續通過代理或VPN訪問其伺服器,根據CFAA則可能會被視為違反法規行為,並被歸類為未經授權的數據訪問。顯然,這對於許多刮板企業來說是站不住腳的。

案例二:LinkedIn vs HiQ

LinkedIn與hiQ Labs(矽谷的數據抓取公司,與3Taps公司性質類似)之間的爭執與上述情況相呼應。爭議本質上非常相似,圍繞的是LinkedIn是否可以阻止創業公司訪問LinkedIn上公開可用的數據。

就像Craigslist一樣,LinkedIn向hiQ發送了一封終止通知函,要求他們立即停止從LinkedIn伺服器上抓取數據。他們還聲稱,該抓取行為違反了CFAA和《數字千年版權法案》。

HiQ對此作出了回應,對LinkedIn提起了自己的訴訟,要求法院在判決他們與LinkedIn之間的案件時提供禁制令。法院批准了該禁令,直到案件確定為止,LinkedIn被迫允許hiQ公司對他們的伺服器進行訪問。LinkedIn對該禁令提出上訴失敗,此案仍在審理中。

該案尚未得到判決,但是法院沒有簡單地將案件歸因於Craigslist Vs 3Taps案,這表明法律制度認識到情況已經發生了變化。今天的數據抓取現象與七年前已經有很大的不同。

案例三:瑞安航空 vs PR航空

歐洲法院對此案進行了辯論,但與上述兩種情況相同。PR Aviation通過訪問Ryanair的伺服器以獲取數據,使用戶能夠對不同的航班價格進行比較。與美國法院不同,EUCJ迅速做出了判決。瑞安航空認為,PR Aviation的行為是違反服務條款的行為,也是侵犯版權的行為。

該案的焦點在於瑞安航空是否可以限制對其公開資料庫的訪問,或者是否將被資料庫指令覆蓋。法院裁定,公開資料庫的所有者確實有權施加自己數據的訪問限制。國家法院將對TOS的執行提起訴訟,並決定該指令是否涵蓋資料庫。這意味著在歐盟,許多公共資料庫所有者被允許施加自己的訪問限制。

在上面的三個案例中,焦點主要都集中在該國法律是否允許對其公開資料庫加以限制,從而決定該數據獲取行為是否構成違法行為。在當今信息膨脹的時代,web獲取數據的應用滲透在我們工作的方方面面,而無論是哪種形式的數據獲取,都將接受法律的監管。

根據上海數據治理與安全產業發展專業委員會的最新研究成果——《數據爬取治理報告》可知:

該報告指出,數據爬取作為數據採集的一種高效實現形式,是國內外諸多網際網路企業極為通常甚至賴以生存的手段。總共包括數據爬取概述、數據爬取的現實法律風險、數據爬取的治理困境及難點、數據爬取的治理原則和建議、數據爬取相關爭端案例五個部分。

首先從技術原理、技術分類、技術特點、應用現狀、發展趨勢和濫用危害六個部分介紹了數據爬取,並根據現實法律環境深度剖析了數據爬取在訪問進入、數據類型和數據使用三個環節可能的法律風險,總結髮現數據爬取治理的七大難點,並針對性提出五項治理原則,以及不同治理主體的應對措施,最後梳理了九個近年國內外較為典型的數據爬取司法判例。

洛克曾在《政府論》指出,在一切能夠接受法律支配的人類狀態中,哪兒沒有法律,哪兒就沒有自由。知法執法,合法行使網絡數據獲取的權利,也應當合法遵守網絡數據獲取的限制。

2020疫情嚴峻下,我們共克時艱

2020年,疫情來得讓我們措手不及,但我們眾志成城齊抗疫,勝利終將屬於我們。在這之前,就讓我們好好做個宅男宅女,讓胖上去的體重,通過學習瘦回來。待到」出關「之際,我們不再原地踏步,我們已經更代升級!

相關焦點

  • python爬取數據存入資料庫
    昨天本來寫了一篇關於python爬取的文章,結果沒通過,正好今天一起吧。用python同時實現爬取,和存入資料庫,算是複習一下前面操作資料庫的知識。1、準備工作既然是爬取,那自然要連接到爬取的頁面,所以需要requests庫。
  • Sscrapy框架:全自動化爬取數據
    第3行代碼:allowed_domains是定義允許爬蟲爬取的網址域名(不需要加https://)。如果網址的域名不在這個列表裡,就會被過濾掉。為什麼會有這個設置呢?當你爬取大量數據時,經常是從一個URL開始爬取,然後關聯爬取更多的網頁。比如,假設我們今天的爬蟲目標不是爬書籍信息,而是要爬豆瓣圖書top250的書評。
  • 用Python進行Web爬取數據
    並非每個網站都允許用戶抓取內容,因此存在一定的法律限制。在嘗試執行此操作之前,請務必確保已閱讀網站的網站條款和條件。目錄3個流行的工具和庫,用於Python中的Web爬蟲Web爬網的組件 Crawl Parse and Transform Store從網頁中爬取URL和電子郵件ID爬取圖片在頁面加載時抓取數據3個流行的工具和庫,用於Python中的Web爬蟲你將在Python中遇到多個用於Web抓取的庫和框架。
  • Python爬取招聘網站數據並做數據可視化
    通過開發者工具可以看到,獲取返回數據之後,數據是 在 window.__SEARCH_RESULT__ 裡面,可以使用正則匹配數據。
  • Stata 網絡數據爬取:JSON篇
    本文來自 RStata 線上培訓班課程「Stata網絡數據爬取:JSON篇」,如果你想獲取本課程的講義材料和視頻講解,可以在公眾號後臺回復 獲取資料 了解如何獲取。其實之前在「中國的工業企業都在哪裡?我們要爬取這個圖的數據。
  • Scrapy 爬取七麥 app數據排行榜
    app列表Selenium調用JS腳本獲取app詳情前言熟悉Scrapy之後,本篇文章帶大家爬取七麥數據(https://www.qimai.cn/rank )的ios appstore付費應用排行榜前100名應用。
  • Python爬取CAP之家的APP推廣信息數據
    cap之家數據是動態數據加載的~ 開發者工具可以找到相對應的數據接口數據內容找到了,單頁數據可以直接爬取,如果想要爬取多頁數據,那就要分析接口數據url的變化因為數據接口是post請求,所以一般情況都是data參數的變化,所以查看data參數的變化就可以了~
  • 利用 Python 爬取網站的新手指南 | Linux 中國
    網站爬取項目中要找的是什麼有些數據利用網站爬取採集比利用其他方法更合適。以下是我認為合適項目的準則:沒有可用於數據(處理)的公共 API。通過 API 抓取結構化數據會容易得多,(所以沒有 API )有助于澄清收集數據的合法性和道德性。而有相當數量的結構化數據,並有規律的、可重複的格式,才能證明這種努力的合理性。網頁爬取可能會很痛苦。
  • stata調用python爬取時間數據——借他山之石以攻玉
    該功能使得,我們可以先利用python爬取數據,然後再利用用戶所熟悉的stata去處理數據,因為stata在處理數據方面具有一定的優勢。那麼今天我們就來看看,怎樣利用stata調用python爬取數據,再用stata進行處理?今天試爬的數據是巨潮網上的預約年報的披露時間數據。
  • python爬蟲實戰:爬取天氣數據的實例詳解
    在本篇文章裡小編給大家整理的是一篇關於python爬取天氣數據的實例詳解內容,有興趣的朋友們學習下。
  • python爬取+BI分析5000條內衣數據,發現妹子最愛這款文胸
    生活中我們經常會用python進行數據爬取,但是爬取簡單分析難,很多人喜歡用echarts圖表接口或者是python的第三方庫進行數據可視化,甚至是用matlab,基本上都需要用代碼實現,在數據展示上十分繁瑣,效率不高。
  • Python多線程爬取網站數據,它究竟有多快
    網站是靜態網站,沒有加密,可以直接爬取 整體思路 1、先在列表頁面獲取每張壁紙的詳情地址 2、在壁紙詳情頁面獲取壁紙真實高清url地址 3、保存壁紙 代碼實現 模擬瀏覽器請求網頁,獲取網頁數據
  • 用python分析上海二手房數據,用幾十行代碼爬取大規模數據!
    add': add.get_text(), 'area': area.get_text(), 'price': price.get_text(), 'danjia': danjia.get_text(), 'author': author.get_text(), 'tag': list(tag.stripped_strings) } print(data)3、調用spider_1函數爬取指定網頁
  • Python:《Python應用實例欣賞》第7課數據處理與爬取
    回顧比預計的多用了5分鐘,於是將本來準備賞析的三個實例縮減為最主要的兩個「學籍數據合併」和「黑龍江疫情數據爬取」,「最強大腦遊戲」留給學生自行賞析了。後來結識了「巧樂希」公眾號的「公主」小溪流,把需求提給了她,沒想到她居然專門寫了一篇文章針對性將Excel中的數據匯總-Python來助力,方法還是非常的簡單的。昨日備課將例子修改為學生相對熟悉的內容,這也是我前段時間在幫助孩子班級整理疫情數據時遇到的真實需求。我的技術不止用來服務老婆孩子,下一篇寫一寫服務於學校的內容。
  • python實戰案例分享:爬取當當網商品數據(案例)
    在本篇博文中,天善學院特邀講師韋瑋老師會以當當網爬蟲為例,為大家講解如何編寫一個自動爬蟲將當當網的商品數據都爬取下來。隨後,我們需要編寫items.py文件,在該文件中定義好需要爬取的內容,我們將items.py文件修改為如下所示: # -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http
  • Python 爬取愛奇藝騰訊視頻 250,000 條數據分析為什麼李誕不值得了?
    作者 | 羅昭成責編 | 唐小引在《Python 爬取愛奇藝 52432 條數據分析誰才是《奇葩說》的焦點人物?》這篇文章中,我們從愛奇藝爬取了 5 萬多條評論數據,並對一些關鍵數據進行了分析,由此總結出了一些明面上看不到的數據,並將其直觀地展現了出來,數據分析的妙處即在於此。
  • Excel與Python爬取數據,兩者PK,誰優誰劣?
    上圖中是中國證券監督管理委員會中滬市IPO公司的相關信息,我們需要提取其中的表格數據,分別利用Excel與python。ExcelExcel提供兩種獲取網頁數據的方法,第一種是 數據—自網站功能,第二種是Power Query。
  • Python爬蟲層層遞進,從爬取一章小說到爬取全站小說!
    很多好看的小說只能看不能下載,教你怎麼爬取一個網站的所有小說知識點:
  • 【乾貨】百度全景靜態圖(街景圖)爬取工具EXE——一個興致使然的街景圖數據爬取工具
    3.輸入數據可直接由ArcGIS的2個工具生成,軟體參數為文件路徑,方便實用。打開壓縮包,,解壓到你要的位置並找到可執行文件EXE,雙擊打開,首次打開較慢屬於正常現象,請耐心等待:來看看參數介紹:軟體由兩個模塊構成,但其實爬取街景圖,僅僅是使用第二個模塊即可,你只要有形如下圖的TXT文檔。
  • Python爬取B站彈幕並製作詞雲圖
    (如下圖所示) 彈幕數據的url地址既然都知道了,那麼就可以直接爬取下來了。 代碼實現部分 1、請求網頁獲取原始碼數據 爬取這些數據是需要加上cookie的,如果沒有加cookie的話會顯示你未登錄帳號 所以需要在headers裡面添加cookie