有關數據爬取的三大法律案件

2021-01-12 CDA數據分析師

出品 | CDA數據分析師

在當下大數據時代，數據具有非常大的價值，許多企業都需要使用它，無論是以商用形式還是非商用形式。而Web抓取是最常見的數據獲取方式之一，Web抓取使用漫遊器自動訪問和收集公共可用的數據。許多網站和服務出於數據安全及利益的考慮，會禁止在其ToS中進行數據抓取，網頁抓取的合法性目前仍然是一個灰色地帶，然而到目前為止，全國各個國家關於數據爬取的法律條文都不太一致，強制實施程度也大不相同，因此進行數據抓取業務需要保持警惕，並應該根據過往一些法律案件判斷其合法性。這就是為什麼我們有必要討論一些對當前Web數據抓取條例起到開創性作用的案例，讓我們回顧一下有關當前Web數據抓取比較典型的三大法律案件。

案例一：Craigslist vs 3Taps

Craigslist和3Taps之間的案例為數據爬取的合法性以及企業拒絕訪問公開數據的權利設置了許多先例。它涉及以下三個公司：Craigslist，3Taps和PadMapper。

Craigslist是一個網站和平臺，允許用戶發布各種不同類別的分類廣告。用戶可以在Craigslist上做任何廣告，其用戶量也非常大。Craiglist使用的關鍵內容之一是找到住房以及備用房間。

PadMapper是一家匯總房屋廣告並允許用戶搜索其附近可用房屋的公司。為了實現此目的，PadMapper需要從各種不同的來源中抓取數據，Craigslist是PadMapper抓取數據的眾多站點之一。在2012年，PadMapper使用Craigslist生成的地圖可以顯示可用房間的位置。3Taps也是另一項業務，作為日常操作的一部分，它也在抓取Craigslist的數據，這其中涉及到了從公開可用的數據集中收集大量數據。

PadMapper和3Taps都在他們從Craigslist收集到的數據中獲得利益，儘管這種方式是間接的。但是，已抓取的數據是公開可用的，並且Craigslist並未嘗試限制對數據的訪問。Craigslist的創始人Craig Newmark曾經寫了一篇文章，哀嘆其服務的存在使Craigslists自己的資源非常緊張，並指出：「我們只考慮消耗大量寬帶的服務」。2012年6月，Craigslist向PadMapper發送了一封停止訪問信，要求他們之後不能再從該網站抓取有關房地產列表的數據。

Craigslist阻止了PadMapper和3Taps這兩家公司的IP位址訪問該網站，從而有效地切斷了他們對Craigslists數據的訪問及獲取。Craigslists認為此操作是對數據的訪問的進行了限制，換句話說，他們採取的立場是，在阻止這些企業的IP位址之後，應將他們對原本可以公開獲得的數據的訪問視為已受到密碼保護。

根據《計算機欺詐和濫用法》，未經授權訪問數據是非法的，而訪問公開數據不是非法的，因此此案的重點是Craigslist是否可以使用該行為來防止個人用戶訪問其他公開數據。對於整個數據抓取行業，這是一個重要的問題。2012年，該行業還處於一個相對較早的階段，在過去的七年中，它的發展無疑已經相當可觀。

3Taps使用代理服務繞過了IP位址，從而繼續抓取Craigslist網站上的數據。PadMapper然後也開始通過3Taps間接訪問Craigslist上的數據。然後，Craigslist便對這兩家公司的違法行為進行起訴。他們聲稱其違反了CFAA，並且侵犯了Craigslist的版權。3Taps方面則並不認為它違反了CFAA，因為相關數據是公開可用的，這意味著每個人都是法律上的授權用戶。同時，他們聲稱，實施模糊的訪問限制可能會帶來一些負面影響，這可能給其他濫用其任意撤銷數據訪問能力的企業打開了大門。

法院站在Craigslist的立場上，根據CFAA確認，智慧財產權的封鎖，停止和終止都可以單獨視為充分的撤銷訪問通知。最後，該案在庭外和解，Craigslist收到了100萬美元，這筆款項捐贈給了電子前沿基金會（Electronic Frontier Foundation），他們對Craigslist此案提供了很大的幫助。

這種情況提供的先例是，如果網站阻止了您的IP位址，如果繼續通過代理或VPN訪問其伺服器，根據CFAA則可能會被視為違反法規行為，並被歸類為未經授權的數據訪問。顯然，這對於許多刮板企業來說是站不住腳的。

案例二：LinkedIn vs HiQ

LinkedIn與hiQ Labs（矽谷的數據抓取公司，與3Taps公司性質類似）之間的爭執與上述情況相呼應。爭議本質上非常相似，圍繞的是LinkedIn是否可以阻止創業公司訪問LinkedIn上公開可用的數據。

就像Craigslist一樣，LinkedIn向hiQ發送了一封終止通知函，要求他們立即停止從LinkedIn伺服器上抓取數據。他們還聲稱，該抓取行為違反了CFAA和《數字千年版權法案》。

HiQ對此作出了回應，對LinkedIn提起了自己的訴訟，要求法院在判決他們與LinkedIn之間的案件時提供禁制令。法院批准了該禁令，直到案件確定為止，LinkedIn被迫允許hiQ公司對他們的伺服器進行訪問。LinkedIn對該禁令提出上訴失敗，此案仍在審理中。

該案尚未得到判決，但是法院沒有簡單地將案件歸因於Craigslist Vs 3Taps案，這表明法律制度認識到情況已經發生了變化。今天的數據抓取現象與七年前已經有很大的不同。

案例三：瑞安航空 vs PR航空

歐洲法院對此案進行了辯論，但與上述兩種情況相同。PR Aviation通過訪問Ryanair的伺服器以獲取數據，使用戶能夠對不同的航班價格進行比較。與美國法院不同，EUCJ迅速做出了判決。瑞安航空認為，PR Aviation的行為是違反服務條款的行為，也是侵犯版權的行為。

該案的焦點在於瑞安航空是否可以限制對其公開資料庫的訪問，或者是否將被資料庫指令覆蓋。法院裁定，公開資料庫的所有者確實有權施加自己數據的訪問限制。國家法院將對TOS的執行提起訴訟，並決定該指令是否涵蓋資料庫。這意味著在歐盟，許多公共資料庫所有者被允許施加自己的訪問限制。

在上面的三個案例中，焦點主要都集中在該國法律是否允許對其公開資料庫加以限制，從而決定該數據獲取行為是否構成違法行為。在當今信息膨脹的時代，web獲取數據的應用滲透在我們工作的方方面面，而無論是哪種形式的數據獲取，都將接受法律的監管。

根據上海數據治理與安全產業發展專業委員會的最新研究成果——《數據爬取治理報告》可知：

該報告指出，數據爬取作為數據採集的一種高效實現形式，是國內外諸多網際網路企業極為通常甚至賴以生存的手段。總共包括數據爬取概述、數據爬取的現實法律風險、數據爬取的治理困境及難點、數據爬取的治理原則和建議、數據爬取相關爭端案例五個部分。

首先從技術原理、技術分類、技術特點、應用現狀、發展趨勢和濫用危害六個部分介紹了數據爬取，並根據現實法律環境深度剖析了數據爬取在訪問進入、數據類型和數據使用三個環節可能的法律風險，總結髮現數據爬取治理的七大難點，並針對性提出五項治理原則，以及不同治理主體的應對措施，最後梳理了九個近年國內外較為典型的數據爬取司法判例。

洛克曾在《政府論》指出，在一切能夠接受法律支配的人類狀態中，哪兒沒有法律，哪兒就沒有自由。知法執法，合法行使網絡數據獲取的權利，也應當合法遵守網絡數據獲取的限制。

2020疫情嚴峻下，我們共克時艱

2020年，疫情來得讓我們措手不及，但我們眾志成城齊抗疫，勝利終將屬於我們。在這之前，就讓我們好好做個宅男宅女，讓胖上去的體重，通過學習瘦回來。待到」出關「之際，我們不再原地踏步，我們已經更代升級！

有關數據爬取的三大法律案件

相關焦點

python爬取數據存入資料庫

Sscrapy框架:全自動化爬取數據

用Python進行Web爬取數據

Python爬取招聘網站數據並做數據可視化

Stata 網絡數據爬取:JSON篇

Scrapy 爬取七麥 app數據排行榜

Python爬取CAP之家的APP推廣信息數據

利用 Python 爬取網站的新手指南 | Linux 中國

stata調用python爬取時間數據——借他山之石以攻玉

python爬蟲實戰:爬取天氣數據的實例詳解

python爬取+BI分析5000條內衣數據,發現妹子最愛這款文胸

Python多線程爬取網站數據,它究竟有多快

用python分析上海二手房數據,用幾十行代碼爬取大規模數據!

Python:《Python應用實例欣賞》第7課數據處理與爬取

python實戰案例分享:爬取當當網商品數據(案例)

Python 爬取愛奇藝騰訊視頻 250,000 條數據分析為什麼李誕不值得了?

Excel與Python爬取數據,兩者PK,誰優誰劣?

Python爬蟲層層遞進,從爬取一章小說到爬取全站小說!

【乾貨】百度全景靜態圖(街景圖)爬取工具EXE——一個興致使然的街景圖數據爬取工具

Python爬取B站彈幕並製作詞雲圖