網絡爬蟲(Web Crawler),又稱網絡蜘蛛或者網絡機器人,是一種按照一定規則自動抓取網際網路信息的程序。在大數據時代,網絡爬蟲已成為網際網路抓取公開數據的常用工具之一,可以實現對文本、圖片、音頻、視頻等網際網路信息的海量抓取。網絡爬蟲相關訴訟糾紛引發了學界在私法層面對大數據權益屬性、權益分配的諸多法律爭議,以及在公法層面對網絡爬蟲刑法規制路徑的諸多探討。對網絡爬蟲的刑法規制既影響到當前數據產業的資源利用和技術創新,也影響到國家決策層對數據行業的政策制定。因此,以何種標準、何種路徑來確定網絡爬蟲的入罪範疇,是當前我國數字經濟發展亟須解決的難題。
一
網絡爬蟲的危害性
網絡爬蟲雖具有技術中立性,但在目前的數據產業中仍涉及多重法律風險,主要體現在:
1.技術風險:抓取太快或太頻繁易導致ICP(網絡內容服務商)網站擁堵,影響伺服器正常運行甚至導致伺服器癱瘓,或者重複抓取相同文件易耗費伺服器資源等,因此產生了一些協議來緩和網絡爬蟲的抓取行為,告知搜尋引擎所允許和禁止抓取的範圍。當前,「爬蟲協議」成為國內外網際網路行業普遍遵循的技術規範。
2.法益侵害風險:抓取ICP網站管理後臺等內部數據易侵犯個人信息、商業秘密等數據信息安全。美國公眾輿論研究協會的研究報告指出,網絡爬蟲的數據抓取行為對數據所有權、數據管理、數據收集權、隱私保護以及其他數據保護提出了政策挑戰。這主要表現在:
(1)政府使用網絡爬蟲抓取個人數據侵害公民憲法權利。由於網絡爬蟲可以輕鬆抓取顯示網絡用戶政治、宗教和其他觀點的數據信息,一些國外政府機構已經採用網絡爬蟲來收集網絡論壇、個人博客、Twitter、Facebook和Tumblr等社交網站或Craigslist等公告板的數據,甚至從集會團體的網站收集數據來確定集會者的數量,並識別、追蹤特定集會者等。這些行為都可能侵犯公民受憲法保護的言論自由、結社自由甚至隱私權等。
(2)數據公司或研究機構使用網絡爬蟲抓取用戶個人數據,侵犯了用戶的隱私權、信息權等。不少數據企業從個人博客、社交媒體網站、論壇和其他用戶可以談論、公開其身份或偏好的網站收集大量用戶數據信息,但很少有規則來說明可以抓取什麼、何時何地抓取以及如何存儲、利用所抓取的用戶數據。
二
網絡爬蟲入罪的判斷標準
網絡爬蟲入罪的關鍵在於訪問、抓取數據行為是否獲得許可、授權,「未經授權」或者「超越授權」訪問、抓取數據可能侵犯網絡安全或者各類數據安全。網絡爬蟲客觀上有突破數據保護措施的行為,行為人主觀上有突破數據保護措施的故意,這是網絡爬蟲入罪的基本標準。
不法判斷
未經授權或超越授權
「未經授權」是指網絡爬蟲根本就沒有獲得數據網站的授權機制許可;「超越授權」是指網絡爬蟲超越了被授權範圍訪問、獲取數據,包括平行越權、垂直越權。其中,平行越權是指一個網絡用戶越權訪問了另一個網絡用戶才能訪問的資源;垂直越權是指低權限角色的用戶獲得了高權限角色所具備的權限,典型的是黑客通過修改Cookie或者參數中隱藏的標誌位,從普通用戶權限提升到管理員權限。
但是,對於「未經授權」或者「超越授權」不能僅作形式判斷。如果單純依據強行突破帳號登錄系統來進行入罪判斷,易導致技術授權和規範授權的判斷分歧。不能簡單地以是否需要帳號登錄來判斷網絡爬蟲是否「未經授權」。對此,還必須結合被抓取的數據類型來進行實質違法性判斷,考察網絡爬蟲抓取數據行為對法益的侵害或者威脅是否達到實質可罰的程度。
責任判斷
具有訪問、抓取數據的惡意
網絡爬蟲的入罪判斷除了考察客觀不法外,還必須對主觀罪責進行判斷,即考察主觀上是否具有突破網絡安全、數據安全保護措施並訪問、獲取相關數據的故意。網絡爬蟲可分為善意的網絡爬蟲和惡意的網絡爬蟲。善意的網絡爬蟲會遵守Robots協議,能夠增加網站的曝光度,給數據網站帶來流量;而惡意爬蟲則無視Robots協議,甚至採取破解措施對數據網站中某些深層次的、不願意公開的數據隨意抓取,導致網站伺服器過載或崩潰,影響計算機信息系統的正常運行。顯然,惡意網絡爬蟲認識到突破數據網站技術措施的行為違背了權利人的保護意願,仍基於自由意志而選擇繼續爬取數據,足以證明其具有犯罪故意。
在我國現有法律框架下,「白帽子」侵入網站並抓取數據行為的合法性備受爭議,易被認定為非法獲取計算機信息系統數據罪。「白帽子」通常不會破壞他人計算機信息系統,而是出於探索、實驗新技術等主觀目的,甚至出於善意,希望幫助他人發現和改善系統缺陷和漏洞,以提高計算機和網絡系統的安全性能。雖然「白帽子」所使用的測試軟體通常具有自動緩存數據的功能,但依行業慣例,抓取數據的行為是安全漏洞檢測必經的步驟,對於那些存在事先授權、事後認可、行業默契認可的「白帽子」抓取數據行為,因缺乏法益侵害性和主觀罪過,應依照國際慣例和國內行業規則,作為保護網絡安全的正當化事由予以出罪。
三
網絡爬蟲入罪的具體路徑
從技術原理來看,網絡爬蟲抓取數據涉及對計算機信息系統的訪問進入、對特定類型數據的抓取、對所獲取數據的使用三個階段,因此,網絡爬蟲的入罪路徑必須結合其具體行為進行情景化分析。
非法侵入行為可構成
非法侵入計算機信息系統罪
網絡爬蟲進入數據網站是訪問、抓取數據的前提。但如果未經授權進入涉及國家安全和國家秘密的政府內網、國防建設、尖端科學技術領域的計算機信息系統,則可構成非法侵入計算機信息系統罪。這取決於被侵入的計算機信息系統的性質以及訪問是否被授權。
非法抓取數據可能構成多種犯罪
隨著數據表徵權利客體的多樣化,網絡爬蟲未經授權或超越授權抓取數據行為,依據被抓取數據所表徵的不同法益,可構成不同罪名。
➤ 抓取「可識別性」個人數據,可構成侵犯公民個人信息罪。大數據時代,多數公民的個人信息都是以電子數據的形式存儲於計算機信息系統或者網絡之中,易被網絡爬蟲抓取。個人信息區別於普通數據的最大特徵在於其與信息主體存在某種關聯性、專屬性,能識別特定個人,具有侵犯信息自決權的隱憂。根據我國刑法第二百五十三條之一第三款規定,竊取或者以其他方法非法獲取公民個人信息的,構成侵犯公民個人信息罪。
➤ 抓取「創造性」數據可構成侵犯智慧財產權的犯罪。由於數據與智慧財產權的「無形財產」具有天然契合性,都卸下了物質載體這一「枷鎖」,以數字代碼形式儲存、利用、傳輸,因而幾乎所有的網絡智慧財產權都可以被網絡爬蟲抓取。然而,網絡智慧財產權具有不同於一般數據的典型特徵——創造性,其價值主要在於維護所有權人的專有控制力以及排他性處分、使用收益權能。未經權利人許可、授權而非法複製、下載等,可構成侵犯智慧財產權犯罪。如網絡爬蟲抓取在線小說行為可構成侵犯著作權罪。此外,通過網絡爬蟲抓取商業秘密的行為也可構成侵犯商業秘密罪。
➤ 抓取普通數據,可構成非法獲取計算機信息系統數據罪。根據刑法第二百八十五條第二款的規定,違反國家規定,侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據的行為,構成非法獲取計算機信息系統數據罪。
非法破壞計算機信息系統或數據
可構成破壞計算機信息系統罪
網絡爬蟲的技術風險還包括造成被爬取數據的網站擁堵甚至系統崩潰、對被爬取的數據進行破壞等。如果網絡爬蟲侵入計算機信息系統後,對計算機信息系統進行破壞、對數據進行破壞,或者對計算機信息系統安全措施進行暴力破解,甚至將爬蟲技術濫用為網絡攻擊方式等,都可能構成破壞計算機信息系統罪。
綜上,網絡爬蟲作為數據資源獲取和利用的重要手段,其「技術中立更多的是一種理念,現實生活中的技術通常都是行為的工具,通過技術實施的競爭行為與技術本身的中立性不能簡單畫等號。技術中立有利於技術創新,但技術創新仍有其法律邊界。」基於數據的流動性、共享性對數據的開放程度及其公共秩序的構建,成為當前我國規制網絡爬蟲的基點。
(作者劉豔紅、楊志瓊分別系東南大學法學院教授、東南大學人民法院司法大數據研究基地教授,東南大學人民法院司法大數據研究基地研究員)
(來源:最高人民檢察院微信公眾號)