「爬蟲」的是與非

2020-12-03 法治周末

爬蟲相關產業一度處於瘋狂而無序的生長狀態,然而,在當前的法律背景下,利用爬蟲技術採集信息隨時可能讓爬蟲使用者人財兩空

韓帥

「爬蟲」(Web Crawler),是按照一定的規則,自動抓取網際網路信息的程序或者腳本。作為技術或者工具的爬蟲,本身難言非法、合法。正如前些年因「快播案」而被廣泛討論的播放器的性質一樣,爬蟲如今也扮演了當年「快播案」中播放器的角色。

近兩年來,侵犯公民個人信息案件和「套路貸」案件進入高發期,在網際網路領域被廣泛應用的爬蟲技術曝光量也越來越大。特別是近期魔蠍科技等數據服務商相關人員相繼被警方調查以來,爬蟲技術逐漸成為業內乃至社會高度關注的話題。

據報導,魔蠍科技等數據服務商被調查的原因皆與爬蟲、數據等業務相關。此後,業內紛紛下架、暫停相關數據服務。可見相關事件對數據服務行業的震動之大。

在此之前,由於長期弱監管,爬蟲相關產業處於瘋狂而無序的生長狀態,業內專門約束爬蟲行為的只有Robots協議(爬蟲協議)。通俗來說,可以將Robots協議理解為網站的看門人,其職責是告知訪客哪間屋可進,哪間屋不可進。但作為一項協議,其本身不具有法律意義上的強制性。

一枚硬幣的兩面

爬蟲的是與非,取決於爬蟲為誰所用?用作何處?爬蟲技術低成本、高效率的優點自不待言。但是,作為硬幣的另一面,相伴而生的弊端也不可忽視。

對爬蟲的過度使用,造成了「被爬」網站堵塞甚至癱瘓。部分爬蟲使用者違反Robots協議,強行爬取網站信息,導致Robots協議形同虛設。

前段時間,最高人民法院在官網回應網友提出的裁判文書網運行慢、故障頻繁等情況時表示,「2018年5月初以來,大量技術公司通過爬蟲系統無限制並發訪問非法獲取裁判文書數據,造成網站負荷過大,大量正常用戶請求堵塞,訪問出現速度慢或部分頁面無法顯示等現象」。

此外,由於爬蟲技術被某些使用者用於違法犯罪活動,爬取法律保護的特定數據或者信息,導致個人信息被非法獲取,商家經營信息、技術信息等被竊取,甚至政府網站被攻擊及數據被篡改等嚴重後果。

達摩克利斯之劍

當前的法律背景下,利用爬蟲技術採集信息是時刻懸在數據服務商頭上的一把達摩克利斯之劍。這把利劍隨時可能讓爬蟲使用者人財兩空。

民法總則第一百一十一條規定,自然人的個人信息受法律保護。任何組織和個人需要獲取他人個人信息的,應當依法取得並確保信息安全,不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息。網絡安全法第四十四條規定,任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息。據此,公民個人信息受到民事法律和行政法律的保護,侵犯公民個人信息須承擔民法上的侵權責任,甚至可能被監管機關行政處罰。

刑法第二百五十三條之一規定,竊取或者以其他方法非法獲取公民個人信息的,構成侵犯公民個人信息罪。另根據《關於辦理侵犯公民個人信息刑事案件司法解釋》的規定,除了購買個人信息屬於非法獲取,收受或交換也都屬於非法。

從實踐來看,非法獲取公民個人信息的方式主要表現為竊取、購買、收受、交換和侵入計算機信息系統或者採用其他技術手段等。利用爬蟲技術竊取公民個人信息的行為屬於典型的侵犯公民個人信息犯罪。

自從網絡安全法、《關於辦理侵犯公民個人信息刑事案件司法解釋》實施以來,網際網路行業流行通過獲取用戶強授權的方式控制法律風險,此舉在某用程度上起到了控制風險的效果。

通過用戶授權爬取信息,即數據服務商通過向用戶索取特定網站的用戶名、密碼的方式爬取網站的信息。一般來講,爬取國家工商信息管理系統、最高人民法院裁判文書網等公共網站的相關公開信息,很難認定構成相關的刑事犯罪。

如果爬取的是商業營利性網站,一般情況下,該類網站除需要用「戶名+密碼」的方式登錄之外,網站還採取技術措施防止他人惡意登錄、攻擊。在獲取用戶授權的情況下,從刑法的角度來看,很難認定為侵犯公民個人信息犯罪。但是,可能涉及到侵犯商業秘密、侵犯著作權等相關法律規定,甚至構成侵犯商業秘密罪或者侵犯著作權罪。

如果數據服務商大規模爬取競爭對手的相關數據,則可能違反反不正當競爭法的相關規定,從而涉嫌不正當競爭。

在百度訴360公司違反Robots協議而引發的不正當競爭糾紛一案中,北京一中院在判決中認為,「搜尋引擎服務商與網站服務商或所有者關於Robots協議產生糾紛時,應當遵循如下「協商-通知」程序處理……360公司的行為違反了反不正當競爭法相關規定,應賠償百度公司經濟損失及合理支出共計70萬元」。

此外,如果數據信息被認定為經營信息或技術信息,一旦爬取行為給商業秘密的權利人造成的損失達到50萬元以上,則應當按照刑法第二百一十九條侵犯商業秘密罪定罪處罰,行為人將面臨最高七年有期徒刑並處罰金的處罰。

如果爬取具有著作權屬性的文字或者信息,則有可能違反著作權法第十條規定的著作權相關的內容,涉嫌侵犯智慧財產權,需要承擔侵權責任。一旦前述行為的違法所得達到3萬元以上,會被認定為違法數額較大,則應當按照刑法第二百一十七條侵犯著作權罪定罪處罰,行為人將面臨最高七年有期徒刑,並處罰金的處罰。

而在未獲得用戶授權或者相關權利人授權的情況下,採取暴力破解的方式爬取相關網站的數據,還可能涉嫌非法侵入計算機信息系統罪;非法獲取計算機信息系統數據罪;提供侵入、非法控制計算機信息系統的程序、工具罪和破壞計算機信息系統罪等。

法律風險在於人

很多業內人士經常有此疑問:「使用爬蟲有這麼大風險,那怎麼使用才合法合規?」

其實,從實質上看,爬蟲只是輔助人們高效收集信息的一種技術或者工具而已,爬蟲引發的法律風險的根源不在爬蟲,而在於控制、使用爬蟲的人。

從服務數據行業的經驗來看,預防、控制使用爬蟲過程中的法律風險,須做好以下三點:一是「拿」要合法,即依法收集數據;二是「用」要規範,即規範使用存量數據;三是「管」要到位,即完善數據保護制度。

責編:馬蓉蓉

相關焦點

  • 網貸領域爬蟲,既非原罪者也非無辜者
    而通過分析爬蟲的工作原理可得,不法獲取信息和獲取信息後的不當利用與爬蟲本身並無直接因果關係,爬蟲在上述過程中充當的只是一個中立的步驟角色。不過,網貸爬蟲也面臨相關法律風險。在刑法上可能構成網絡犯罪的幫助犯,此外即使獲得了信息授權,也可能因無效授權而侵犯用戶權益。在關涉到第三方時,爬蟲被授權獲取的信息可能涉及合同違約和侵權等法律責任。所以法律仍應對爬蟲充分關注,網貸爬蟲從業者也需做好合規工作。
  • 怎樣選擇爬蟲寵物?
    雖然在自然界有數不清的爬蟲,但並不是每一種爬蟲都適合作為寵物來飼養,那究竟哪些爬蟲能成為我們的寵物呢?
  • Python爬蟲和反爬蟲的鬥爭
    在抓取對方網站、APP 應用的相關數據時,經常會遇到一系列的方法阻止爬蟲。網站APP們這麼做的原因,一是為了保證服務的質量,降低伺服器負載,二是為了保護數據不被獲取。爬蟲與反爬蟲的鬥爭經久不衰,這裡神龍IP給大家分享一些常見的反爬蟲手段。
  • 有關於用了代理IP仍能被反爬蟲的緣由
    現如今,為了能更好地解決網絡平臺反爬蟲機制,諸多用戶都是會採用代理IP,不僅可以確保數據信息的正常爬取,還能夠提升工作效率。但是最近有很多網絡爬蟲用戶反映,在採用代理IP後,依然會遭受網絡平臺的反爬蟲機制的限制。因此為什麼採用代理IP後依然會被反爬蟲呢?
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。
  • 什麼是爬蟲?如何提高爬蟲爬取網頁速度?
    什麼是爬蟲?網絡爬蟲也叫網絡機器人和網絡蜘蛛,可以代替人工按照一定的規則自動地的在網際網路中進行數據採集與整理。各大搜尋引擎也都有各自的名字,如百度蜘蛛:BaiduSpider,谷歌蜘蛛:Googlebot360,蜘蛛:360Spider。
  • 小叮噹Python進階(二):爬蟲與加密算法Part1
    (2)驗證是否是真實的用戶,反爬蟲。比如驗證碼,滑動拼圖驗證等機制。所以當我們爬蟲為了抓取數據時,要想成功的模仿網站的請求,就必須模仿網站正常訪問時的加密行為。3.常見的加密算法介紹(1) 加密算法分類根據密鑰類型不同將現代密碼技術分為兩類:對稱加密算法(秘密鑰匙加密)和非對稱加密算法(公開密鑰加密)。
  • 爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術
    爬蟲技術的使用不僅僅在風控行業,據筆者了解,遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息,了解用戶喜好,從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界,兼談遊戲行業在推廣中應如何合法使用爬蟲技術。
  • Python爬蟲培訓機構推薦新手怎麼學習Python爬蟲
    接下來是Python爬蟲培訓機構推薦。  千鋒Python爬蟲培訓機構權威資深師資陣容,業內極具責任心、懂教學、擁有超強技術、有大型項目經驗實戰派講師授課,由業內知名專家及企業技術骨幹組成。  怎麼學習Python爬蟲?對於想學Python的人員來說,需要具備按照以下思路進行python的學習:  1. 要有決心  做任何事情,首先要有足夠的決心和堅持,才能學好Python爬蟲。  2.
  • 爬蟲技術涉案大數據分析及法律解讀
    許多律師在寫一些關於目前爬蟲技術的法律文章的時候,常常會將定點爬蟲和搜尋引擎爬蟲給搞混淆,有的也給出了錯誤或者較為過時的定義與理解。作為不熟悉技術的法律人士,其實也在所難免。其實我們常常講的爬蟲技術,與搜尋引擎的爬蟲引擎是完全不同的,其根本目的,是通過對指定網站進行解析,自動並且批量獲取前端展示的數據。
  • Python爬蟲是什麼意思有啥用 python爬蟲原理實例介紹
    據華為中國官方消息,今日,華為中國發文《小白看過來,讓Python爬蟲成為你的好幫手》,文中詳細介紹了Python爬蟲的工作原理,我們來看一下吧。  以下為《小白看過來,讓Python爬蟲成為你的好幫手》全文:  隨著信息化社會的到來,人們對網絡爬蟲這個詞已經不再陌生。
  • 網絡爬蟲的法律規制
    隨著數據資源的爆炸式增長,網絡爬蟲的應用場景和商業模式變得更加廣泛和多樣,較為常見的有新聞平臺的內容匯聚和生成、電子商務平臺的價格對比功能、基於氣象數據的天氣預報應用等等。一個出色的網絡爬蟲工具能夠處理大量的數據,大大節省了人類在該類工作上所花費的時間。網絡爬蟲作為數據抓取的實踐工具,構成了網際網路開放和信息資源共享理念的基石,如同網際網路世界的一群工蜂,不斷地推動網絡空間的建設和發展。
  • python爬蟲――寫出最簡單的網頁爬蟲
    最近對python爬蟲有了強烈地興趣,在此分享自己的學習路徑,歡迎大家提出建議。我們相互交流,共同進步。
  • 雲立方網科普:常用高效的Python爬蟲框架有哪些?
    Python是現在非常流行的程式語言,而爬蟲則是Python語言中最典型的應用,下面是總結的高效Python爬蟲框架,大家看看是否都用過呢。 Crawley可以高速爬取對應網站的內容,支持關係和非關係資料庫,數據可以導出為JSON、XML等。 Pyspider 是一個用python實現的功能強大的網絡爬蟲系統,能在瀏覽器界面上進行腳本的編寫,功能的調度和爬取結果的實時查看,後端使用常用的資料庫進行爬取結果的存儲,還能定時設置任務與任務優先級等。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    原因是最近發生的多起涉及爬蟲技術的公司被司法部門調查。近日,51信用卡被查,更是將暴力催收背後非法使用爬蟲技術爬取個人隱私數據的醜行,暴露在陽光之下。 一時間,「爬蟲」成為眾矢之的,一些公司緊急下架了爬蟲相關的招聘信息,給大數據風控、人工智慧從業者帶來些許恐慌,頭髮又多落了幾根。
  • 優秀的爬蟲策略有哪些特性?
    經常使用代理IP的爬蟲工作者都知道,網際網路上擁有海量的數據,對應的爬蟲工作量非常艱巨,所以爬蟲程序的性能非常重要。不同網站對應的爬蟲策略各不相同,那麼優秀的爬蟲策略都具備哪些特性呢?優秀的爬蟲策略有哪些特性?1. 友好性爬蟲的友好性有兩個含義:一是保護目標網站的部分私密性,二是減少目標網站的網絡負載。
  • 爬蟲究竟是合法還是違法的?
    據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司 200 多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • 如何高效使用爬蟲IP代理?
    但網際網路上存留的數據非常龐大,單靠人力進行數據採集已遠不能滿足需求,因此效率高、成本低的網絡爬蟲廣受人們青睞,成為爬取收錄信息的主流方式。 爬蟲代理IP是網絡爬蟲的必備工具,可以讓數據採集變得更加高效。那麼如何使用代理IP,才能保證爬蟲高效、快速、精準地採集數據呢?
  • Python爬蟲很難,那是你沒有掌握爬蟲的思想,看看大神如何來分析
    大家學習Python爬蟲可能會遇到各種各樣的問題,那麼在遇到這些問題的時候,我們應該如何去解決呢?1.什麼是爬蟲爬蟲,即網絡爬蟲,大家可以理解為在網絡上爬行的一隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。
  • 爬蟲玩的好,監獄進的早?
    爬蟲與反爬蟲的攻堅戰:黑灰產業的誘惑在爬蟲技術剛興起時,網際網路還是一方「淨土」,每個從業者都會默默的遵守「君子協議」。隨著網際網路的發展,個人隱私開始變成商品來販賣,利益面前,「君子協議」也只是一紙道德,當君子協議開始失效時,反爬蟲技術也應運而生。