爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

2020-12-11 康樂律師

作者︱康樂

【導讀】近日，多家大數據風控平臺出事，51信用卡、魔蠍科技、新顏科技、公信寶均被杭州警方嚴查，上述企業的主要經營範圍是利用爬蟲技術採集用戶數據，用作網貸客戶的信用評估。爬蟲技術的使用不僅僅在風控行業，據筆者了解，遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息，了解用戶喜好，從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界，兼談遊戲行業在推廣中應如何合法使用爬蟲技術。

使用爬蟲技術的「反面教材」

今日頭條伺服器被非法抓取數據案

罪名：非法獲取計算機信息系統數據罪

上海某網絡公司CTO侯某某指使該司技術人員郭某破解北京字節跳動網絡技術有限公司的防抓取措施，使用「tt_spider」文件實施視頻數據抓取行為，造成被害單位北京字節跳動網絡技術有限公司損失技術服務費人民幣2萬元。經鑑定，「tt_spider」文件中包含通過頭條號視頻列表、分類視頻列表、相關視頻及評論3個接口對今日頭條伺服器進行數據抓取，並將結果存入到資料庫中的邏輯。在數據抓取的過程中使用偽造device_id繞過伺服器的身份校驗，使用偽造UA及IP繞過伺服器的訪問頻率限制。

法院認為，被告單位及相關責任人員採用技術手段獲取計算機信息系統中存儲的數據，情節嚴重，其行為已構成非法獲取計算機信息系統數據罪，應予懲處。

新浪微博用戶信息被非法獲取案

案由：不正當競爭糾紛

法院認為，脈脈在合作期間超出許可範圍抓取並使用新浪微博用戶職業信息、教育信息，並在合作終止後較長一段時間內仍然使用來自新浪微博的用戶信息作為脈脈軟體中非脈脈用戶的相關信息；同時，非法獲取並在一度人脈中展示用戶手機通訊錄聯繫人與新浪微博用戶的對應關係，使大量非脈脈用戶的新浪微博信息及好友關係展現在脈脈軟體中，便於脈脈軟體拓展自身用戶群，該行為屬於不正當競爭行為。

「爬蟲」本無罪，何以被查處？

爬蟲本是一項網絡搜索技術，根據搜索目的挑選出一批網頁，這些網頁的連結地址作為種子URL，將這些種子放入待抓取的URL隊列中，爬蟲從待抓取的URL隊列中訪問該 URL 對應的頁面，並進行頁面解析，把連結地址轉換為IP位址，然後交給網頁下載器負責下載，如此循環，直到URL 隊列中的所有URL 爬行完畢或滿足系統的一定停止條件為止。

要說爬蟲技術為何會被查處，筆者認為應當從如何使用該技術、技術採集的是什麼內容兩方面進行分析。

使用爬蟲技術之合規要求

《刑法》第285第2款對非法獲取計算機信息系統數據罪的表述是「侵入前款規定以外的計算機信息系統或者採用其他技術手段，獲取該計算機信息系統中存儲、處理或者傳輸的數據」即使用爬蟲技術構成本罪的手段行為有兩種：一種是「侵入」行為，另一種是採用其他技術手段行為。

「今日頭條伺服器被非法抓取數據案」中，我們注意到一個關鍵詞語「繞過」，通俗理解就是我原本設置了一個門禁不讓你進來的，而你卻通過技術手段避開了我設置的門禁系統闖入我的領地。本案中，被告人使用爬蟲技術繞過今日頭條網站伺服器端的身份驗證系統，行為性質實際就已經屬於非法侵入被害單位的計算機信息系統了。

遊戲企業推廣中需要使用爬蟲技術採集數據時，作為技術人員應當留意數據權利人或控制者是否在計算機信息系統中設置了robots.txt 以及robots.txt 對於爬蟲程序的授權範圍。robtes.txt，也稱為爬蟲協議、機器人協議等，全稱是「網絡爬蟲排除標準」（Robots Exclusion Protocol），是國際網際網路界為了兼顧保障搜索技術服務於人類，逐步確立起的通行的道德規範。主要內容為：當一個爬蟲程序訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，爬蟲程序就會按照該文件中的內容來確定訪問的範圍；如果該文件不存在，所有的爬蟲程序將能夠訪問網站上所有沒有被口令保護的頁面。（「百度百科」，由「科普中國」科學百科詞條編寫與應用工作項目審核）。

爬蟲技術採集數據之合規要求

根據《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》（下稱《計算機解釋》）第1條的規定，獲取支付結算、證券交易、期貨交易等網絡金融服務的身份認證信息十組以上的；獲取前述以外的身份認證信息五百組以上的即達到非法獲取計算機信息系統數據罪的追訴標準。該解釋把非法獲取「數據」範圍限定在身份認證信息。《計算機解釋》第11條第2款本解釋所稱「身份認證信息」，是指用於確認用戶在計算機信息系統上操作權限的數據，包括帳號、口令、密碼、數字證書等。

「今日頭條伺服器被非法抓取數據案」中被告人非法抓取的是今日頭條的視頻數據，並不屬於身份認證信息，為何可以定罪？筆者認為，這裡涉及到信息和數據的區別問題，數據是信息的載體，是一連串的字符和代碼，而信息則是具體展現的內容。信息公開，不等於數據公開。從本罪保護的法益角度進行理解，非法獲取計算機信息系統數據罪保護的法益是計算機信息系統的數據安全，只有數據權利人允許公眾或他人獲取數據，數據才失去法益保護的必要性，爬蟲才能去採集這些數據。該案中今日頭條並沒有對被告方開放接口，顯然沒有將視頻數據公開的意思，理應受到法律的保護。

「公民個人信息」是指以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息，包括姓名、身份證件號碼、通信通訊聯繫方式、住址、帳號密碼、財產狀況、行蹤軌跡等。《網絡安全法》規定，經得被收集者同意以及做匿名化處理（剔除個人關聯），是合法收集公民個人信息的兩項原則。

若使用爬蟲技術非法獲取的數據是公民個人信息，就可能構成侵犯公民個人信息罪與非法獲取計算機信息系統數據罪的競合，此時，就要擇一重罪處罰。比如，通過爬蟲獲取了公民支付結算的身份認證信息100餘組，按計算機信息系統數據罪的追訴標準已經達到「情節特別嚴重」，量刑檔次處三年以上七年以下有期徒刑；按侵犯公民個人信息罪的追訴標準只是達到「情節嚴重」，量刑檔次化是處三年以下有期徒刑或者拘役，因而，以非法獲取計算機信息系統數據罪定罪處罰。

爬蟲技術與不正當競爭行為

當爬蟲技術採集的是「其他數據」例如共享單車客戶使用區域數據（以此增加投放車輛的準確性）、公交實時運行大數據、社交媒體用戶信息（不涉及身份信息部分）等等，這些不涉及公民身份信息也與虛擬財產無關的數據資源，能否受到法律保護呢？在新浪微博用戶信息被非法獲取一案中給出了答案，法院對原告主張保護的新浪微博用戶信息，通過反不正當競爭法給予了救濟。

遊戲企業推廣中使用爬蟲技術抓取遊戲平臺中的用戶評論內容、評分數據，這些內容不僅公開也沒有設置反爬蟲技術措施，是否可行？筆者認為，不是所有的數據都可以獲得反不正當競爭法的保護，至少滿足兩個條件，一是有用的、有市場價值的數據；二是當事人在創造數據過程中付出了必要勞動和投資。遊戲平臺中的用戶評論區內容、評分數據對玩家而言，能起指引遊戲消費的作用；作為平臺方而言，僅是提供了一個平臺供用戶對每款遊戲進行評論，並未對評論內容進行加工處理，沒有付出必要的勞動，不應當受反不正當競爭法保護，當然，如果遊戲平臺方設置了限制下載、限制訪問次數等反爬蟲措施的，則需取得授權方能爬取數據，否則就是侵權行為。

我國《反不正當競爭法》第2條規定，經營者在市場交易中，應當遵循自願、平等、公平、誠實信用的原則，遵守公認的商業道德。脈脈軟體，要求用戶註冊脈脈帳號時上傳自己的手機通訊錄聯繫人，從而非法獲取該聯繫人與新浪微博中相關用戶的對應關係，將這些人作為脈脈用戶的一度人脈予以展示，並將非法抓取的該人新浪微博頭像、名稱（暱稱）、職業信息、教育信息、個人標籤等信息用於一度人脈中。脈脈軟體主要是一款職場社交應用，新浪微博是一款社交軟體，但這些外在形式的不同並不影響雙方都提供網絡社交服務的實質。脈脈行為攫取他人勞動成果，提供同質化的服務，這種行為對於創新和促進市場競爭沒有任何積極意義。而脈脈實施的行為，系未經新浪公司許可，利用網絡爬蟲技術進入新浪微博的伺服器後臺的方式來爬取相關數據，這種獲取信息的行為本身顯然有違公認的商業道德和誠信準則。

綜上，筆者建議，爬蟲技術的使用應當在合法、合規的前提下進行，「公開信息」並不代表「共享數據」，切莫從「蜘蛛俠」淪為「扒手」！

作者：康樂律師專注網遊和電競法律實務研究，擅長為網路遊戲公司在產品設計、運營、推廣、公司治理、著作權糾紛、刑事合規等方面提供法律解決方案；為電競俱樂部在選手經紀合約、主播合約糾紛、商務合作等方面提供法律服務。

爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

相關焦點

爬蟲玩的好,監獄進的早?

爬蟲，從入門到入獄？

爬蟲行業史

爬蟲玩得好,監獄進得早

爬蟲學得好，入獄入得早，到底是個什麼樣子的梗？

一段爬蟲引起的風暴,大數據公司史上最大「危機」

知名數據公司被查,你的爬蟲會送老闆進監獄嗎?

爬蟲爬的好,牢飯吃到飽?

精通 Python 網絡爬蟲:網絡爬蟲學習路線

網際網路人的法律科普課之用「爬蟲」真的合法麼？

Python爬蟲知識點梳理

乾貨|玩「爬蟲」可能觸犯的三宗罪

使用superagent+cheerio 寫爬蟲

Python——爬蟲

P2P暴力催收的背後,是無孔不入的爬蟲江湖

初學者如何用「python爬蟲」技術抓取網頁數據?

爬蟲入門到放棄01:什麼是爬蟲

適合新手學習的Python爬蟲書籍

深度好文 | 了解爬蟲技術方方面面

python-做爬蟲,如何避免牢獄之災