爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

2020-12-11 康樂律師

作者︱康樂

【導讀】近日,多家大數據風控平臺出事,51信用卡、魔蠍科技、新顏科技、公信寶均被杭州警方嚴查,上述企業的主要經營範圍是利用爬蟲技術採集用戶數據,用作網貸客戶的信用評估。爬蟲技術的使用不僅僅在風控行業,據筆者了解,遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息,了解用戶喜好,從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界,兼談遊戲行業在推廣中應如何合法使用爬蟲技術。

使用爬蟲技術的「反面教材」

今日頭條伺服器被非法抓取數據案

罪名:非法獲取計算機信息系統數據罪

上海某網絡公司CTO侯某某指使該司技術人員郭某破解北京字節跳動網絡技術有限公司的防抓取措施,使用「tt_spider」文件實施視頻數據抓取行為,造成被害單位北京字節跳動網絡技術有限公司損失技術服務費人民幣2萬元。經鑑定,「tt_spider」文件中包含通過頭條號視頻列表、分類視頻列表、相關視頻及評論3個接口對今日頭條伺服器進行數據抓取,並將結果存入到資料庫中的邏輯。在數據抓取的過程中使用偽造device_id繞過伺服器的身份校驗,使用偽造UA及IP繞過伺服器的訪問頻率限制。

法院認為,被告單位及相關責任人員採用技術手段獲取計算機信息系統中存儲的數據,情節嚴重,其行為已構成非法獲取計算機信息系統數據罪,應予懲處。

新浪微博用戶信息被非法獲取案

案由:不正當競爭糾紛

法院認為,脈脈在合作期間超出許可範圍抓取並使用新浪微博用戶職業信息、教育信息,並在合作終止後較長一段時間內仍然使用來自新浪微博的用戶信息作為脈脈軟體中非脈脈用戶的相關信息;同時,非法獲取並在一度人脈中展示用戶手機通訊錄聯繫人與新浪微博用戶的對應關係,使大量非脈脈用戶的新浪微博信息及好友關係展現在脈脈軟體中,便於脈脈軟體拓展自身用戶群,該行為屬於不正當競爭行為。

「爬蟲」本無罪,何以被查處?

爬蟲本是一項網絡搜索技術,根據搜索目的挑選出一批網頁,這些網頁的連結地址作為種子URL,將這些種子放入待抓取的URL隊列中,爬蟲從待抓取的URL隊列中訪問該 URL 對應的頁面,並進行頁面解析,把連結地址轉換為IP位址,然後交給網頁下載器負責下載,如此循環,直到URL 隊列中的所有URL 爬行完畢或滿足系統的一定停止條件為止。

要說爬蟲技術為何會被查處,筆者認為應當從如何使用該技術、技術採集的是什麼內容兩方面進行分析。

使用爬蟲技術之合規要求

《刑法》第285第2款對非法獲取計算機信息系統數據罪的表述是「侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據」即使用爬蟲技術構成本罪的手段行為有兩種:一種是「侵入」行為,另一種是採用其他技術手段行為。

「今日頭條伺服器被非法抓取數據案」中,我們注意到一個關鍵詞語「繞過」,通俗理解就是我原本設置了一個門禁不讓你進來的,而你卻通過技術手段避開了我設置的門禁系統闖入我的領地。本案中,被告人使用爬蟲技術繞過今日頭條網站伺服器端的身份驗證系統,行為性質實際就已經屬於非法侵入被害單位的計算機信息系統了。

遊戲企業推廣中需要使用爬蟲技術採集數據時,作為技術人員應當留意數據權利人或控制者是否在計算機信息系統中設置了robots.txt 以及robots.txt 對於爬蟲程序的授權範圍。robtes.txt,也稱為爬蟲協議、機器人協議等,全稱是「網絡爬蟲排除標準」(Robots Exclusion Protocol),是國際網際網路界為了兼顧保障搜索技術服務於人類,逐步確立起的通行的道德規範。主要內容為:當一個爬蟲程序訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,爬蟲程序就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的爬蟲程序將能夠訪問網站上所有沒有被口令保護的頁面。( 「百度百科」,由 「科普中國」科學百科詞條編寫與應用工作項目審核)。

爬蟲技術採集數據之合規要求

根據《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》(下稱《計算機解釋》)第1條的規定,獲取支付結算、證券交易、期貨交易等網絡金融服務的身份認證信息十組以上的;獲取前述以外的身份認證信息五百組以上的即達到非法獲取計算機信息系統數據罪的追訴標準。該解釋把非法獲取「數據」範圍限定在身份認證信息。《計算機解釋》第11條第2款本解釋所稱「身份認證信息」,是指用於確認用戶在計算機信息系統上操作權限的數據,包括帳號、口令、密碼、數字證書等。

「今日頭條伺服器被非法抓取數據案」中被告人非法抓取的是今日頭條的視頻數據,並不屬於身份認證信息,為何可以定罪?筆者認為,這裡涉及到信息和數據的區別問題,數據是信息的載體,是一連串的字符和代碼,而信息則是具體展現的內容。信息公開,不等於數據公開。從本罪保護的法益角度進行理解,非法獲取計算機信息系統數據罪保護的法益是計算機信息系統的數據安全,只有數據權利人允許公眾或他人獲取數據,數據才失去法益保護的必要性,爬蟲才能去採集這些數據。該案中今日頭條並沒有對被告方開放接口,顯然沒有將視頻數據公開的意思,理應受到法律的保護。

「公民個人信息」是指以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包括姓名、身份證件號碼、通信通訊聯繫方式、住址、帳號密碼、財產狀況、行蹤軌跡等。《網絡安全法》規定,經得被收集者同意以及做匿名化處理(剔除個人關聯),是合法收集公民個人信息的兩項原則。

若使用爬蟲技術非法獲取的數據是公民個人信息,就可能構成侵犯公民個人信息罪與非法獲取計算機信息系統數據罪的競合,此時,就要擇一重罪處罰。比如,通過爬蟲獲取了公民支付結算的身份認證信息100餘組,按計算機信息系統數據罪的追訴標準已經達到「情節特別嚴重」,量刑檔次處三年以上七年以下有期徒刑;按侵犯公民個人信息罪的追訴標準只是達到「情節嚴重」,量刑檔次化是處三年以下有期徒刑或者拘役,因而,以非法獲取計算機信息系統數據罪定罪處罰。

爬蟲技術與不正當競爭行為

當爬蟲技術採集的是「其他數據」例如共享單車客戶使用區域數據(以此增加投放車輛的準確性)、公交實時運行大數據、社交媒體用戶信息(不涉及身份信息部分)等等,這些不涉及公民身份信息也與虛擬財產無關的數據資源,能否受到法律保護呢?在新浪微博用戶信息被非法獲取一案中給出了答案,法院對原告主張保護的新浪微博用戶信息,通過反不正當競爭法給予了救濟。

遊戲企業推廣中使用爬蟲技術抓取遊戲平臺中的用戶評論內容、評分數據,這些內容不僅公開也沒有設置反爬蟲技術措施,是否可行?筆者認為,不是所有的數據都可以獲得反不正當競爭法的保護,至少滿足兩個條件,一是有用的、有市場價值的數據;二是當事人在創造數據過程中付出了必要勞動和投資。遊戲平臺中的用戶評論區內容、評分數據對玩家而言,能起指引遊戲消費的作用;作為平臺方而言,僅是提供了一個平臺供用戶對每款遊戲進行評論,並未對評論內容進行加工處理,沒有付出必要的勞動,不應當受反不正當競爭法保護,當然,如果遊戲平臺方設置了限制下載、限制訪問次數等反爬蟲措施的,則需取得授權方能爬取數據,否則就是侵權行為。

我國《反不正當競爭法》第2條規定,經營者在市場交易中,應當遵循自願、平等、公平、誠實信用的原則,遵守公認的商業道德。脈脈軟體,要求用戶註冊脈脈帳號時上傳自己的手機通訊錄聯繫人,從而非法獲取該聯繫人與新浪微博中相關用戶的對應關係,將這些人作為脈脈用戶的一度人脈予以展示,並將非法抓取的該人新浪微博頭像、名稱(暱稱)、職業信息、教育信息、個人標籤等信息用於一度人脈中。脈脈軟體主要是一款職場社交應用,新浪微博是一款社交軟體,但這些外在形式的不同並不影響雙方都提供網絡社交服務的實質。脈脈行為攫取他人勞動成果,提供同質化的服務,這種行為對於創新和促進市場競爭沒有任何積極意義。而脈脈實施的行為,系未經新浪公司許可,利用網絡爬蟲技術進入新浪微博的伺服器後臺的方式來爬取相關數據,這種獲取信息的行為本身顯然有違公認的商業道德和誠信準則。

綜上,筆者建議,爬蟲技術的使用應當在合法、合規的前提下進行,「公開信息」並不代表「共享數據」,切莫從「蜘蛛俠」淪為「扒手」!

作者:康樂律師 專注網遊和電競法律實務研究,擅長為網路遊戲公司在產品設計、運營、推廣、公司治理、著作權糾紛、刑事合規等方面提供法律解決方案;為電競俱樂部在選手經紀合約、主播合約糾紛、商務合作等方面提供法律服務。

相關焦點

  • 爬蟲玩的好,監獄進的早?
    其中的導火索都是因為——「爬蟲業務」。這也似乎印證了技術圈內的那句,「爬蟲玩的好,監獄進的早」。餵養、抓取、解析:爬蟲無限制循環2000年, eBay以對方故意違反「君子協議」向聚合價格信息的比價網BE(「Bidder’s Edge」一家提供一站式拍賣搜索的服務提供商)提起訴訟。
  • 爬蟲,從入門到入獄?
    由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。這樣導致網上流傳一個順口溜:爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。那什麼是爬蟲呢?爬蟲技術到底違規嗎?
  • 爬蟲行業史
    4、入獄可能性分析:爬蟲玩得好,監獄進得早?01 「悶聲賺錢——群雄逐鹿——一地雞毛」爬蟲發家三部曲要說2019年度「明星行業」,那肯定是大數據了,從開年開始,一個個被關進局子的企業差不多能排到法國了?跟爬蟲技術相關的是大數據行業,其實,這個行業也沒有那麼詭秘、更沒有什麼十惡不赦。
  • 爬蟲玩得好,監獄進得早
    「爬蟲爬得歡,監獄要坐穿;數據玩的溜,牢飯吃個夠。」 自9月份開始,一場迅疾浩大的風暴席捲了大數據風控行業,讓整個行業如履薄冰。這些本來應該建設智慧城市、人工智慧的公司,一旦把技術用來搜刮隱私,簡直是降維打擊。 比如,最簡單的爬蟲技術。他們一遍又一遍地在各大網站抓取你的個人信息。
  • 爬蟲學得好,入獄入得早,到底是個什麼樣子的梗?
    我們常說的爬蟲不是說的一個生物,而是說的網絡爬蟲,也叫網絡蜘蛛。我平常用的谷歌搜索和百度搜索就是爬蟲中的一種,網絡搜尋引擎通過爬蟲軟體更新自身的網站內容或網站的索引。並將自己所訪問的頁面保存下來,以便事後生成索引供用戶搜索。平時我們談到爬蟲學得好,入獄入得早,那為什麼搜尋引擎沒有這方面的擔憂呢?
  • 一段爬蟲引起的風暴,大數據公司史上最大「危機」
    真的是應了最近網上流傳的那句話:「爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。」不過這句話並非是危言聳聽,畢竟前車之鑑就擺在那裡,被有關部門請過去喝茶的也不是小人物。前些天有一篇《只因為寫了一段爬蟲,公司200多人被抓!》
  • 知名數據公司被查,你的爬蟲會送老闆進監獄嗎?
    圖片來自 pexels以上是前幾天技術圈傳播的一則新聞,又一家數據公司被調查,很多數據從業者、爬蟲開發者發出了「感嘆」 —— 「爬蟲用得好,XX 進得早;數據玩得溜,XX 吃個夠」。如何界定爬蟲的合法性,目前沒有明文規定,但我通過翻閱大量文章、事件、分享、司法案例,我總結出界定的三個關鍵點:數據的採集途徑通過什麼途徑爬取數據,這個是最需要重視的一點。總體來說,未公開、未經許可、且帶有敏感信息的數據,不管是通過什麼渠道獲得,都是一種不合法的行為。
  • 爬蟲爬的好,牢飯吃到飽?
    張強,在一家大數據風控公司擔任爬蟲工程師,每當看到網上的段子,爬蟲學得好,監獄進得早,他總是莞爾一笑,心想:關我毛事啊,我只是個程式設計師,要坐牢也是老闆去坐吧,我又沒拿數據去賣錢。時間回到 9 月,某一天的上午,張強和同事們像往常一樣上班,突然公司裡來了一群警察,要求所有人雙手離開電腦、手機等設備,全部靠牆站立,工程師小哥哥、小姐姐們哪裡見過這個架勢,都懵了,只得照辦。
  • 精通 Python 網絡爬蟲:網絡爬蟲學習路線
    隨著大數據時代的到來,人們對數據資源的需求越來越多,而爬蟲是一種很好的自動採集數據的手段。那麼,如何才能精通Python網絡爬蟲呢?學習Python網絡爬蟲的路線應該如何進行呢?在此為大家具體進行介紹。
  • 網際網路人的法律科普課之用「爬蟲」真的合法麼?
    除了傳統模式,信息管理人員的違法洩漏外,更多的是通過爬蟲技術,爬取你在網上留下的痕跡,然後進行分析和利用。數據時代,爬蟲技術水漲船高。但是,你手頭的爬蟲工作真的合法嗎?我想,這是很多人關心的問題。我的一個朋友小瑞就遇到過這樣的事情。他跟朋友合夥開發了一個軟體,提供免費的視頻觀看服務。視頻從哪兒來的呢?
  • Python爬蟲知識點梳理
    回復「1024」有驚喜學任何一門技術,都應該帶著目標去學習,目標就像一座燈塔,指引你前進,很多人學著學著就學放棄了,很大部分原因是沒有明確目標,所以,在你準備學爬蟲前,先問問自己為什麼要學習爬蟲。有些人是為了一份工作,有些人是為了好玩,也有些人是為了實現某個黑科技功能。不過可以肯定的是,學會了爬蟲能給你的工作提供很多便利。
  • 乾貨|玩「爬蟲」可能觸犯的三宗罪
    來源:一本財經導師:冉晉 | 整理:一本學院最近網上流傳一個順口溜:爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。
  • 使用superagent+cheerio 寫爬蟲
    閱讀本文,你會學習到這些知識點:如何使用 superagent 獲取頁面內容如何使用 superagent 獲取 JS 文件的內容如何使用 superagent 下載文件如何使用 cheerio 操作頁面 DOM如何正確設置字符編碼來避免亂碼如何使用正則表達式去除字符串中的多餘信息使用 superagent 獲取頁面內容
  • Python——爬蟲
    一、什麼是網絡爬蟲在隨著大數據時代的到來,網絡爬蟲在網際網路中的地位也越來越重要。而網際網路中的數據是海量存在的,那麼我們如何自動高效地獲取網際網路中我們感興趣的信息並為我們所用就成了一個重要的問題,而爬蟲技術就是為了解決這些問題而產生的。
  • P2P暴力催收的背後,是無孔不入的爬蟲江湖
    而針對另一更敏感問題——是否利用爬蟲違規收集用戶信息,51 信用卡於昨天(10月22日)澄清說,公司所有的個人信息收集均有合法用戶授權,並保留對惡意報導的起訴權利。不過,這並不能打消用戶的顧慮,風聲鶴唳的現金貸和大數據,或許只是揭開了這個龐大「爬蟲產業鏈」的冰山一角。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • 爬蟲入門到放棄01:什麼是爬蟲
    序章18年初,還在實習期的我因為工作需求開始接觸Java爬蟲,從一個網站爬取了163W條poi數據,這是我人生中寫的第一個爬蟲,也是唯一的一個Java爬蟲。後來這些poi數據也成了我畢業設計中的一部分。
  • 適合新手學習的Python爬蟲書籍
    此外,本書還介紹了如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。Python網絡數據採集
  • 深度好文 | 了解爬蟲技術方方面面
    web 技術飛速的發展,動態網頁越來越多,尤其是移動端,大量的 SPA 應用,這些網站中大量的使用了 ajax 技術。爬蟲技術的現狀語言理論上來說,任何支持網絡通信的語言都是可以寫爬蟲的,爬蟲本身雖然語言關係不大,但是,總有相對順手、簡單的。
  • python-做爬蟲,如何避免牢獄之災
    隨著數據資源的爆炸式增長,網絡爬蟲的應用場景和商業模式變得更加廣泛和多樣,網絡爬蟲技術為數據收集者提供了極大的便利,也給專業網絡爬蟲公司帶來巨大的收益。但是與之相伴的是許多人好奇的一件事——爬蟲是否違法?