一段爬蟲引起的風暴,大數據公司史上最大「危機」

2020-12-11 科技喻小川

最近一段時間有關大數據的話題可謂是熱火朝天，要知道大數據作為一項切實改變著我們生活的技術，雖然給我們的生活帶來了不少便利，但也讓我們的隱私蕩然無存。

不過最近的數據圈子並不太平，準確一點的說，是爬蟲圈不太平，甚至可以說是迎來了中國爬蟲圈的最大風暴。

多家公司高管進宮

自今年9月份開始，圈內大數據公司的高管被有關部門請去小黑屋裡喝茶，直到現在為止音訊全無。

就在前幾天，某信用卡公司也被警方進行調查，其中一個原因便是因為該公司違規使用爬蟲爬取用戶隱私信息，給外包催收公司提供用戶隱私信息。

可以說，這幾個鮮活的例子，直接讓整個行業進入冰河時期，業內人士每天如同行走在刀尖之上，小心謹慎，生怕一個不小心便萬劫不復。

真的是應了最近網上流傳的那句話：「爬蟲玩得好，監獄進得早。數據玩得溜，牢飯吃個夠。」

不過這句話並非是危言聳聽，畢竟前車之鑑就擺在那裡，被有關部門請過去喝茶的也不是小人物。

前些天有一篇《只因為寫了一段爬蟲，公司200多人被抓！》的文章也是引起了廣泛熱議，文章中寫的是一名程式設計師寫了一段爬蟲後被刑偵的事情，其中，大家最關心的點便是爬蟲究竟是合法還是違法的？

在探討爬蟲究竟是合法還是違法之前，先帶大家了解一下爬蟲到底是什麼。

網絡爬蟲到底是啥

網絡爬蟲又名「網絡蜘蛛」，是通過網頁的連結地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連結地址尋找下一個網頁，這樣一直循環下去，直到按照某種策略把網際網路上所有的網頁都抓取完為止的技術。

網絡爬蟲按照系統結構和實現技術，大致可以分為以下幾種類型：通用網絡爬蟲（General Purpose Web Crawler）、聚焦網絡爬蟲（Focused Web Crawler）、增量式網絡爬蟲（Incremental Web Crawler）、深層網絡爬蟲（Deep Web Crawler）。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的

我們在日常生活所使用的那些搜尋引擎就是一種巨型爬蟲系統，例如Google、Yahoo和百度等，通過你輸入的內容來進行篩選之後再爬取網頁。

爬蟲技術的善與惡

爬蟲技術本身是沒有對錯之分的，但使用技術的人就難免有問題了。例如Google就是善意爬蟲，將用戶想要瀏覽的網頁呈現在用戶面前，用戶開心，被爬取的網頁也開心。

善意的爬蟲對大家都好，而惡意的爬蟲卻很容易影響到我們，甚至會洩露我們的隱私信息。

像一些搶票軟體這樣的爬蟲就屬於惡意爬蟲，他們無限制的對12306進行訪問，會對12306的伺服器造成很大壓力，也會影響一些正常購票用戶的操作。

因此12306也會通過驗證碼的方式來對爬蟲進行攔截，像2015年春運前夕12306上線的「史上最坑圖片驗證碼」，想必很多經歷過的人都記憶猶新吧。

不僅有在「孫楠、王大治、楊臣剛」中選出楊臣剛的圖片，還有在全部是「白百何和王珞丹」中選出誰是白百何。你要是分不清楚這些人臉，就連家都回不去了。

可能有人會問了，搶票軟體很方便，每次自己在12306上買不到票的時候就會去一些搶票軟體上進行搶票。

但你需要知道的是，用搶票軟體的話不僅個人信息容易洩漏，而且對於一些不熟悉網際網路的人來說，他們可能僅僅只是會用手機打電話而已，搶票軟體對他們而言是不是太不公平了呢？

同時，根據公開數據顯示：「最高峰時1天內頁面瀏覽量達813.4億次，1小時最高點擊量59.3億次，平均每秒164.8萬次。」這其中還沒有包括被驗證碼攔截在外的爬蟲，可想而知12306的伺服器每天承擔的壓力有多大。

技術犯罪隱私洩露

如果通過爬蟲抓取網絡公開信息，並不違法；但如果抓取的是未公開、未授權的個人敏感信息，就屬於違法行為，違反的是2017年6月1日實施的《網絡安全法》以及「兩高」相關司法解釋。

前面我就說過，技術本身沒有對錯之分，同樣是爬蟲技術，Google所帶來的是互利雙贏，大家都開心的局面。而搶票軟體這種，則就是錯誤的案例，不僅會造成資源浪費，也會讓你隱私洩露的風險增大。

現如今，爬蟲所造成的危害已經不僅僅是資源浪費，給伺服器增壓了。而是一些打著「大數據」旗號的公司，披著光明的外衣，幹著骯髒齷齪的勾當。

它們使用爬蟲抓取了未公開、未授權的個人敏感信息，甚至違規留存、使用、買賣這些隱私數據，而且這種大數據還是網際網路金融風控的「基礎設施」。

某家科技公司曾經推廣過自家的爬蟲產品只需要用戶提供在其他現金貸平臺的帳號和密碼，就可以爬取用戶的所有信息。

甚至這家科技公司還有專門爬取支付寶數據的產品，只需要用支付寶掃描一下二維碼，就可爬取支付寶用戶的真實姓名、手機號、收貨地址、近一年的購物信息、交易記錄等。

因此，一些放貸公司在拿到了這些數據之後，就可以進行分析用戶的還款能力和信譽度，來進行廣告投放和簡訊推送，所以大家手機上或者郵箱裡總能收到一些貸款廣告。

國家出手行業整頓

爬蟲橫行，其歸根結底不過是利益所趨罷了，不過現如今國內數據收集法律已經逐漸健全了起來。

10月初，有媒體透露，行業正在籌劃《個人金融信息保護試行辦法》，並開始徵求各方意見。10月10日，該辦法草稿甚至已經通過央行下發到各家銀行，持續徵求意見。

據悉，該辦法要求金融機構不得從非法從事個人徵信業務活動第三方獲取個人金融信息，也不得以「概括授權」方式取得信息主體對收集、處理、使用和對外提供其個人金融信息的同意。

如果該辦法正式出臺，銀行需要根據要求對提供業務數據第三方機構進行摸排，對於不能保證數據來源合法數據供應商，則要停止合作。

在法律法規不健全的時候，個人數據被濫用於商業廣告和金融產業，問題層出不窮。而新規雖然有些一刀切，不過也沒有出乎意料，數據屬於當今社會的超能武器，大數據所帶來的利益和風險是一樣大的，被嚴格管理也是理所當然的。

技術沒有對錯之分，但使用它的人卻有好壞之分。網絡不是法外之地，合理利用技術才是長久之計。

相關焦點

只因寫了一段爬蟲,大數據公司200多人被抓!

技術部上報領導之後，公司開會商議後決定報案。爬蟲把對方伺服器搞掛了案發前一段時間，小明（化名）接到了技術部領導的需求，要求寫一段爬蟲批量從網上的一個接口抓取數據，爬蟲開發完後測試沒有問題，小明就將程序上傳到了公司伺服器。
爬蟲遇史上最嚴審查,套路貸整治成導火索

撰文 |陳大柴編輯 |陳大柴出品 |熱浪財經近日，「只因寫了一段爬蟲，公司200多人被抓」這件事，再次將爬蟲公司以及大數據行業，推向輿論的風口浪尖。涉事公司巧達科技，B輪估值2億美元，宣稱是中國最大的用戶畫像關鍵數據服務提供商，通過整合多達10億份通訊錄，2.2億份自然人簡歷、100億個用戶識別ID組合和1000億+用戶綜合數據，生成出超過8億個自然人數據。這些海量數據的抓取，離不開程式設計師開發的爬蟲系統支持。
「爬蟲」相關罪名分析（上篇）——「爬蟲」犯了什麼罪？

前言：幾日前，一篇《只因寫了一段爬蟲，公司200多人被抓！》文章引起各界關注。在這篇文章出來之前，已經有多家做「數據」的公司被調查處理：其中包括：1、該文章所涉的公司「巧達科技」，該公司號稱是中國最大的用戶畫像關鍵數據服務提供商，專注於大數據及人工智慧領域前瞻性產品研發，客戶覆蓋網際網路行業及泛金融領域。
解密遊走於法律邊緣的爬蟲技術

這是一場針對大數據服務商的強監管風暴。自9月初起，多家杭州、上海的大數據風控公司被調查，業內知名的集奧聚合、新顏科技、公信寶等多家公司的核心高管被警方帶走調查，連一些與這類數據公司有過交易經歷的公司高管也被警方帶走協助調查，其中包括中國電信旗下徵信機構天翼徵信的多位核心高管。但在消息傳出後，天翼徵信和新顏科技方面仍向《中國新聞周刊》表示，「公司業務一切正常。」
爬蟲玩的好,監獄進的早?

在消費金融科技領域中，大數據風控業務已成為關鍵環節。但當下大數據風控行業卻迎來多事之秋，多家為網際網路小貸公司、個人消費類業務金融等公司提供服務的大數據風控領域企業被抓，他們旗下的爬蟲業務先後都因「涉黑」被暫停營業。
數學史上的三次數學危機

在數學史上，貫穿著矛盾的鬥爭與解決。當矛盾激化到涉及整個數學的基礎時，就會產生數學危機。而危機的解決，往往能給數學帶來新的內容、新的發展，甚至引起革命性的變革。數學的發展就經歷過三次關於基礎理論的危機。
知名數據公司被查,你的爬蟲會送老闆進監獄嗎?

9 月 6 日下午，多位業內人士稱，杭州知名大數據服務公司杭州魔蠍數據科技有限公司，疑似被相關執法人員控制，其中一位周姓核心高管人員被警方帶走。圖片來自 pexels以上是前幾天技術圈傳播的一則新聞，又一家數據公司被調查，很多數據從業者、爬蟲開發者發出了「感嘆」 —— 「爬蟲用得好，XX 進得早;數據玩得溜，XX 吃個夠」。
2019場景大數據50強

也同樣在這一年，中國大數據行業出現了前所未有的動蕩。聚信立、天翼徵信、公信寶、51信用卡、考拉徵信等公司紛紛被列入調查對象；上百款APP紛紛因非法收集個人隱私等問題下架整改。面對史上最嚴的監管，中國的大數據行業正走在從野蠻增長向正規化管理轉型的路上。形成真金白銀的實力，需要一些最根本的因素。
風口變「封口」,數據行業草莽時代落幕!

最近數月來，數據行業迎來又一輪強監管風暴，曾經的創業風口，如今不少從業者卻直接被監管帶走調查…… 一個爬蟲引發的案件 2019年的某個工作日，在一家大數據公司工作的程式設計師張明，接到了技術部領導的需求，要求寫一段爬蟲批量從一家網際網路公司網站的一個接口抓取數據，
網絡爬蟲技術促大數據與CPI 調查融合發展

今年以來，青島調查隊在居民消費價格調查中，創新應用網絡爬蟲技術開展網際網路大數據採集和應用，在實踐中顯現出良好效果。網絡爬蟲技術在CPI調查中成效漸顯青島調查隊積極探索、大膽嘗試，應用網絡爬蟲技術有力地推進了CPI調查。採集房租網絡大數據評估房租價格指數。
互金爬蟲大清洗:曾與現金貸共生共榮

而為「714」高炮、「套路貸」提供土壤的數據公司，也不可避免地受到了波及。據《稜鏡》了解，目前很多涉及爬蟲業務的數據公司都已經暫停或調整服務，進而引發更大的蝴蝶效應。一位消費金融平臺的市場部人士告訴《稜鏡》，那些依賴數據公司提供服務的現金貸平臺，一下失去了風控能力，這幾天陸陸續續在各個渠道下架自己的貸款產品。
巧達科技被端,揭露大數據行業的兩大頑疾

一家名叫巧達科技的AI大數據公司火了，不是因為融資，也不是因為它吸引了什麼大牛，而是因為它被警方一鍋端了。「大約是兩三周前，警察突然進來，把所有人都帶走了，甚至連來面試的人都帶走了。一兩百號人，一溜警車，全給帶走了。」財新網探訪巧達科技辦公所在地時，大樓保安與前臺如此說。
「爬蟲」相關罪名分析（下篇）——爬蟲相關商業模式的刑事合規

對於數據公司或是以提供爬蟲服務的公司來說，其通過提供數據或提供所開發的爬蟲軟體營利。而數據公司搜集數據，在海量的數據下，必然又會利用爬蟲程序搜集數據。以爬蟲公司為例，其根據客戶所需，開發爬蟲程序，提供給客戶使用。客戶用爬蟲軟體幹什麼則在所不問。為客戶開發爬蟲軟體，便是該類公司的商業模式。
爬蟲，從入門到入獄？

自2019年9月以來，多家知名公司相關人員被抓或被調查，這些機構均涉及大數據風控業務和爬蟲技術的應用由此，大數據業務的合規合法問題、爬蟲技術的合理應用問題，引起了大數據和金融科技行業的特別重視。這樣導致網上流傳一個順口溜:爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。那什麼是爬蟲呢？爬蟲技術到底違規嗎？
數學史上的3次數學危機

在數學的發展史上，大大小小的矛盾出現過很多，但很少能威脅到整個數學基礎理論，甚至引起危機。即便是千百年來人們對歐幾裡得幾何公理第五公設的疑惑，也不曾造成數學上的危機，且最終成就了羅巴切夫斯基幾何和黎曼幾何。數學史上共出現三次數學危機，每次都是由於悖論的發現而深刻和廣泛的影響了數學基礎。
玩大數據一定用得到的19款 Java 開源 Web 爬蟲

Web-Harvest 的主要目的是加強現有數據提取技術的應用。它的目標不是創造一種新方法，而是提供一種更好地使用和組合現有方法的方式。它提供了一個處理器集用於處理數據和控制流程，每一個處理器被看作是一個函數，它擁有參數和執行後同樣有結果返回。
史上最強優惠風暴創維啟動千萬臺「以舊換新」工程

史上最強優惠風暴創維啟動千萬臺
寫一段Python爬蟲前,需要準備什麼?

了解爬蟲的工作原理爬蟲呢，其實就是模仿正常瀏覽者去自動獲取站點中我們需要的數據，對數據進行處理，方便以後的分析或別的用途。模仿正常瀏覽者，就需要知道正常的瀏覽者都帶有什麼標示，都有什麼習慣。一般我們用兩種方式提取信息：從接口直接獲取原始數據，篩選有用數據。從渲染好的頁面獲取頁面中有用的數據。接口獲取數據一般來說比較推薦，不受站點頁面更新，改版的影響。
爬蟲行業史

4、入獄可能性分析：爬蟲玩得好，監獄進得早？01 「悶聲賺錢——群雄逐鹿——一地雞毛」爬蟲發家三部曲要說2019年度「明星行業」，那肯定是大數據了，從開年開始，一個個被關進局子的企業差不多能排到法國了？跟爬蟲技術相關的是大數據行業，其實，這個行業也沒有那麼詭秘、更沒有什麼十惡不赦。
入門Python爬蟲——獲取數據篇

作者：李菲來源：人工智慧學習圈在如今的大數據時代，相信大家都對Python一詞有所耳聞。而Python爬蟲，簡單來說，即通過Python程序獲取對我們有用的數據。首先，在爬蟲中最常見的代碼便是：即引入requests庫，是一切爬蟲程序的基礎。在Python中，有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。

一段爬蟲引起的風暴,大數據公司史上最大「危機」

相關焦點

只因寫了一段爬蟲,大數據公司200多人被抓!

爬蟲遇史上最嚴審查,套路貸整治成導火索

「爬蟲」相關罪名分析（上篇）——「爬蟲」犯了什麼罪？

解密遊走於法律邊緣的爬蟲技術

爬蟲玩的好,監獄進的早?

數學史上的三次數學危機

知名數據公司被查,你的爬蟲會送老闆進監獄嗎?

2019場景大數據50強

風口變「封口」,數據行業草莽時代落幕!

網絡爬蟲技術促大數據與CPI 調查融合發展

互金爬蟲大清洗:曾與現金貸共生共榮

巧達科技被端,揭露大數據行業的兩大頑疾

「爬蟲」相關罪名分析（下篇）——爬蟲相關商業模式的刑事合規

爬蟲，從入門到入獄？

數學史上的3次數學危機

玩大數據一定用得到的19款 Java 開源 Web 爬蟲

史上最強優惠風暴創維啟動千萬臺「以舊換新」工程

寫一段Python爬蟲前,需要準備什麼?

爬蟲行業史

入門Python爬蟲——獲取數據篇