金融大數據公司接連被查,爬蟲到底犯法嗎?

2020-12-26 騰訊網

作者 | 劉燕

這可能是大數據行業經歷的最寒冷的一個冬天。

年關將至,國人習慣於用各種圓滿的方式給即將過去的一年劃上句號,不過,這對於許多大數據行業從業者來說,似乎有些奢望。整頓、倒閉、離職…最近數月以來,股股冷峻的氣息一直籠罩在行業上空。

多次監管動作不斷提醒和鞭策著大數據公司,是時候告別野蠻生長的時代了,合規才是正途。

巨變啟幕

監管重錘落地,此前狂飆突進的大數據產業突然被按下「暫停鍵」。

自今年 9 月以來,多家大數據公司接連被查,巨變啟幕,行業「一夜入冬」。

9 月 6 日,大數據智能風控服務供應商魔蠍數據被警方調查,一位核心高管被帶走,官網至今無法正常訪問;另一家大數據公司新顏科技的 CEO 黃向前也在同一天被警方帶走調查;這天,聚信立發通知主動停止了爬蟲業務,然未能倖免於「難「,僅過了幾天後,聚信立被爆有警方進駐公司調查;9 月 11 日,知名幣圈項目公信寶運營主體被杭州警方查封;次日,有媒體報導,集奧聚合深圳分公司十餘人被帶走,北京辦公室也有多人被深圳警方帶走;另有爆料稱,天翼徵信的總經理、副總經理及市場人員被警察帶走。

一周之內,5 家公司被查,如此陣勢引發業內恐慌,但這可能只是剛剛開始。

緊接著,有傳言稱百融雲創數據查詢受影響、個人徵信數據業務被暫停,深圳分公司員工被帶走,後被官方否認。9 月 27 日,同盾科技子公司信川科技高管被帶走協助調查;10 月 21 日,51 信用卡委託外包催收公司因涉嫌尋釁滋事等罪被調查;10 月 25 日,新京報報導稱,央行發文緊急調研銀行與上述第三方數據公司合作情況,排查的合作內容主要涉及數據採集、信用欺詐、信用評分、風控建模…

有業內人士分析稱,上述公司被查與其開展的「爬蟲」業務有關,根源亦在於涉足現金貸、715 高炮、套路貸、暴力催收、「超利貸」等業務。

據 AI 前線不完全統計,此次清查波及的大數據公司至少 15 家左右。(以下根據公開資料整理,力有不逮,難免遺漏或錯誤,請見諒)

那個「2019 年,捕獲獨角獸最多的機構:紅杉、阿里、騰訊和警方」的網紅段子在引人發笑的同時,也反映出了當下大數據公司的尷尬處境。

今年 11 月以來,公安部加大了 APP 違法違規採集個人信息集中整治力度,共下架整改 100 架 APP,其中考拉海購、房天下、樊登讀書、天津銀行等知名 APP 也在列,這些 APP 多涉及無隱私協議、收集使用個人信息範圍描述不清、超範圍採集個人信息和非必要採集個人信息等情形。據悉,今年以來,公安部「淨網 2019」專項行動,已查處違法違規採集個人信息的 APP 共 683 款。

監管風暴席捲而來。大數據行業內人心惶惶,經此一擊,許多大數據公司遭受重創,大量數據接口被切斷,數據產品停售,部分公司業務部門解散、裁員,還有一些公司瀕臨倒閉。據一本財經統計,或有上萬人因此離開大數據行業。

禍起爬蟲?

市場已是風聲鶴唳。

一時間,人人聞「爬蟲」色變。白騎士、葫蘆數據、天機數據、立木徵信、聚信立等大數據公司紛紛宣布暫停爬蟲業務,還有的公司在幾天之內火速將爬蟲業務從經營業務範圍中「抹掉」,招聘「爬蟲工程師」的公告信息也被緊急撤下,一些爬蟲程式設計師因為擔憂是否遊走在違法邊緣,頭髮又多掉了幾根…

業內有這樣一種說法,爬蟲貢獻了網際網路 50% 的流量,它對於網際網路的繁榮功不可沒。但該技術同時也因「用途」而充滿爭議。爬蟲是一項見不得「陽光」的技術,它廣泛運用,卻少有人願意承認在使用它。因為它常常被用作非法收集信息的工具,站上數據隱私、數據安全的對立面。

「爬蟲技術本身並無對錯,但要看怎麼用,用錯了肯定違法啊」,一位程式設計師向 AI 前線表示,「技術無罪,關鍵在於人」。

網絡爬蟲是非常普遍的一種數據挖掘技術,它是一種按照一定的規則,自動地抓取網絡信息的程序或者腳本。爬蟲技術最早主要運用在搜尋引擎中,它滿足了人們的數據獲取、分析需求。早在 1995 年,為了不越「邊界」,網際網路搜尋引擎與網頁持有者之間達成了一項「君子協定」— robot 協議,該協議規定了哪些信息該爬,哪些信息不該爬,20 多年來,該協議一直沿用至今。

在遵循 robot 協議的前提下使用爬蟲技術是沒有任何風險的。但往往有些「作惡者」試圖越過紅線,一些大數據公司打著「大數據分析」的名頭違規違法爬取任何網頁及訪問用戶的數據,致使「蟲災」泛濫。

現在的爬蟲似乎無所不能,只要有帳號密碼都可以爬,包括電商平臺、外賣平臺、地圖、旅行網站、共享單車、等平臺的個人信息,用戶的通訊錄、上網地址、收貨地址、聊天記錄、搜索記錄、支付記錄,甚至央行的徵信報告…總之,一切皆可爬,還可進行定製化爬取。

在網際網路金融領域,上述數據主要被濫用於借貸、風控環節,具體多用在導流獲客和暴力催收上。除了支付寶爬蟲、微信爬蟲,甚至還有同業爬蟲,同業爬蟲即爬取同行的信息。據了解,摩羯科技曾推出該款產品,其要求借貸者提供在其它平臺上的用戶名與密碼,並通過爬蟲爬來競品的貸款額度及還款記錄,這樣便相當於剽竊了同行的風控成果。

今年 3 月,號稱擁有中國最大的簡歷資料庫的巧達科技被警方一鍋端,該公司的簡歷資料庫全部是通過非法手段爬取而來,非法獲取的簡歷超過 2 億條,它將簡歷庫以 13800 元每年的價格出售

非法獲利,光是 2017 年,巧達科技憑此業務營收高達 4.11 億元。洩露、買賣、濫用,這些違規收集來的數據被肆無忌憚的曝光、出售,令用戶信息猶如在裸奔,嚴重侵犯了用戶個人隱私。

爬蟲也是一項「矛盾」的技術。爬與反爬的「鬥爭」每天都在上演,力量此消彼長。

據一位資深程式設計師介紹,現在比較常見的反爬蟲技術手段主要有,檢測 Header 信息;設置 IP 訪問頻率,分析同一 IP 或同一設備在短時間內多次訪問同一頁面或進行相同操作;識別 UA、通過動態頁面增加爬取難度等方式。

這幾年,隨著隨著 AI 的發展,一些機器學習、canvas 指紋等智能反爬蟲技術也被運用起來。例如,騰訊雲網站管家 WAF 就將 AI 檢測引擎能力,運用到了爬蟲 Bot 程序檢測的環節上,AI 引擎能夠對站點訪問流量的會話進行追蹤,通過流量畫像,匹配行為模型及行為標籤進行識別,進而識別出爬蟲 Bot 程序流量行為。

今年 5 月,被稱為「中國版 GDPR」的《數據安全管理辦法》徵求意見稿發布,第 16 條規定,網絡運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行;如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。

一位業內人士認為,技術只是工具,在獲取數據時需要考慮數據到底有沒有獲得授權,需要幾方授權,在拿到用戶授權的情況下,有沒有拿到網站等數據來源方的授權,這其中涉及到的權責邊界應該更明確。

隨著監管越來越嚴格,爬蟲技術的使用邊界也將更加明晰。網際網路從業者應當懷有敬畏之心,要時時注意不要觸碰邊界,畢竟,爬蟲只是技術,灰色的是「助惡者」。

繁榮下的危局

整頓風波揭開了大數據灰色產業鏈的冰山一角,也將大數據行業高光背後的暗影一併曝在了陽光下。

伴隨著網際網路 + 迅速成為潮流,以及深度學習推動下的第三次人工智慧熱潮,大數據技術備受追捧,」得數據者得天下「是一度被風口裹挾著的大數據產業的繁榮寫照。

金融大數據是大數據產業應用最廣的領域之一。2013 年前後,網際網路金融開啟了發展元年,一大批 P2P、第三方支付等互金平臺湧現。P2P 平臺一騎絕塵,但缺乏數據能力、風控能力差是其發展掣肘之一,如此一來,就為第三方數據公司提供了誕生的契機。

同盾科技便是彼時的入局者之一。2013 年,時任阿里巴巴集團安全部技術總監的蔣韜還曾因離職創辦同盾科技在業內引起一番不小的轟動。成立當年,同盾科技便拿到了來自 IDG 資本和華創資本的 A 輪融資。AI 前線查詢天眼查顯示,同盾科技自成立以來已獲 6 輪融資,除 2018 年外,幾乎每年都有融資,最近的一次是在今年 4 月完成的超 1 億美元 D 輪融資,估值近 20 億美元。

有數據統計,2013 年到 2015 年,中國市場上 P2P 網貸平臺數量從 800 家增長至 2595 家,累計交易規模超過 11.4 萬億。另據億歐智庫《2018 中國智能風控研究報告》顯示,截至去年年底,573 家金融風控企業共獲得投資金額超過 1000 億元,其中三成企業獲得三次及以上的投資。這些企業中,有 69.8% 成立於 2013 年 -2017 年。

最近兩年,金融科技成為 P2P 熱潮落幕後新的創投風口,再次助推大數據產業發展走向新的高潮,同盾科技、51 信用卡等大數據公司也躍升為明星獨角獸。

在草莽生長的早期階段,不少大數據公司趁機鑽了法律不完善的空子,其數據業務遊走在道德和法律邊緣。自 2015 年以來的多次監管動作也無不為從業機構敲響警鐘 — 要合規化使用數據。

在很大程度上,這些 P2P 網貸平臺與第三方數據公司是「相互成就」的關係。而一榮俱榮,一損俱損,當監管「緊箍咒」收緊之後,大數據產業也迎來了洗牌階段。「那些能夠滿足政策及市場客戶需求的團隊,肯定會越做越好,而那些無法真正滿足需求的,將面臨淘汰」,一位大數據行業從業者向 AI 前線表示。

某頭部網際網路消費金融平臺的大數據負責人表示,這次的監管行動從產品— 爬蟲技術—相關的數據方— 網貸平臺,可以說是一條鏈式的查處。儘管有些嚴格,但如果不經過整治, 行業內存在的「缺乏明確規則」的問題就很難作出改變。一些大數據公司「單純」的認為自己只是給甲方做數據服務,即便出了問題,也事不關己。但現在來看,這些權責是需要進一步明確的。

漸入寒冬深處,結局也格外悽冷。

一些重度依賴爬蟲業務的大數據公司輕則業務停滯,重則或將因此倒下,即便能勉強活下來的恐怕也要被迫轉型。另一方面,一些 AI 公司、金融科技公司也會受到不同程度的影響,沒有了大量數據持續「投餵」,模型該如何迭代優化?

「有時候市場表面上的虛假繁榮是難以持續的,泡沫總有一天要被戳破。這次監管風暴對小機構來說,以後可能更難做了,對一些大機構會有一定影響,但可能影響沒那麼大,優勝劣汰會加劇。大浪淘沙後留下來的是那些對用戶來說定價更低、體驗更好的產品,而淘汰掉的絕大部分是那些不合規的企業。因此,從長期來看,通過強監管之後,大數據行業會更合規,總體來說對用戶會更友好」,上述大數據負責人繼續說道。

一位第三方數據公司的高管對形勢感到樂觀,她認為,這次監管風暴對行業的健康發展是有利的,監管介入、政策出臺,這都在引導行業往好的方向發展,數據採標清洗質檢等流程會逐漸趨向標準化、合規化、安全化,進而提高大數據行業的進入門檻,並倒逼從業者提升服務質量。

一半是海水,一半是火焰,值得一提的是,一些具有國企背景的大數據公司逆勢成為行業裡的「香餑餑」。那些不合規的企業終將湮沒不斷滾滾向前的歷史洪流中,未來的大數據產業屬於合規的參與者。

點個在看少個 bug

相關焦點

  • 爬蟲整頓風暴衝擊持續 杭州大數據服務商接連被查
    (原標題:爬蟲整頓風暴衝擊波持續 杭州大數據服務商接連被查,行業整肅態勢趨嚴)
  • 大數據公司接連被查 同盾科技被捲入
    近期,大數據行業風聲鶴唳,多家公司傳出被調查的消息。而9月16日晚開始在業內瘋轉的一篇名為《同盾科技爬虫部門解散,無意間掀起行業整治風暴》的文章將知名大數據風控平臺——同盾科技有限公司(下稱「同盾科技」)迅速推向輿論漩渦中心。
  • 又一家數據公司被查,爬蟲到底做錯了什麼?
    9 月 6 日下午,多位業內人士稱,杭州知名大數據服務公司杭州魔蠍數據科技有限公司,疑似被相關執法人員控制,其中一位周姓核心高管人員被警方帶走。以上是昨天技術圈傳播的一則新聞,又一家數據公司被調查,很多數據從業者、爬蟲開發者發出了「感嘆」 —— 「爬蟲用得好,XX進得早;數據玩得溜,XX吃個夠」。
  • 爬蟲整頓風暴衝擊波持續 杭州大數據服務商接連被查,行業整肅態勢...
    21世紀經濟報導記者了解到,其實,外界的這種猜想也是無風不起浪,爬蟲整肅風暴緣何刮到杭州並捲起風暴?今年以來,大數據風控行業頗不平靜,9月份以來,杭州的魔蠍科技和公信寶運營公司、杭州存信數據科技有限公司(以下簡稱「杭州存信」)以及貸款超市頭部機構「信用管家」先後被杭州警方調查。此外,還有多家大數據風控公司人士「協助調查」,涉及同盾科技等多家機構。
  • 數據抓取與販賣迎來強監管?被調查公司或涉及運營商爬蟲服務
    近日,有消息稱,杭州魔蠍數據科技有限公司(簡稱「魔蠍科技」)和上海新顏人工智慧科技有限公司(簡稱「新顏科技」)有高管被警方帶走,幾天後,公信寶的運營公司被杭州市公安局西湖分局古蕩派出所查封。據知情人士透露,上述公司被查,或與其爬蟲業務非法獲取用戶信息、助力暴力催收等有關。
  • 「爬蟲服務」犯眾怒?公信寶等多家公司或因涉嫌侵犯隱私相繼被查
    其中,魔蠍科技被傳因涉嫌侵犯公民個人信息」,而公信寶被查也被相關人士分析為大概率是因為「數據」的事情。為何短短數日,三家大數據公司先後被查,究其原因,或許要歸結為「爬蟲業務」犯了眾怒,有網友稱:「據說都是因為抓淘寶、支付寶的數據,用戶授權了之後他們把所有購買記錄、支付記錄抓取下來並存儲……」據了解,「爬蟲業務」是指平臺方一種按照一定的規則,自動抓取網際網路信息並存儲到自身資料庫的程序或者腳本。
  • 51信用卡被查引發「爬蟲技術」爭議 是否侵犯個人信息?
    51信用卡被查暴露「爬蟲技術」罪與罰:「爬到」借款人行蹤是濫用嗎?據中國之聲報導:近日,「51信用卡」被查事件,讓本就處在風口浪尖的大數據風險控制領域,再添一把「火」。業內人士透露,在隱私保護薄弱、數據安全存在漏洞的國內網際網路環境中,爬蟲技術往往與信息來源違法、濫用等問題交織在一起。
  • 爬蟲業務負責人被查?!同盾科技回應了
    新京報訊(記者 黃鑫宇 陳鵬)據媒體9月26日晚的報導,知名大數據公司同盾科技有限公司(下稱「同盾」)爬蟲類產品「數聚魔盒」負責人被查。作為涉金融服務的數據分析行業的頭部企業,同盾科技嚴格遵照法律法規與監管要求開展個人信息保護及相關合規工作。在企業內部,同盾科技已參照法律法規及相關國家標準的要求,積極制定了應用系統全生命周期安全管理流程、同盾安全風險管理流程、產品合規內部指引、同盾員工行為安全準則、同盾科技員工商業行為準則紅線等幾十條巨細靡遺的安全規範制度。
  • 大數據公司、貸款超市相繼被查 現金貸產業鏈迎來全面清洗
    日前,行業的一家大數據風控服務商同盾科技也被傳出爬虫部門解散,該部門員工集體待崗等消息。9月16日,杭州大數據公司同盾科技有限公司已解散其爬虫部門,該部門員工集體待崗。同盾科技方面明確表示,涉及爬蟲技術的產品「數聚魔盒」為子公司信川科技獨立運營產品,有嚴格授權要求。根據同盾科技聲明,目前信川科技已停止相關服務,員工已調崗,處於正常工作狀態。
  • 整肅爬蟲公司
    目前,公司已被警方查封,國內員工在家辦公,海外團隊暫時沒有受到影響。  受此消息衝擊,在魔蠍科技的高管被帶走當晚,上海大數據風控平臺聚信立隨即向商戶下發通知,表示將暫停對外提供用戶授權的運營商爬蟲服務。此外,鵬元徵信、立木徵信、白騎士等多家大數據風控服務商紛紛暫停部分服務。
  • 大數據時代,玩「爬蟲」可能觸犯的三宗罪
    數據玩得溜,牢飯吃個夠。自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。爬蟲技術違規嗎?開展業務到底存在哪些風險點?
  • 爬蟲業務負責人被查?同盾科技這樣回應了
    來源:新京報| 作者:黃鑫宇 陳鵬據媒體9月26日晚的報導,知名大數據公司同盾科技有限公司(下稱「同盾」)爬蟲類產品「數聚魔盒」負責人被查。作為涉金融服務的數據分析行業的頭部企業,同盾科技嚴格遵照法律法規與監管要求開展個人信息保護及相關合規工作。在企業內部,同盾科技已參照法律法規及相關國家標準的要求,積極制定了應用系統全生命周期安全管理流程、同盾安全風險管理流程、產品合規內部指引、同盾員工行為安全準則、同盾科技員工商業行為準則紅線等幾十條巨細靡遺的安全規範制度。
  • 「爬蟲」背後的灰色大生意 | 個人數據隱私保衛戰
    這雖然是句玩笑,但一方面反映了近期政策的收緊和監管的加強;另一方面也透露出,過去這個行業的問題到底有多麼的嚴重。今年9月,天翼徵信、杭州存信數據、新顏科技、魔蠍科技等多家大數據公司被查,還有幾十家公司已經被列入調查名單,其中不乏估值高達幾十億元的明星獨角獸企業。這些公司被調查的重要原因就是利用爬蟲技術過度收集、非法竊取和販賣個人數據信息。
  • 爬蟲玩的好,監獄進的早?
    在消費金融科技領域中,大數據風控業務已成為關鍵環節。但當下大數據風控行業卻迎來多事之秋,多家為網際網路小貸公司、個人消費類業務金融等公司提供服務的大數據風控領域企業被抓,他們旗下的爬蟲業務先後都因「涉黑」被暫停營業。
  • 只因寫了一段爬蟲,公司200多人被抓
    剛好我也很好奇程式設計師因爬蟲被抓這個案子,看看到底是怎麼回事,就和兩名律師以及朋友坐到一起,深入交流後才知道整個事件的來龍去脈。這名程式設計師在被警察逮捕後,警察審問期間一直不承認自己觸犯了法律,並且也完全沒有意識到自己犯法了。進去之後總以為警察搞錯了,過幾天就會把自己放出來,結果也錯過了取保候審的機會。
  • 2019年業務安全領域六大大事件|大數據公司|欺詐|交易|爬蟲|盜卡...
    (原標題:2019年業務安全領域六大大事件) 什麼是業務安全?
  • 太古觀察:大數據合規與爬蟲
    導讀9月以來,多家涉及大數據風控業務和爬蟲技術的公司相關人員被抓或者被調查,由此引發了大數據產業及業務合規問題的討論。9月11日,據網上一則視頻顯示,位於華星時代廣場的公信寶大門被貼了「古蕩派出所封」字樣的封條,據金色財經報導,針對公信寶主體運營公司杭州存信數據科技有限公司被杭州市公安局查封一事,杭州市公安局西湖區分局古蕩派出所回應稱,此事屬實。公信寶員工被全部帶走。爬蟲是什麼?違法的嗎?
  • 爬蟲玩的好,監獄進的早?
    在消費金融科技領域中,大數據風控業務已成為關鍵環節。但當下大數據風控行業卻迎來多事之秋,多家為網際網路小貸公司、個人消費類業務金融等公司提供服務的大數據風控領域企業被抓,他們旗下的爬蟲業務先後都因「涉黑」被暫停營業。
  • 同盾為子公司參與套路貸道歉 爬蟲公司風暴源自公安部淨網行動
    事實上,今年9月中旬以來,杭州、上海多家數據公司接連被查,包括魔蠍科技、聚信立、同盾等,引起行業震蕩。上海從事金融科技行業多年的資深人士曾告訴南都記者,被查原因很可能與違規使用爬蟲數據以及暴力催收有關。
  • 大數據行業罪與罰:爬蟲、隱私與產權的邊界
    在大數據行業,這一答案可能是「當聽說同行被抓的時候」。2019年對大數據行業的從業者來說,更是步步驚心的一年,從年初開始就不斷在圈內流傳各種誰被約談、誰被調查、誰被拘留甚至逮捕的小道消息,有的迅速得到證實或被證偽,有的則一直添油加醋地流傳下去。