最近一段時間有關大數據的話題可謂是熱火朝天,要知道大數據作為一項切實改變著我們生活的技術,雖然給我們的生活帶來了不少便利,但也讓我們的隱私蕩然無存。
不過最近的數據圈子並不太平,準確一點的說,是爬蟲圈不太平,甚至可以說是迎來了中國爬蟲圈的最大風暴。
多家公司高管進宮
自今年9月份開始,圈內大數據公司的高管被有關部門請去小黑屋裡喝茶,直到現在為止音訊全無。
就在前幾天,某信用卡公司也被警方進行調查,其中一個原因便是因為該公司違規使用爬蟲爬取用戶隱私信息,給外包催收公司提供用戶隱私信息。
可以說,這幾個鮮活的例子,直接讓整個行業進入冰河時期,業內人士每天如同行走在刀尖之上,小心謹慎,生怕一個不小心便萬劫不復。
真的是應了最近網上流傳的那句話:「爬蟲玩得好,監獄進得早。數據玩得溜,牢飯吃個夠。」
不過這句話並非是危言聳聽,畢竟前車之鑑就擺在那裡,被有關部門請過去喝茶的也不是小人物。
前些天有一篇《只因為寫了一段爬蟲,公司200多人被抓!》的文章也是引起了廣泛熱議,文章中寫的是一名程式設計師寫了一段爬蟲後被刑偵的事情,其中,大家最關心的點便是爬蟲究竟是合法還是違法的?
在探討爬蟲究竟是合法還是違法之前,先帶大家了解一下爬蟲到底是什麼。
網絡爬蟲到底是啥
網絡爬蟲又名「網絡蜘蛛」,是通過網頁的連結地址來尋找網頁,從網站某一個頁面開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到按照某種策略把網際網路上所有的網頁都抓取完為止的技術。
網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的
我們在日常生活所使用的那些搜尋引擎就是一種巨型爬蟲系統,例如Google、Yahoo和百度等,通過你輸入的內容來進行篩選之後再爬取網頁。
爬蟲技術的善與惡
爬蟲技術本身是沒有對錯之分的,但使用技術的人就難免有問題了。例如Google就是善意爬蟲,將用戶想要瀏覽的網頁呈現在用戶面前,用戶開心,被爬取的網頁也開心。
善意的爬蟲對大家都好,而惡意的爬蟲卻很容易影響到我們,甚至會洩露我們的隱私信息。
像一些搶票軟體這樣的爬蟲就屬於惡意爬蟲,他們無限制的對12306進行訪問,會對12306的伺服器造成很大壓力,也會影響一些正常購票用戶的操作。
因此12306也會通過驗證碼的方式來對爬蟲進行攔截,像2015年春運前夕12306上線的「史上最坑圖片驗證碼」,想必很多經歷過的人都記憶猶新吧。
不僅有在「孫楠、王大治、楊臣剛」中選出楊臣剛的圖片,還有在全部是「白百何和王珞丹」中選出誰是白百何。你要是分不清楚這些人臉,就連家都回不去了。
可能有人會問了,搶票軟體很方便,每次自己在12306上買不到票的時候就會去一些搶票軟體上進行搶票。
但你需要知道的是,用搶票軟體的話不僅個人信息容易洩漏,而且對於一些不熟悉網際網路的人來說,他們可能僅僅只是會用手機打電話而已,搶票軟體對他們而言是不是太不公平了呢?
同時,根據公開數據顯示:「最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。」這其中還沒有包括被驗證碼攔截在外的爬蟲,可想而知12306的伺服器每天承擔的壓力有多大。
技術犯罪隱私洩露
如果通過爬蟲抓取網絡公開信息,並不違法;但如果抓取的是未公開、未授權的個人敏感信息,就屬於違法行為,違反的是2017年6月1日實施的《網絡安全法》以及「兩高」相關司法解釋。
前面我就說過,技術本身沒有對錯之分,同樣是爬蟲技術,Google所帶來的是互利雙贏,大家都開心的局面。而搶票軟體這種,則就是錯誤的案例,不僅會造成資源浪費,也會讓你隱私洩露的風險增大。
現如今,爬蟲所造成的危害已經不僅僅是資源浪費,給伺服器增壓了。而是一些打著「大數據」旗號的公司,披著光明的外衣,幹著骯髒齷齪的勾當。
它們使用爬蟲抓取了未公開、未授權的個人敏感信息,甚至違規留存、使用、買賣這些隱私數據,而且這種大數據還是網際網路金融風控的「基礎設施」。
某家科技公司曾經推廣過自家的爬蟲產品只需要用戶提供在其他現金貸平臺的帳號和密碼,就可以爬取用戶的所有信息。
甚至這家科技公司還有專門爬取支付寶數據的產品,只需要用支付寶掃描一下二維碼,就可爬取支付寶用戶的真實姓名、手機號、收貨地址、近一年的購物信息、交易記錄等。
因此,一些放貸公司在拿到了這些數據之後,就可以進行分析用戶的還款能力和信譽度,來進行廣告投放和簡訊推送,所以大家手機上或者郵箱裡總能收到一些貸款廣告。
國家出手行業整頓
爬蟲橫行,其歸根結底不過是利益所趨罷了,不過現如今國內數據收集法律已經逐漸健全了起來。
10月初,有媒體透露,行業正在籌劃《個人金融信息保護試行辦法》,並開始徵求各方意見。10月10日,該辦法草稿甚至已經通過央行下發到各家銀行,持續徵求意見。
據悉,該辦法要求金融機構不得從非法從事個人徵信業務活動第三方獲取個人金融信息,也不得以「概括授權」方式取得信息主體對收集、處理、使用和對外提供其個人金融信息的同意。
如果該辦法正式出臺,銀行需要根據要求對提供業務數據第三方機構進行摸排,對於不能保證數據來源合法數據供應商,則要停止合作。
在法律法規不健全的時候,個人數據被濫用於商業廣告和金融產業,問題層出不窮。而新規雖然有些一刀切,不過也沒有出乎意料,數據屬於當今社會的超能武器,大數據所帶來的利益和風險是一樣大的,被嚴格管理也是理所當然的。
技術沒有對錯之分,但使用它的人卻有好壞之分。網絡不是法外之地,合理利用技術才是長久之計。