網絡小爬蟲莫墮落成小扒手

2020-12-16 同花順財經

蔡恩澤

10月21日,杭州警方對51信用卡委託外包催收公司涉嫌尋釁滋事等犯罪開展調查。有媒體披露,外包催收公司通過恐嚇、滋擾等軟暴力催收的過程中,數據爬蟲公司違規獲取的通訊錄、地址定位等個人敏感信息也是主要幫兇。

近日,多家大數據風控服務商被查。9月6日,杭州的魔蠍數據科技有限公司監管部門查處。數日後,公信寶的運營公司杭州存信數據科技有限公司被公安機關查封,聚信立的運營公司上海誠數信息科技有限公司下發暫停爬蟲業務的通知。

此輪監管風暴正值2019年國家網絡安全宣傳周9月16日開幕的前夕。中央網信辦官員楊春豔披露,截至目前,已收到8000條針對APP違法違規收集使用個人信息的舉報,其中實名舉報佔到近1/3。

聚信立官網顯示,截至目前,其用戶總量1.5億+,覆蓋人群14億+,合作機構3300+,日均查詢220萬+,總查詢10億+,還精心建立了黑名單庫1200萬+。聚信立合作的商戶有30家,包括百度、小米、萬達、京東數科、點融網、浦發銀行信用卡、興業消費金融、中銀消費金融。巨大的灰色利益鏈條隱藏於龐大的數據業務之中。

公信寶被查,就是因為非法收集支付寶、微信、京東、淘寶、信用卡帳單、芝麻信用分、學信數據等,恣意盜竊網民的信息,特別是交易用戶敏感數據。公信寶流傳在市場上的一份2018年產品價格服務表明碼標價,清清楚楚地介紹了不同數據的等級和單價,聯手與P2P平臺合作,從中牟利。

在大數據防控公司中,低成本獲取數據的捷徑是爬蟲技術。追溯爬蟲的發展歷史,20年前,搜尋引擎、數據分析、聚合導航等業務,都是爬蟲技術發揮作用,這是爬蟲技術的榮耀。但榮耀不能陶醉,甚至忘乎所以,要守得住法律底線。

爬蟲技術本身並不是「害蟲」,正像搜尋引擎一樣,作為一種計算機技術,具有技術中立性,因而,在法律上爬蟲技術一向游離於法律禁區之外。問題是這個技術由誰來掌握,有沒有得到用戶授權,把「爬」來的數據用在什麼地方。而眼下一些「小爬蟲」為了商業利潤鋌而走險,處心積慮突破監管紅線。像APP欺詐經營,「下載即發紅包」,這已成為欺詐的廣告詞,條件是你必須慷慨地允許它偷看暱稱、頭像等個人敏感信息,甚至厚顏無恥地要求讓其瀏覽相冊等,十足的流氓性。

在數據安全存在嚴重漏洞的網際網路大環境中,爬蟲技術往往成為信息來源違法、濫用等問題的打手,危害社會,擾亂金融秩序。

眼下,多數網貸公司選擇爬蟲來做風控,爬一次1-3元,大多用在用戶失聯後來催款,有的甚至施加暴力,像51信用卡委託外包催收公司涉嫌尋釁滋事。本次警方對數據行業的高壓調查,與近半年各省市集中打擊「套路貸」也有很大關係。

大數據風控公司提供借貸人的信息,從法律角度上講,其實是要負連帶責任。如果那些信息不是通過授權爬得,更是要負直接法律責任。道理很明白,「公開的數據,你去爬那是撿,但是私密的數據,你去爬那就是偷。」

網絡小爬蟲一旦墮落為「小扒手」就要吃官司。《網絡安全法》規定,未經授權爬取用戶手機通訊錄超過50條記錄,公司法人最高可獲刑3年;未經授權讀取用戶公積金社保記錄超過5萬條的,公司法人最高可獲刑7年。

有鑑於此,大數據防控公司的小爬蟲一定要注意,合規才能生存,如果淪為「小扒手」,不僅名聲難當,還要進班房。小爬蟲們一定要從51信用卡委託外包催收公司涉嫌尋釁滋事案中汲取教訓。

來源: 證券時報

相關焦點

  • Python網絡爬蟲
    Python網絡爬蟲第一篇(一):為什麼要學習網絡爬蟲?大數據成為當今時代的熱門話題之一,在數據量爆發增長的網際網路時代,網站與用戶溝通實質為數據的交換。如果大量的數據得以分析,我們能夠對事件的看法,解決方案做出更好的決策。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。1、通用Web爬蟲通用網絡爬蟲所爬取的目標數據是巨大的,並且爬行的範圍也是非常大的,正是由於其爬取的數據是海量數據,故而對於這類爬蟲來說,其爬取的性能要求是非常高的。
  • 小爬蟲工具的由來
    小爬蟲是一款在線生成網站地圖的工具,只需要輸入域名,系統就可以對網站進行爬行,最後生成完整的網站地圖。用戶只需下載網站地圖,上傳到網站根目錄,然後在網站首頁做連結,並且到百度站長平臺提交連結即可。提交網站地圖可以加速網站內容的收錄,對SEO有非常積極的作用。
  • 網絡爬蟲技術有哪些用途和危害?
    不論是固定的電腦網路還是以手機為終端的行動網路。使用者會經常遇到一種最常見的現象,這就是只要搜索或者關注某方面的信息,那麼馬上就會有網絡上大量的、與之相類似的信息被「推薦」。絕大部分都是網絡小廣G,甚至有大量的垃圾信息。
  • Python網絡爬蟲之必備工具
    網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動的抓取全球資訊網信息的程序或者腳本。那麼要學會並精通Python網絡爬蟲,我們需要準備哪些知識和工具那?1 Python基礎知識Python作為現在最流行的程式語言之一,其強大之處也是毋庸置疑的,利用Python寫網絡爬蟲是最好不過的選擇啦,所以萬丈高樓平地起,學習網絡爬蟲最最基本的就是要掌握Python編程的基礎知識,了解以下幾點即可:基本數據結構
  • 網絡爬蟲是啥玩意兒?有什麼用呢?
    這個時候,網際網路上的資源就非常關鍵了,從網絡上爬取數據資源,就成為了至關重要的一個環節。那到底什麼是網絡爬蟲呢?網絡爬蟲也叫網絡蜘蛛,即Web Spider,名字非常形象。如果把網際網路比喻成一個蜘蛛網,那麼Web Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛通過網頁的連結地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,一直循環下去,直到把整個網站所有的網頁都抓取完為止。
  • Python新手學習網絡爬蟲要做什麼?
    爬蟲,被稱為網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站。
  • python 網絡爬蟲有哪些用途
    網絡爬蟲,就是一種自動獲取網頁內容的程序。也就是通過源碼解析來獲得想要的內容。下載的內容包括文字,圖片,多媒體文件等。python有多個庫可實現網絡爬蟲,Urllib是python內置的HTTP請求庫,urllib的功能就是利用程序去執行各種HTTP請求。如果要模擬瀏覽器,需要把請求偽裝成瀏覽器。
  • 基於Java的大型分布式網絡爬蟲體系結構
    【IT168 技術】分類  分布式網絡爬蟲包含多個爬蟲,每個爬蟲需要完成的任務和單個的爬行器類似,它們從網際網路上下載網頁,並把網頁保存在本地的磁碟,從中抽取URL並沿著這些URL的指向繼續爬行。由於並行爬行器需要分割下載任務,可能爬蟲會將自己抽取的URL發送給其他爬蟲。
  • 法國一些 旅遊景點成扒手聚集地 兒童扒手月入十萬
    法國一些 旅遊景點成扒手聚集地 兒童扒手月入十萬時間:2016-02-21 19:47   來源:山西信息港   責任編輯:莫小煙 川北在線核心提示:原標題:法國兒童扒手月入十萬歐元 令人覺得不可思議-----來源:山西信息港 據外媒報導,法國一些 旅遊景點成了扒手的聚集地,巴黎迪士尼更是成了竊賊樂園
  • 成為搜索產品經理(2):認識網絡爬蟲
    索引引擎系統由多個子模塊組成,先來了解第一個模塊,網絡爬蟲。一、網絡爬蟲是什麼?用一個程序自動地將所有的網頁下載到本地,在本地形成網際網路的鏡像備份。二、通用爬蟲框架了解通用爬蟲框架之前,讓我們再次回顧上個章節講過的超連結(hyperlinks)。
  • 網絡爬蟲什麼意思什麼梗? 網絡機器人,網頁蜘蛛了解一下
    網絡爬蟲什麼意思什麼梗? 網絡機器人,網頁蜘蛛了解一下時間:2020-03-24 16:48   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:網絡爬蟲什麼意思什麼梗?網絡機器人,網頁蜘蛛了解一下 也叫網絡機器人,網頁蜘蛛 通俗的講,就是根據人的需求,在網絡中尋找需要的信息,就像一隻蜘蛛一樣在網絡中爬來爬去,不斷尋找需要的信息 網絡爬蟲有善意的,比如搜尋引擎的爬蟲,就是尋找有用的信息   原標題:網絡爬蟲什麼意思什麼梗?
  • Java畢業設計——基於網絡爬蟲的網絡新聞分析參考
    Java畢業設計——基於網絡爬蟲的網絡新聞分析參考本套畢業設計主要圍繞爬蟲的應用,項目內容主要是用來爬取新聞數據,關於技術層面涉及到JavaScript、Ajax加載,從HTML中提取文章。爬取過程:網絡爬蟲的代碼實現相對複雜
  • 網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私
    回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。
  • 法學匯|網絡爬蟲的入罪標準與路徑研究
    在大數據時代,網絡爬蟲已成為網際網路抓取公開數據的常用工具之一,可以實現對文本、圖片、音頻、視頻等網際網路信息的海量抓取。網絡爬蟲相關訴訟糾紛引發了學界在私法層面對大數據權益屬性、權益分配的諸多法律爭議,以及在公法層面對網絡爬蟲刑法規制路徑的諸多探討。對網絡爬蟲的刑法規制既影響到當前數據產業的資源利用和技術創新,也影響到國家決策層對數據行業的政策制定。
  • Python新手爬蟲,簡單製作抓取廖雪峰的教程的小爬蟲
    Python 數據處理 Python編程從入門到實踐 核心編程基礎教程 網絡爬蟲入門書籍 python視頻編程從入門到精通 程序設計教材人民郵電¥72.2領3元券話不多說,先來看看整個爬蟲過程吧!整個爬虫部分很簡單,複雜的部分是處理各種標籤及標籤下的其他內容,最後寫入文件因為不需要排版,反而簡單了。歡迎大家來找我一起交流,完善代碼!
  • 網絡爬蟲竊取數據,技術工具遭遇司法拷問
    「網絡爬蟲」是一個科技感十足的名詞,在玩代碼的圈子裡,這指的是一個數據爬取工具,被編程人員用在獲取網際網路上存在的大量信息。不過,一些網際網路公司通過該工具強行侵入其它網站,隨意竊取數據的行為是違法的。網上出現了這樣一個段子,「爬蟲玩得好,監獄進的早。數據玩的溜,牢飯吃個夠。」這個段子帶給人們歡樂的同時也反映出通過爬蟲技術隨意獲取網際網路產生的數據已經觸犯了某些方面的法律。從今年9月開始,這方面的司法案件多了起來,一些知名網際網路公司的相關人員被公安機關拘捕或調查,這些公司均涉及到數據風控和爬蟲技術應用所產生的侵權糾紛。
  • 資料|精通 Python 網絡爬蟲:核心技術、框架與項目實戰
    from=leiphonecolumn_res0731為什麼寫這本書 · · · · · ·網絡爬蟲其實很早就出現了,最開始網絡爬蟲主要應用在各種搜尋引擎中。在搜尋引擎中,主要使用通用網絡爬蟲對網頁進行爬取及存儲。
  • 網絡爬蟲乾貨,項目實戰,製作新聞採集器
    本系列將由淺入深給大家介紹網絡爬蟲,一步一步教大家學會怎麼分析請求,抓取數據,到項目實戰,真正意義上爬取一切你想要的!本章介紹:編寫新聞採集器,那麼接下來就是要把這些流程思路串聯起來,轉換成實實在在的代碼或者工具,才能真正成為自己的東西。
  • 圍剿網絡「爬蟲」:監管發文規範切斷非持牌合作
    來源:21世紀經濟報導原標題:圍剿網絡「爬蟲」: 監管發文規範 大數據公司切斷非持牌合作網絡「爬蟲」業務,正在被監管合力規範。同日,北京地區部分網際網路金融機構收到監管要求全面停止與「爬蟲」有關的放貸業務,導致一些平臺的基於「爬蟲」的放貸業務全面暫停。誕生於搜尋引擎時代的網絡爬蟲,在個人信息保護意識增強的當下,正在受到監管和法律的關注。