金融數據爬蟲到底能不能「爬」?行業專家這麼說

2020-12-03 金融界

來源:國際金融報

前有魔羯數據、新顏科技協助調查,後有公信寶被查封、天翼徵信總經理被警察帶走,「大數據」行業近日談爬蟲色變,金融數據爬蟲到底能不能爬?

10月30日,上海交通大學數據法律研究中心執行主任、天冊律師事務所資深顧問、數據法盟創始人何淵在2019數字信用與風控年會暨零壹財經新金融秋季峰會上表示,官方的態度實際上是很明確的,數據並不是不能爬,「說得很清楚,收集的時候不能採取妨礙網站的正常運行,甚至有一個尺度,流量不能超過別人網站的1/3」。

何淵認為,金融數據爬蟲到底能不能爬?關鍵看三個點:爬的什麼東西?怎麼爬?爬的合法數據用來幹什麼?「這三點決定你是不是犯罪,是不是違法」。

在爬什麼方面,何淵總結為「三全一穩定,兩秘密一隱私」。所謂「三全」是指國家安全、公共安全、經濟安全。「一穩定」指社會穩定。「兩秘密一隱私」是指國家秘密、商業秘密和個人隱私。

何淵指出,機構通過侵入他人計算機信息安全系統去爬個人信息、國家秘密、商業秘密以及爬取數據導致影響市場競爭秩序的,都可能構成違法。

關於怎麼爬方面,何淵表示,怎麼爬很關鍵,你爬的東西是合法的,但是你爬的方式有問題,照樣會構成刑罰。何淵認為這一方面存在危害計算機信息安全、非法獲取公民個人信息、非法獲取商業秘密、破壞版權系統保護措施四類風險。

何淵提醒各機構跟公共數據或者政府數據進行對接的時候,不能為了下一次省一個查詢費用,留緩存。「這個風險是極大的,不能留緩存。千萬不要為了一點點小利,會影響你後面的生存」。

如果抓取的數據本身沒有問題,爬的過程也沒有問題,那麼合法爬取的數據該如何規範使用呢?

何淵表示,一方面需要授權使用,在買賣案當中提出了一個叫做「三授權」的原則;另一方面則需要避免構成不正當競爭,「如果存在不勞而獲、搭便車以及造成實質性損害商業利益的,這都可能構成不正當競爭」。

相關焦點

  • 爬蟲大戰! 看邦盛科技如何反爬抓「蟲」?
    隨著漫長進化,這一物種被用於各大網際網路金融、電商平臺、社交網絡等。利用網絡爬蟲,票販黃牛可以在幾分鐘內搶佔所有熱門線路的車票,大量的搶佔會造成網站變得很卡。據業內人士估計,80%以上低價機票被票務公司的爬蟲搶走。越是涉及個人利益的地方,越是布滿了爬蟲,包含政務、電商、銀行、OTA、社交、招聘、出行等網站。  說到這裡,我們對網絡爬蟲有了比較形象的認識。
  • 玩「爬蟲」可能觸犯的三宗罪
    數據玩得溜,牢飯吃個夠。 自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。 爬蟲技術違規嗎?開展業務到底存在哪些風險點?
  • 天機數據否認涉足數據爬蟲,關聯透視寶擅長用戶行為數據採集
    天機數據表示,與大數據風控平臺相關負面稿件提及的金融風控、徵信和數據爬蟲業務相關的「天機」與「北京天機數測數據科技有限公司」(下稱「天機數測」)無任何關聯關係。天機數測過去從未涉及金融行業的風控、爬蟲等業務,未來也不會開展金融風控、徵信、數據爬蟲等方面工作。
  • 網絡爬蟲竊取數據,技術工具遭遇司法拷問
    「網絡爬蟲」是一個科技感十足的名詞,在玩代碼的圈子裡,這指的是一個數據爬取工具,被編程人員用在獲取網際網路上存在的大量信息。不過,一些網際網路公司通過該工具強行侵入其它網站,隨意竊取數據的行為是違法的。網上出現了這樣一個段子,「爬蟲玩得好,監獄進的早。數據玩的溜,牢飯吃個夠。」
  • 專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...
    網絡爬蟲是一種中立的技術手段,數據爬取是否構成犯罪,要根據爬取行為本身和獲取數據的性質進行實質性判斷;流量造假危及數據信用生態,形成了大量經濟泡沫,建議通過立法增設「妨害數據信用罪」來加強打擊。近日,浙江理工大學於杭州主辦的數據安全犯罪前沿論壇上,部分與會專家發表了上述觀點。
  • 學代碼就是為了用Python爬蟲?零代碼也能爬取96%網站的數據!
    前幾天我一位學設計的朋友說「想在某網站抓取近期100張風景圖,收集這些圖片來作為ps的背景圖,但我是文科生,不會用用代碼,也不會用Python採集網站圖片,不知道該怎麼辦!於是我介紹了一款零代碼的採集工具給他使用,很快就上手了。可能很多同學跟我朋友一樣有這樣的誤區:想要採集網站數據就得用到Python來製作網絡爬蟲抓取數據。
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?  2020重磅升級的Python數據科學入門與網絡爬蟲案例實戰研討會開始報名啦!
  • 有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據
    產品和運營在日常工作中,常常需要參考各種數據,來為決策做支持。但實際情況是,對於日常工作中的各種小決策,內部提供的數據有時還不足給予充分支持,外部的數據大部分又往往都是機構出具的行業狀況,並不能提供什麼有效幫助。於是產品和運營們往往要藉助爬蟲來抓取自己想要的數據。
  • 網頁爬蟲及其用到的算法和數據結構
    因為爬蟲程序通常需要做的事情如下:1)給定的種子URLs,爬蟲程序將所有種子URL頁面爬取下來2)爬蟲程序解析爬取到的URL頁面中的連結,將這些連結放入待爬取URL集合中3)重複1、2步,直到達到指定條件才結束爬取因此,一個完整的爬蟲大概是這樣子的:
  • 什麼是爬蟲?如何提高爬蟲爬取網頁速度?
    什麼是爬蟲?網絡爬蟲也叫網絡機器人和網絡蜘蛛,可以代替人工按照一定的規則自動地的在網際網路中進行數據採集與整理。各大搜尋引擎也都有各自的名字,如百度蜘蛛:BaiduSpider,谷歌蜘蛛:Googlebot360,蜘蛛:360Spider。
  • 惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?
    近日,新京報記者調查發現:有大數據營銷公司靠銷售爬蟲工具獲利,電商平臺商家數據遭爬取;還有公司稱可以獲取任意網頁及APP訪客的手機號;專家稱其屬於惡意爬取,涉嫌犯罪。7月底,新京報記者臥底「鷹眼智客」發現,其實際上是利用爬蟲技術,從淘寶、京東等網站上爬取到店家手機號後,用於營銷。此外,藉助該軟體,通過微信附近的人,用戶可任意設定虛擬位置後批量申請好友,還能「站街」釣魚營銷。有安全專家表示,當用戶發生上網行為時會發送數據包,內含行為痕跡、手機號等信息。
  • 爬蟲玩的好,監獄進的早?
    「雖然不是直接放貸平臺,但看著他們一個個被查,如今他們終於可以嘗嘗那種心驚膽戰、坐立不安的滋味了......」這位90後貸民聽說近期多家風控公司被抓後這樣說。如今大數據風險控制在金融行業得到了較為廣泛的應用,比如在銀行中,貸款業務是佔銀行風控日常工作比重最高的一類業務。
  • 網貸領域爬蟲,既非原罪者也非無辜者
    監管方對網貸數據爬蟲的監管力度也日漸收緊,並達到高潮,魔蠍科技、公信寶、聚信立等第三方風控行業頭部公司相繼被調查或被波及,整個行業如履薄冰,主要爬蟲服務出於避險考慮基本暫停。網友紛紛調侃為「爬蟲爬的好,牢房進的早;數據玩的溜,牢飯吃個夠」。
  • 爬蟲技術涉案大數據分析及法律解讀
    如果讀者是法律從業人員,首先需要明確以下幾點,可能才能更好的理解爬蟲技術: 1、爬蟲技術獲取的信息全部都是網站公開信息(或面向爬取者公開) 2、爬蟲技術不會獲取任何被爬取網站的後臺權限 如果違背了以上兩個條件,那就不是爬蟲技術了,就是入侵計算機系統技術了,俗稱「黑客」技術。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    實際上,大部分人都聽說過爬蟲,認為爬蟲就是到人家網站上去爬東西、偷數據,有些人甚至認為只要有爬蟲,什麼數據都可以搞到。 今天,我們就打開爬蟲這個「工具箱」,把涉及到的技術盲區放到燈光下,讓大家可以清楚地看下。下面,本文就從這個角度來聊聊爬蟲這個熟悉而又陌生的技術。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。
  • 「爬蟲」的是與非
    據報導,魔蠍科技等數據服務商被調查的原因皆與爬蟲、數據等業務相關。此後,業內紛紛下架、暫停相關數據服務。可見相關事件對數據服務行業的震動之大。在此之前,由於長期弱監管,爬蟲相關產業處於瘋狂而無序的生長狀態,業內專門約束爬蟲行為的只有Robots協議(爬蟲協議)。
  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    在北京打工的小王對科技日報記者說,由於老家在雲南,春節機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。  然而,就在小王摩拳擦掌,準備使出「洪荒之力」搶張便宜機票時,看到網上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務公司的「爬蟲」搶走,普通用戶很少能買到。  小王傻眼了,「爬蟲」究竟是什麼鬼?它又是怎麼搶機票的?難道就沒有辦法治理嗎?
  • 裁判文書網數據竟被標價售賣:爬蟲程序抓取,或構成侵權
    一名售賣裁判文書數據的商家說,購買裁判文書數據的買家所需要的數據量從幾千篇到幾千萬篇不等,有的買家是因為無法打開裁判文書網而不得不來求助於數據賣家,「還有很多學生買數據用於論文寫作,這種情況幾千條就夠了,商用的話可能需要幾百萬條甚至上千萬條。」
  • 爬蟲學得好,入獄入得早,到底是個什麼樣子的梗?
    我們常說的爬蟲不是說的一個生物,而是說的網絡爬蟲,也叫網絡蜘蛛。我平常用的谷歌搜索和百度搜索就是爬蟲中的一種,網絡搜尋引擎通過爬蟲軟體更新自身的網站內容或網站的索引。並將自己所訪問的頁面保存下來,以便事後生成索引供用戶搜索。