爬蟲收割隱私,黑箱埋葬靈魂

2020-12-04 新浪科技

來源:創事記

歡迎關注「創事記」微信訂閱號:sinachuangshiji

文/雷慢

來源:新金融洛書(ID:FintechBook)

01

2006年,已經做了幾年天使投資人的唐寧,自掏腰包借款給100多個大學生參加培訓收到了回款,因此受到鼓舞,在北京SOHO現代城的三室一廳裡創立了宜信公司,在這裡一同辦公的,還有他剛創辦的華創資本,招進了早已熟識的第二號員工吳海燕,後者後來成了華創資本的當家人。

36歲這一年,從阿里巴巴安全部技術總監崗位上辭職的蔣韜找到吳海燕說,他想做一個SaaS級應用而服務所有網站,名叫同盾科技。吳海燕很快給了蔣韜第一筆天使投資。

那時,市場傳聞一條不成文的規則,從阿里中層出來的人創業,天使風投100萬美元起步。華創資本和IDG資本給蔣韜的則是千萬元人民幣的天使輪。

蔣韜出來單幹之前兩年,即2011年,在矽谷工作了11年的汪德嘉回國了。汪德嘉是個留美數學博士,在VISA等公司做大數據分析、金融反欺詐技術工作,回來後就創辦了通付盾,仍是老買賣。

一次,汪德嘉帶隊在杭州參加一個安全技術交流會,遇見了還在阿里巴巴做安全部技術總監的蔣韜和團隊。兩人聊得投機,很快,雙方籤訂了技術交流合同,

兩個年輕人走向志同道合的路。不到幾年時間,一個成為網絡反欺詐領域的兇猛後生,一個成為數字身份認證領域的不得不提的主。

數據產業起於草莽,蔣韜、汪德嘉們也不得不劍懸顱頂。友商們數據倒賣、侵權爬蟲、竊取隱私的事情太多了。幹這事,像淺水行舟,還百舸爭流,水不僅攪渾了,身邊的人也一個個觸礁了。

誰也沒有想到,幾年後,兩人突然翻臉,汪德嘉指蔣韜偷竊通付盾核心技術。蔣韜則一紙狀書將汪德嘉告上法庭,頓時反目成仇。

02

趟數據這趟渾水的,不止蔣、汪。

數據產業的淘金熱,在2007年前後出現,於2013年前後興起。與P2P的展業有著相當的軌跡。

同盾科技、百融金服、聚信立、GEO集奧聚合、白騎士、算話徵信。這些大多湧現於2014年前後兩年,這些第三方數據公司的出現,迅速滿足並激活了消費金融、P2P甚至銀行金融機構的風控、獲客、營銷需求。

通觀第三方數據企業的合作體量,就知道市場需求並不少。截至目前,第三方數據企業的聚信立合作企業超過2900家、上海的新顏科技合作機構2500家以上;同盾科技的數聚魔盒,在2019年3月份下線前,合作企業10000多家。這些第三方數據公司的主顧們,主要來自網際網路金融機構,包括了P2P網貸、消費金融、現金貸等。

IDC名為《數據時代2025》的報告顯示,全球每年產生的數據將從2018年的33ZB增長到2025年的175ZB(1ZB相當於1.1萬億GB)。

資料來源:數據時代;數據來源:IDG

做金融的,無論銀行、消費金融、P2P,言必稱大數據風控。雖然有效性現在還能定論,但在品牌營銷、精準獲客上,這兩年確實讓做地推的都捨棄了原本的路子。銀行們找騰訊、阿里、百度合作,P2P、現金貸、消費金融們則有同盾、通付盾們,大家各自配對。

問題是,這些第三方數據有多少是清白的。那些流量巨頭的數據後門,個體甚至監管,都不容易摸到。

一些明目張胆做數據買賣的,就難免被拉出懲戒示眾。

自稱數據第一股的北京「數據堂」,2014年掛牌新三板。2017年7月山東公安上門時,這家公司日均傳輸公民個人信息1億3000萬餘條,累計傳輸數據壓縮後約為4000G。

數據堂的數據,大多是用自營眾包平臺、公共領域共享,網絡爬蟲爬取方式獲取。一份「車輛標準圖像數據」的數據包在網頁公開售價20000元。新華視點記者曾問他們客服,這是否會涉嫌侵犯用戶隱私。客服聲稱,這些照片都是擺拍,獲得了授權。但該數據產品卻明確寫著「來自交通卡口監控視頻截取」,並非擺拍。

被抓了幾十人後,警方偵查發現,數據堂公司向不同的多家公司各售賣了1萬條至70萬條不等的公民個人信息。

數據堂案件一審判決時,數據堂營運長柴銀輝、營銷產品部副總裁胡曉敏都被判有期徒刑三年,兩人都不服,以「數據堂公司系單位犯罪」理由提起上訴,終被駁回。

之後,「數據堂」正常運行。

有些「鐵打的營盤,流水的罪犯」的意思。

03

我曾陷於解這樣一個謎,前一天我和朋友聊過的旅遊想法,第二天就出現了微信底部的攜程訂票廣告,我在私底下談過的某款車,之後就出現在了頭條的短視頻裡。我想,究竟是誰走漏了風聲?

像一個被扒光的人,卻不知道如何被誰扒光了。而且越來越被扒得徹底。

以數據所構建出虛擬生活的我們,活在一個巨大的「圓形監獄」之中——所有囚室對著中央監視塔裡的數據處理器,每一個囚室有一前一後兩扇窗戶,一扇朝著中央塔樓和所有人的監視,一扇背對著中央塔樓贏得短暫和半透明的自由。監視者可以觀察到囚室裡的罪犯的一舉一動,囚徒卻不知是否被監視以及何時被監視,時刻處於憂慮之中。

英國哲學家傑裡米·邊沁(Bentham)把圓形監獄描述為"一種新形式的通用力量 "(a new mode of obtaining power of mind over mind, in a quantity hitherto without example)。

幾個月前,馬化騰喊出了「科技向善」,實在是有些牽強了,因為資本逐利,技術在資本手裡,簡直就是一個黑箱了。

別忘了,中國的網際網路大公司,在數據上都有不光彩的過去,

螞蟻金服鬧過個人信息被默認勾選進《芝麻服務協議》事件;京東金融曾曝出留存用戶圖片緩存和10G數據外洩事件,至於抨擊百度作惡,已成了政治正確了。

這兩年,我們已幾乎走進科幻電影中的現實。

2002年上映的科幻驚悚電影《少數派報告》,曾出現這樣一幕(大意):湯姆克魯斯扮演的約翰·安德頓進入商場,大屏幕上出現一個個定製給他個人的廣告,並推銷給他說:約翰·安德頓先生,您上一次買夾克已經過去3年了,您要買一件新的皮夾克嗎?

我們的個人信息,大抵如是。

個人信息、隱私,在電腦算法、機器學習的挾持下,輸出給個人的廣告或信息,都是經過數據精心算計的結果。

在算法的挾持下,放貸公司的廣告會給出令你心花怒放的說辭,也會在你申請貸款時,給你滴水不漏的貸款價格。這背後,是批量放貸的大數據信審和不可琢磨的技術黑箱。

04

這些年,數據黑箱現象隱而不發,但蔚為大觀。

消費金融公司雖然給了你一筆利率不錯的貸款,但你無法知電腦算法在審貸決策過程中,是否出現程序錯誤,是不是對你有算法歧視,是不是將學歷、種族、戶籍信息作為風險定價的依據,你的社交行為數據、朋友圈層次在多大程度上作為你利率定價的依據?這就是數據黑箱,看不見摸不著,卻決定著對你的信貸定價。

法學教授弗蘭克·帕特洛伊(Frank Partnoy)和普立茲獎獲得者傑西·艾辛格(Jesse Eisinger)曾於2013年年初共同研究過」美國銀行的內幕「,他們在報告中把銀行描述為「掩蓋了巨大風險的『黑箱』,這些風險可能會再次擊垮經濟」,因為黑箱不可捉摸,不可明察。

金融科技化之後,越來越多的黑箱產生,並未使得金融科技更加透明。

黑箱的種子與土壤到處都是,如黑產軍團、數據倒賣行為、大數據信審、人工智慧深度學習、機器決策…

金融科技的技術和數據黑箱使得監管越來越難。

一家借貸平臺在他的大數據風控的系統中輸入一個人用戶數以千計的社交數據、搜索數據、瀏覽數據、交易數據等,經過深度學習和決策模型的計算,最終可能將一個人的信用定為不及格,但這其中的具體決策過程是什麼,企業不會告知你。

更甚至於,這個決策過程中出現程序錯誤、算法歧視時,電腦試圖向程式設計師解釋時,程式設計師也無法明白。

哥倫比亞大學的機器人學家 Hod Lipson曾說:「這就像是向一條狗解釋莎士比亞是誰。」

被問及Google公司如何對數據進行私下操作時,前執行長埃裡克·施密特(Eric Schmidt)曾經回答:「Google的政策就是和警戒線打擦邊球。」

05

2018年,歐盟頒布了一道了不起的法令——《一般數據保護條例》(GDPR)》。

它未被國人重視的嚴重性,正如它深遠、前瞻的偉大性一樣不可忽視。

這則法令最重要的兩個原則在於:

1、最大限度的保護個人隱私,嚴格限定企業、政府對個人信息數據的使用條件。將科技、人工智慧、數據滲透阻擋於個人隱私之外。

2、要求人工審查重要的人工智慧中的算法決策,提供個別算法決策的詳細解釋或關於算法如何做出決定的一般信息。這一條款將大大降低技術黑箱問題的存在。

通俗並且簡而言之,這兩個原則,試圖保護人類個體不受愈發失控的數據或技術黑箱之侵害。

如果不受限制,數據亂象將導致怎樣的後果?

國內大數據企業常掛在嘴上的打擊黑產、打擊擼貸大軍、欺詐軍團,可實際上,數據產業有目前最大之一的黑產軍團。

2014年,曾有過詐騙、敲詐勒索兩次犯罪經歷的「王成予」創辦了一家名為「巧達科技」的數據公司。僅僅一年多時間後,王成予的巧達科技掌握了1.6億中國人求職簡歷。

巧達科技利用這些數據發布了這款全稱叫「愛夥伴員工離職預報」的產品,能發現90%以上員工離職前的動態信息,最快30分鐘內向企業管理者發出預報通知。

巧達科技和企業、獵頭們在做的是一項拿產品換數據的勾當,交易著你我的簡歷,而將你我排除在外。

2019年3月24日,大數據行業盛傳巧達科技被警方「一鍋端」,原因或涉及未經授權收集公民個人信息。

我們回過頭來再看,GDPR有它了不起的地方。

歐盟GDPR了不起的地方在於無視利益集團、犧牲科技革新的速度,將科技進步控制在可理解的天花板裡,而非放任在失控的黑箱中。

一百年前,路易斯·布蘭戴斯(Louis Brandeis)曾經發表言論「陽光是最好的消毒劑」。

在數據黑箱的失控下,螞蟻金服或騰訊、百度們,甚至於美團、攜程們,有可能成為金融科技領域的新權威者。

曾經我們舟船往來、書信有無,一封家書私藏50年,打聽一個人的私密要聊很久的八卦。如今數據通了信息高速,但我還是發願:個人不裸體示人,我願隱姓埋名,國家就對我一無所知,BAT們不能左右。

相關焦點

  • 爬蟲收割隱私,黑箱埋葬靈魂-虎嗅網
    友商們數據倒賣、侵權爬蟲、竊取隱私的事情太多了。幹這事,像淺水行舟,還百舸爭流,水不僅攪渾了,身邊的人也一個個觸礁了。誰也沒有想到,幾年後,兩人突然翻臉,汪德嘉指蔣韜偷竊通付盾核心技術。蔣韜則一紙狀書將汪德嘉告上法庭,頓時反目成仇。
  • 網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私
    回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。
  • 惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?
    網絡爬蟲則分為合法爬蟲和惡意爬蟲兩種。一些所謂的大數據公司本身沒有數據來源,而是通過爬蟲手段獲取他人的數據。在網絡空間,數據戰爭已進入白熱化。2019年5月份,國家網際網路信息辦公室發布的《數據安全管理辦法》徵求意見稿第十五條也規定了,「網絡運營者以經營為目的收集重要數據或個人敏感信息的,應向所在地網信部門備案。」
  • 爬蟲玩的好,監獄進的早?
    不僅如此,君子協議還存在著一個顯而易見暴露隱私的問題:將「不能被爬取的網站」明碼的列在了robots.txt中,這無異於是在挑釁、引起某些爬蟲「得不到的永遠在騷動」的強烈探知欲望。君子協議究竟是為保護隱私而生,還是在刻意暴露隱私?沒有硬性法律在背後撐腰,君子協議徘徊於道德與被漠視之間,君子協議何時才會成為真正的君子。
  • 賽睿發布滑鼠墊 暗黑3:靈魂收割者主題
    賽睿是一家全球領先的遊戲外設製造商,與暴雪暗黑破壞神III新資料片靈魂收割者發布的主題相結合,推出了一款的暗黑主題滑鼠墊。report 499 賽睿是一家全球領先的遊戲外設製造商,與暴雪暗黑破壞神III新資料片靈魂收割者發布的主題相結合
  • 網貸領域爬蟲,既非原罪者也非無辜者
    文/網際網路爬蟲是一種獲取網絡公開數據的技術工具,其本身並不具備價值色彩。但在目前激烈的信息競爭環境下,爬蟲被推向了風口浪尖,網貸領域的爬蟲更是眾矢之的。網貸爬蟲被控告最多的罪名為助長暴力催收、非法入侵計算機系統和侵犯個人隱私等。
  • 爬蟲究竟是合法還是違法的?
    據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司 200 多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • 放下你手裡的代碼:爬蟲技術的善與惡
    原因是最近發生的多起涉及爬蟲技術的公司被司法部門調查。近日,51信用卡被查,更是將暴力催收背後非法使用爬蟲技術爬取個人隱私數據的醜行,暴露在陽光之下。 一時間,「爬蟲」成為眾矢之的,一些公司緊急下架了爬蟲相關的招聘信息,給大數據風控、人工智慧從業者帶來些許恐慌,頭髮又多落了幾根。
  • 360瀏覽器深陷「隱私門 搜索被指「肉雞」模式
    國內安全企業360陷入「隱私門」餘波未了。  9月10日,迫於強大輿論壓力,360宣布推出「拇指計劃」,聲稱用戶可將網站域名提交給搜索並影響排名。360瀏覽器為此在下面增加了一個「推薦到360搜索」的按鈕此前,正是由於360瀏覽器未經用戶允許上傳隱私被揭露,引發了國內多家媒體的集體指責。
  • 爬蟲可以做哪些事?
    「覓食」的爬蟲很快很全面爬蟲是什麼?簡單來說,它是程式設計師寫出的代碼,是一種技術。它的基本操作是模擬人的行為去各個網站「溜達」,點點按鈕,查查數據,還能把看到的信息取回來,就像是在一張巨大網際網路上爬行「覓食」的蟲子,比人類的速度更快,覆蓋場景更全面。近些年,由於大數據處理和數據挖掘技術的發展,爬蟲技術在大數據分析的應用越來越廣泛。
  • 人類去世後需要一個AI靈魂嗎
    靈魂是什麼?AI靈魂是什麼?    前不久,果殼網在其主辦的有意思博物館活動中組織了一場學霸辯論賽,辯論的主題是:人類去世後,需要一個AI靈魂嗎?正方觀點是需要,反方觀點是不需要。    筆者像其他觀眾一樣,被這個前衛的標題吸引。但由於太前衛,也由於一切都在快速發展之中,正、反兩方在「下定義」的部分仿佛都難以給出明確的說法,自然對AI靈魂的理解也沒有達成一致。
  • 濫用網絡爬蟲技術,多家公司被查!互金行業風控外包時代終結
    一位國內大型P2P平颱風控主管表示: 「其實,近日多家通過爬蟲技術開展大數據信貸風控的公司被查,主要原因是他們涉嫌採取違規手段過度獲取用戶大量隱私信息,並將這些數據信息轉賣給其他機構獲利。若網際網路消費金融平臺自己能通過合規方式獲取這些數據,並僅限於自身風控用途,是可操作的。」
  • 遊戲王:達茲分明擁有隨意收割靈魂的能力,為何非要用決鬥打王樣
    不知道大家是否還記得,在海馬聯手王樣共同對付達茲的時候,達茲嫌王樣的幾個小夥伴在一旁實在是太礙事了,便二話不說地隨手一指,就講木馬、杏子等人的靈魂統統給封印掉了。而在失去了靈魂以後,杏子等人的身軀也就成了空殼。
  • 從黑箱到灰箱:心理與行為研究範式的變化
    黑箱是個比喻。想知道人如何感受、思考、判斷,但又無法看到大腦怎樣作業,大腦就成了一個無法打開的黑箱。給這個黑箱輸入一個刺激,通過分析輸出的變化來推測其內部工作的過程,這便是利用黑箱方法從事研究的基本邏輯。它至今在心理和行為研究中佔統治性地位。其應用的極端形式大約是所謂「人機對比」:把人腦和計算機對比。
  • 爬蟲如何突破大規模防採集封禁?
    什麼是爬蟲防採集?用大白話來說,就是我們想利用工具採集某個網站的數據(前提當然是公開合法數據),但網站不想給你採集而設置的技術阻擋措施。網站常見的爬蟲防採集套路有哪些?爬蟲防採套路5:反饋虛假數據採集難度:★★★★★常見網站:攜程網最近看到一個攜程開發寫的帖子,關於他們是如何給爬蟲反饋「假數據」的。看完覺得攜程太「可怕了」!當你發現辛辛苦苦採集下來的數據居然是假的,請問你心累不心累?!所謂道高一尺,魔高一丈,遇到這種給你「投毒」的網站就請繞道吧,除非你想到更好的破解方法!
  • 爬蟲技術涉案大數據分析及法律解讀
    許多律師在寫一些關於目前爬蟲技術的法律文章的時候,常常會將定點爬蟲和搜尋引擎爬蟲給搞混淆,有的也給出了錯誤或者較為過時的定義與理解。作為不熟悉技術的法律人士,其實也在所難免。其實我們常常講的爬蟲技術,與搜尋引擎的爬蟲引擎是完全不同的,其根本目的,是通過對指定網站進行解析,自動並且批量獲取前端展示的數據。
  • 臺灣彰化欲建火葬場被指「黑箱作業」 鄉民下跪抗議
    今天(29日)上午召開自救會,地方民意代表、上千群眾與綁白布民眾條強烈表達反對立場,除抗議縣府「黑箱作業」,當場更有民眾向埔鹽鄉長楊福地下跪。楊福地承諾任內絕不蓋章同意,保證火葬場百分之百做不成。  縣政府民政處長杜國忠強調,埔鹽鄉子村設置火化場經評估初步認為該地點近彰化縣地理中心,交通便利,可列為適當地點評估。
  • 金融數據爬蟲到底能不能「爬」?行業專家這麼說
    來源:國際金融報前有魔羯數據、新顏科技協助調查,後有公信寶被查封、天翼徵信總經理被警察帶走,「大數據」行業近日談爬蟲色變,金融數據爬蟲到底能不能爬?何淵認為,金融數據爬蟲到底能不能爬?關鍵看三個點:爬的什麼東西?怎麼爬?爬的合法數據用來幹什麼?「這三點決定你是不是犯罪,是不是違法」。在爬什麼方面,何淵總結為「三全一穩定,兩秘密一隱私」。所謂「三全」是指國家安全、公共安全、經濟安全。「一穩定」指社會穩定。「兩秘密一隱私」是指國家秘密、商業秘密和個人隱私。
  • 香港專協:經濟增長靠開放自由貿易 CEPA非黑箱
    原標題:香港專協:經濟增長靠開放自由貿易 CEPA非黑箱  中國臺灣網4月4日消息 據臺灣《中國時報》報導,鑑於近日有港人在臺買廣告,以聲援臺灣人名義反服貿,由香港醫師律師等組成的「香港專業人士協會」(以下簡稱「專協」)3日發表聲明指出,香港能發展成人均GDP達38074美元的大都會,實有賴自由開放的胸襟和勇氣。
  • Python爬蟲和反爬蟲的鬥爭
    在抓取對方網站、APP 應用的相關數據時,經常會遇到一系列的方法阻止爬蟲。網站APP們這麼做的原因,一是為了保證服務的質量,降低伺服器負載,二是為了保護數據不被獲取。爬蟲與反爬蟲的鬥爭經久不衰,這裡神龍IP給大家分享一些常見的反爬蟲手段。