惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?

2020-12-03 新京報傳媒研究

近日,新京報記者調查發現:有大數據營銷公司靠銷售爬蟲工具獲利,電商平臺商家數據遭爬取;還有公司稱可以獲取任意網頁及APP訪客的手機號;專家稱其屬於惡意爬取,涉嫌犯罪。

瀏覽器版本過低,暫不支持視頻播放

▲「鷹眼智客」大數據營銷系統

「不需要不需要,以後別再給我打電話了。」說完,代昌(化名)重重地將手機摔在了沙發上。代昌是河北邢臺清河縣一家民營企業的實際控制人,最近幾年來,他接到的騷擾電話數量明顯增多。騷擾電話正成為大數據時代的「頑疾」。記者調查發現,一些所謂「大數據」公司數據來源可疑,甚至有些大數據公司並沒有數據。新京報記者經過多地暗訪、臥底發現,有大數據公司號稱可以採集到任意指定網站或者APP的訪客手機號;另一家號稱「中國網際網路營銷服務第一品牌」公司的「鷹眼智客」官網則顯示:「有你所需要的一切」。7月底,新京報記者臥底「鷹眼智客」發現,其實際上是利用爬蟲技術,從淘寶、京東等網站上爬取到店家手機號後,用於營銷。此外,藉助該軟體,通過微信附近的人,用戶可任意設定虛擬位置後批量申請好友,還能「站街」釣魚營銷。有安全專家表示,當用戶發生上網行為時會發送數據包,內含行為痕跡、手機號等信息。一旦涉及某一方發生洩露,通過抓取這個數據包便可以解析出來用戶的敏感信息。網絡爬蟲則分為合法爬蟲和惡意爬蟲兩種。一些所謂的大數據公司本身沒有數據來源,而是通過爬蟲手段獲取他人的數據。在網絡空間,數據戰爭已進入白熱化。2019年5月份,國家網際網路信息辦公室發布的《數據安全管理辦法》徵求意見稿第十五條也規定了,「網絡運營者以經營為目的收集重要數據或個人敏感信息的,應向所在地網信部門備案。」此外,大多數網站早已對惡意爬蟲構建反爬措施並作出聲明嚴厲禁止,有律師直言,「突破、繞開第三方平臺的反爬蟲策略、協議時,或涉嫌非法獲取計算機信息系統數據罪、提供侵入非法控制計算機信息系統程序工具罪。」

臥底「最全」大數據公司

淘寶、京東等多家網站數據被爬取

記者發現一家名為「鷹眼智客」的大數據公司號稱「中國網際網路營銷服務第一品牌」。其官網宣稱:「有你所需要的一切」。據官網介紹,「鷹眼智客」歸屬於鄭州共贏科技有限公司。7月29日,新京報記者來到該公司面試地點——鄭州市金水區金城國際廣場A座,通過面試得到試崗資格,主要工作是推銷一臺包含「鷹眼智客大數據營銷系統」的電腦。在約一百平方米的房間裡,充斥著啪啪啪敲擊鍵盤的聲音。房間內的三十多名業務員共同組成了共贏科技的「商務部」。

鄭州共贏科技公司,業務員正在忙碌「殺單」。新京報記者 李大偉 攝

據其官網顯示,「鷹眼智客」系統涵蓋QQ營銷系列、微信營銷系列、綜合採集系列、論壇貼吧系列、郵件營銷系列五大模塊,擁有218個小功能。此外,其還宣傳稱「已成功為2800多家企業提供網際網路營銷服務,覆蓋120多個行業」。其中綜合採集系列號稱可精準採集目標客戶信息,覆蓋全網11大B2B平臺,4大搜尋引擎,7大地圖,準確率達90%。記者試崗期間任務是熟悉軟體流程,並得到主管發的一份「終端客戶聊天話術」。「終端客戶聊天話術」顯示,其數據來源於各大行業網站、各大平臺以及各大地圖等,「像阿里、百度、騰訊等等只要在網上公開留過痕跡的這些信息通過我們的核心技術SPILDER多線程技術都可以給你採集到。」據極驗產品總監程柏(化名)介紹,其核心技術實際上是網絡爬蟲技術。據其介紹,目前網際網路流行的網絡爬蟲種類比較多,信息採集類的網絡爬蟲主要是腳本和模擬器類爬蟲。記者發現,「鷹眼智客精準營銷系統」共包含數據採集系列、QQ營銷系列、社群論壇營銷、綜合營銷工具五個模塊,覆蓋了客戶數據採集到營銷的整條產業鏈。其中,數據採集系列模塊包含地圖行業採集、綜合數據採集、阿里巴巴採集、慧聰網採集、單頁名錄綜合採集、大眾點評網採集、淘寶商家信息採集、中國製造網採集、團購外賣商家採集、阿里國際站採集、八方資源平臺採集、京東商家採集十二個功能。記者測試發現,該套軟體操作十分簡單,每個功能還附有相應的教學視頻來指導。7月30日,通過該軟體,記者成功獲取大量手機號。以淘寶商家信息採集為例,記者在該系統中的淘寶商家採集功能中輸入關鍵詞「服裝」後,成功採集到北京地區淘寶賣家的82條信息,共耗時10分鐘。在軟體彈出框右下角還附有「導出電話鋪」的按鈕,採集得到的信息包括類型(店鋪等級)、掌柜名稱、地區、電話、店址等多個維度。

此外,記者還對該系統的京東商家採集、地圖行業採集、阿里國際站採集等功能依次進行測試,均獲成功。

附近的人有多近?軟體任意定位,還可「站街」釣魚營銷

「你得放開了玩,大聲喊出來!」在記者第一天早上上班之前,部門經理將業務員分成兩支隊伍,輪番結對玩一種「美女與野獸」的遊戲。據該公司的工作人員介紹,玩這種遊戲是為了調動業務員的積極性,培養團隊榮譽感。記者發現「鷹眼智客」自帶教學視頻,通過該視頻,記者試崗期間對工具中微信營銷的八個功能逐個進行測試。以該模塊中的微信定位營銷功能為例,用戶使用該功能需用手機模擬器登錄微信。按照添加模式不同,該軟體分為添加附近的人、添加指定QQ、搖一搖、添加群成員四種。記者調查發現,點擊微信定位營銷「獲取經緯度坐標」,會彈出一個頁面。假如在該彈出頁面輸入國貿位置後,用戶可將坐標定位到國貿,並看到國貿地區「附近的人」。利用該軟體用戶可以同時添加多個虛假位置,也支持多個微信號同時操作。該套軟體還有一定的反封號機制。視頻教程顯示,在參數設置中,用戶可以自己選擇好友驗證的次數、間隔時間以及每個位置發送驗證申請的個數。「剛剛使用的話少添加一些,比如說添加五六個,逐步增加,最多的話添加十個以內,有一段時間間隔之後再次添加。」設置好位置及參數設定後,用戶可在軟體中「驗證消息」下面的空白操作區域對驗證消息進行編輯。「比如說,他是做生意的,你可以將驗證消息編輯為『你好,我想看下你產品』,這樣的話(驗證申請)通過率會更高一些。」值得一提的是,該軟體還有一項名為「站街」的功能。所謂「站街」,即「如果說不想主動添加好友,只想讓附近的人看到並添加你,就可以使用站街功能。」在位置一欄的彈出對話框中,用戶只需點擊「模擬器利用此位置站街」即可「站街」。極驗產品總監程柏(化名)認為,「鷹眼智客」部分功能屬於黑色產業鏈。「這類群發功能有些是違背用戶意願的,純粹的牟利行為,像我有時候也會收到這類垃圾信息,多以營銷為主,但是這類營銷很多來源並不可靠,可能會有其他黑色產業鏈和惡意引導。」新京報記者從「鷹眼智客」工作人員處了解到,公司為了方便客戶營銷,還提供外呼機器人(AI電話)的服務,只需要將採集到的電話號碼導入即可。此前,新京報曾對外呼機器人進行曝光。所謂外呼機器人,實際上是一條電話機器人系統,一天客戶呼出1000通電話。隨後,央視3·15晚會也對外呼機器人進行曝光,不法分子和違法科技公司通過探針盒子搜集用戶隱私、大數據提供支持、智慧機器人提供外呼。

大數據如何「精準營銷」?抓取指定任意網站或APP的訪客手機號

新京報記者通過搜索關鍵詞「大數據精準營銷」,注意到一家名為娛加科技的大數據精準營銷公司。

企查查顯示,該公司全稱為蘇州娛加互娛網絡科技有限公司,法定代表人為吳輝。該公司成立於2018年4月19日,註冊資本200萬元人民幣,所屬行業為軟體和信息技術服務業。8月19日下午,新京報記者以保健品和網貸銷售的身份與吳輝取得聯繫。對某些行業數據,吳輝顯得謹小慎微。「保健品暫時不行,保健品目前查得比較嚴,屬於高危敏感行業。」吳輝告訴新京報記者說。據其介紹,該公司的獲客系統十分精準。「你可以指定任意網站或者APP,只需要提供網站連結或者APP的名稱及下載連結,我們就可以抓取到訪客的手機號碼。」吳輝說。不過,其所提供的訪客的手機號碼只顯示真實的前三位以及後四位,所以只能通過他們提供的系統去進行營銷。「我們會提供一個外呼系統,可以將這些手機號提供到外呼系統裡面去和客戶溝通。」吳輝介紹。獲取的中間四位被隱藏的手機號也被其稱為「脫敏數據」。此外,訪客獲取到的手機號也存在一定限制。「現在運營商主要做的是聯通和電信的,移動的停掉了。」吳輝說。至於為何停掉移動的,對方給出的答案則是因為「移動用戶太龐大了」。除了運營商,吳輝還表示,如果用戶是通過WiFi或者電腦來訪問的,也無法抓取到手機號。「它(該系統)是通過流量來訪問的,電腦端和無線網是抓取不了的,必須通過手機通信網絡。」為了增強說服力,吳輝建議記者「可以先花五百測試一下」。據其介紹,使用套餐為1000條起測,「我們可以籤一個費用套餐,開一個坐席,你自己去測試一下轉化率是多少。」吳輝提供給記者一份公司介紹。介紹文件對娛加科技獲客系統與普通網頁手機號抓取軟體做了對比,對比圖顯示,網頁手機訪客抓取軟體犯法,而娛加科技獲客系統則為「聯合聯通電信運營商正式推出的產品,合法合規,穩定安全」。8月19日,該公司倚為背書的聯通和電信的客服分別對此事進行否認,稱「並未提供過這種服務」。在介紹文件中,該公司提供給某整形美容醫院的服務也被做成了一份案例。案例顯示,該整形醫院以整形醫院哪家好、玻尿酸墊下巴、昆明隆鼻、整形醫院、美容醫院等225個關鍵詞,提交了本地同行等23個推廣網址、31個同行座機諮詢電話以及兩款醫美類APP,要求目標客戶為來自上海、年齡在16至50歲之間的女性客戶。該公司文件顯示,在2019年3月,每日推送100條左右的數據,共推送3053條。其中接通1872個,意向客戶873個,轉化客戶372個。接通率為61.31%,意向率為28.59%,轉化率為12.18%,獲客成本只有百度競價推廣的六分之一。安全研究員Jane介紹,當用戶發生上網行為時,首先向運營商發送一個數據包。該數據包經過運營商之後再傳給服務商。數據包中包含有用戶的上網痕跡、手機號等信息。「當其中某一方發生信息洩露時,不法分子可以利用這個數據包解析出來用戶的敏感信息。」Jane告訴新京報記者。

充滿技巧的「殺單」話術

有業務員日賺近5000元

「公司目前有兩種計酬方式,一種是有底薪制,底薪為1500,銷售一件產品提成為10%;另一種為無底薪制,底薪為0,銷售一件產品提成為25%。」共贏科技負責面試的李夢海(化名)告訴新京報記者,「一般人都會選擇無底薪高提成的,賺得多。」一臺包含「鷹眼智客大數據營銷系統」的電腦,定價為8800元。按照定價以及提成來推算,每銷售一臺,業務員可以得到2200元。據李夢海介紹,共贏科技有限公司在鄭州總部共有5個小隊。記者被分配到「尖刀隊」。「恭喜尖刀隊甜甜出單!」7月31日下午3點50分,坐在記者右側的甜甜突然喊道。當業務員出單時,便會自己喊出「恭喜××隊××出單!」,此刻所有人便會停下案頭工作為其鼓掌。「這是一種獎勵機制。」一名工作人員向新京報記者介紹說。甜甜是一名新人。1992年出生的她,幾個月前來到這個公司轉行成為一名銷售。因剛入行不久,一些「殺單」的話術她並不熟練,當客戶表現得意向較強時,較為資深的業務員便會聚攏過來進行指導。據其描述,她平均每月可以成交四五單。在鄭州來講,收入十分可觀。所謂「殺單」,則是銷售之間常見的行話,意為和客戶成交。甜甜出單後不久,坐在記者斜對面的「馬總」(暱稱)也出了一單。「這已經是他今天出的第二單。按照每單提成25%的利潤來計算的話,算上獎金,他已經賺了快5000塊錢了。」甜甜說。這種場景在記者試崗期間頻繁出現。在尖刀隊主管楊小峰(化名)發送給記者的一份「終端客戶聊天話術」文檔中,詳細地記載了一些「殺單」技巧以及問答實錄。記者發現,當新人有客戶意向較為強烈時,經理和團隊主管便會聚攏上來出謀劃策,研究如何讓顧客上鉤。據甜甜透露,她「殺」的客戶是一位「做保健品的」。8月18日,記者聯繫到甜甜這位客戶張娜(化名)。據其介紹,在使用「鷹眼智客」系統僅僅兩天後,她使用多年的微信號即遭到封禁。張娜說她再也不敢用了。

合法爬蟲or惡意爬蟲惡意爬蟲涉非法獲取計算機信息系統數據罪

「這肯定是合規的,因為我們不直接參與販賣數據。」該公司負責人事的李夢海告訴新京報記者說,「如果賣爬取到的數據就違法了。」該公司的業務員王偉(化名)則給出了不同的答案。王偉向新京報記者直言了自己的擔憂。「外呼機器人是違規的,之前曾被曝光過。」王偉說。爬蟲技術是為了網際網路本身信息傳播而產生的。通過網絡爬蟲,搜尋引擎獲悉網際網路的內容。在網絡安全領域,也有通過爬蟲來檢測網站漏洞和網站可用性。「爬蟲技術的本質用途仍然存在,像百度、谷歌之類的公司,但是網際網路上面的其他黑產眼裡只有利益,他們通過網絡爬蟲做二次數據封裝和用戶引流,通過數據販賣和流量牽引牟利。從用戶視角來說,危害主要有惡意營銷、網絡攻擊(網絡釣魚);從網站角度來說,危害包括網絡攻擊、薅羊毛、影響正常的企業服務、信息價值流失、用戶流失。」程柏說。中消協此前發布的《APP個人信息洩露情況調查報告》顯示,約86.5%的受訪者曾受到推銷電話或簡訊的騷擾,約75.0%的受訪者接到詐騙電話,約63.4%的受訪者收到垃圾郵件,排名位居前三位。對於此類爬蟲軟體,多數網站早已聲明嚴厲禁止。北京煒衡律師事務所周浩律師認為,「網絡爬蟲爬取數據需要遵守第三方平臺的Robots協議以及獲取數據的性質具有公開性,不得包含個人信息數據、商業秘密及國家秘密等信息數據。如果突破、繞開第三方平臺的反爬蟲策略、協議時,或涉嫌非法獲取計算機信息系統數據罪、提供侵入非法控制計算機信息系統程序工具罪。」Robots協議也稱為爬蟲協議、機器人協議等,其全稱為「網絡爬蟲排除標準(RobotsExclusionProtocol)」。「網站通過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。對於搜尋引擎來說是行業通用的爬取約定協議,但對惡意爬蟲來說並沒有任何約束力。」知道創宇技術總監鄧金城告訴新京報記者說。據騰訊發布的《2018上半年安全專題系列研究報告》(以下簡稱報告)顯示,惡意爬蟲通過分析並自行構造參數對非公開接口進行數據爬取或提交,獲取對方本不願意被大量獲取的數據。報告指出,據統計,出行、社交、電商佔惡意爬蟲流量目標行業分布前三位,佔比分別為20.87%、18.40%、13.38%。周浩表示,《網絡安全法》《個人信息安全規範》都強調了,通信聯繫方式(電話號碼)是重要的個人信息,非經同意不得收集。提供用來收集個人信息的工具,一旦被使用必然存在違規。

技術發展倒逼法律完善收集重要數據或個人敏感數據需備案

溯其本源,便是逐利。「一些所謂的大數據公司本身沒有數據來源,而是通過爬蟲手段獲取他人的數據。」程柏說。反爬鬥爭已悄然進入白熱化。不過,「反爬」絕非易事。知道創宇404實驗室副總監隋剛介紹,規模較大的公司都會有自己的反爬機制,但「有些爬蟲可以繞過這些反爬機制」。技術的不斷發展在倒逼相關法律趨於完善。2019年5月份,國家網際網路信息辦公室發布了《數據安全管理辦法》徵求意見稿(以下簡稱「徵求意見稿」)對爬蟲技術有明確的定義和規定。其中第十六條規定,網絡運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行;如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。「不過,第十六條在實踐操作中可能存在一定問題,對造成網絡不能正常運行也未有相應的處罰措施,這可能是將來需要完善的地方。」曾多次參與制定企業隱私政策的京師上海國際總部專職律師徐延軒說。同時徵求意見稿第十五條也規定了,「網絡運營者以經營為目的收集重要數據或個人敏感信息的,應向所在地網信部門備案。」徐延軒認為,收集重要數據備案制度可能是未來監管的方向。

本文轉自新京報 作者:李大偉 羅亦丹

本文編輯:張孜蕙

- E N D -

你能為我摘一顆星星嗎?

相關焦點

  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    藉助超連結信息抓取網頁  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。
  • 爬蟲玩的好,監獄進的早?
    但當下大數據風控行業卻迎來多事之秋,多家為網際網路小貸公司、個人消費類業務金融等公司提供服務的大數據風控領域企業被抓,他們旗下的爬蟲業務先後都因「涉黑」被暫停營業。這些企業「收緊或叫停數據服務」的背後與涉嫌利用網絡爬蟲技術侵犯個人隱私有關聯。
  • 網絡爬蟲的法律規制
    以法律的形式規範數據收集、存儲、處理、共享、利用以及銷毀等行為,強化對個人信息和重要數據的保護,可維護網絡空間主權和國家安全、社會公共利益,保護自然人、法人和其他組織在網絡空間的合法權益。相較於數據所有者通過開發API來提供數據,網絡爬蟲技術為數據收集者提供了極大的便利,也給專業網絡爬蟲公司帶來巨大的收益:隨著網絡爬蟲技術在市場中的日益普遍,其成本急劇下降,截至2016年其服務成本已經低至每小時20元,一般的網絡爬蟲公司平均每年可賺取40萬元,而專門為大公司從事網絡爬蟲外包服務的公司每年收益可達百萬。
  • 網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私
    網絡爬蟲搜尋引擎收集網上信息的主要手段就是網絡爬蟲(也叫網頁蜘蛛、網絡機器人)。它是一種「自動化瀏覽網絡」的程序,按照一定的規則,自動抓取網際網路信息,比如:網頁、各類文檔、圖片、音頻、視頻等。搜尋引擎通過索引技術組織這些信息,根據用戶的查詢快速地提供搜索結果。
  • 法學匯|網絡爬蟲的入罪標準與路徑研究
    網絡爬蟲(Web Crawler),又稱網絡蜘蛛或者網絡機器人,是一種按照一定規則自動抓取網際網路信息的程序。在大數據時代,網絡爬蟲已成為網際網路抓取公開數據的常用工具之一,可以實現對文本、圖片、音頻、視頻等網際網路信息的海量抓取。網絡爬蟲相關訴訟糾紛引發了學界在私法層面對大數據權益屬性、權益分配的諸多法律爭議,以及在公法層面對網絡爬蟲刑法規制路徑的諸多探討。
  • 爬蟲究竟是合法還是違法的?
    因為最新的安全法強調:販賣個人信息超過 50 條屬於「情節嚴重」,需要追求其法律責任。很多草根站長都紛紛主動關閉了網站;還有很多涉及版權資訊的網站,比如書籍、影視劇、課程等後期也會面臨越來越嚴格的審查,這就是目前大的形勢。
  • 爬蟲技術涉案大數據分析及法律解讀
    爬蟲技術涉案大數據分析及法律解讀 虞元堅 發表於 2021-01-12 16:39:26   爬蟲技術涉案大數據分析及法律解讀 爬蟲技術作為一種前端獲取網站信息數據的技術
  • 爬蟲可以做哪些事?
    「覓食」的爬蟲很快很全面爬蟲是什麼?簡單來說,它是程式設計師寫出的代碼,是一種技術。它的基本操作是模擬人的行為去各個網站「溜達」,點點按鈕,查查數據,還能把看到的信息取回來,就像是在一張巨大網際網路上爬行「覓食」的蟲子,比人類的速度更快,覆蓋場景更全面。近些年,由於大數據處理和數據挖掘技術的發展,爬蟲技術在大數據分析的應用越來越廣泛。
  • 德雲社怒斥隱私洩露行為 為個人信息戴上「安全帽」
    事實上,隨著網際網路的發展和普及,信息流動的速度大大加快,無論是從深度還是廣度,信息領域都存在巨大的挖掘和探索空間。如今,大數據已成為網際網路企業最基礎的發展領域,由此也引發各種網絡信息安全問題。從現實來看,隱私洩露在當前網絡環境下幾乎無法杜絕,人們在將信息授權給他人、商家或交易平臺之時,就已經打開了隱私洩露之門。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。
  • 數據從業者必讀:抓取了一千億個網頁後我才明白,爬蟲一點都不簡單
    成立於2010年的Scrapinghub是領先的數據析取公司之一,也是當今最健壯和流行的web爬蟲框架Scrapy的作者。目前Scrapinghub每月抓取許多全球最大型電子商務公司的頁面數超過80億(其中30億是產品頁面)。
  • 法制日報調查:大數據公司「爬取簡歷打小報告」侵權現象頻發
    ● 一些簡歷大數據公司拼命發掘求職者簡歷上所有的秘密,並出現了監測員工離職動向的工具軟體,它可以監測到員工更新、投遞簡歷等行為,以及員工簡歷被HR、獵頭查看次數等信息。● 越來越多的用戶數據處於「裸奔」狀態,隱私信息洩露已經成為讓人擔憂卻又束手無策的頑疾。一般存在兩種情況,包括從招聘平臺內部洩露和第三方數據抓取。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • 裁判文書網數據竟被標價售賣:爬蟲程序抓取,或構成侵權
    不少聲稱能夠出售裁判文書網數據的商家在商品文字描述中稱,其數據是通過「網絡爬蟲」的方式獲取的。所謂「網絡爬蟲」,又稱網頁蜘蛛、網頁機器人,是一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本。相當於一個自動訪問網頁並進行相關操作的小機器人。
  • 「遠見」個人信息保護法將出臺 揭開數據算法的神秘「面紗」
    本期話題:揭開數據大算法的「面紗」。從「大數據殺熟」到「外賣員困在系統裡」,大數據算法愈發受到關注。從手機購物的「千人千面」,到金融放貸的「用戶畫像」,「算法」究竟是什麼?它是如何影響人的?從網絡安全法,到個人信息保護法、數據安全法,法規能否有效控制算法的「濫用」?如何讓算法更好地服務人,而不是侵犯人?未來,自然人和算法究竟是怎樣的關係?
  • 放下你手裡的代碼:爬蟲技術的善與惡
    原因是最近發生的多起涉及爬蟲技術的公司被司法部門調查。近日,51信用卡被查,更是將暴力催收背後非法使用爬蟲技術爬取個人隱私數據的醜行,暴露在陽光之下。 一時間,「爬蟲」成為眾矢之的,一些公司緊急下架了爬蟲相關的招聘信息,給大數據風控、人工智慧從業者帶來些許恐慌,頭髮又多落了幾根。
  • 爬蟲收割隱私,黑箱埋葬靈魂-虎嗅網
    一些明目張胆做數據買賣的,就難免被拉出來懲戒示眾。自稱數據第一股的北京「數據堂」,2014年掛牌新三板。2017年7月山東公安上門時,這家公司日均傳輸公民個人信息1億3000萬餘條,累計傳輸數據壓縮後約為4000G。數據堂的數據,大多是用自營眾包平臺、公共領域共享、網絡爬蟲爬取方式獲取。
  • 爬蟲收割隱私,黑箱埋葬靈魂
    2017年7月山東公安上門時,這家公司日均傳輸公民個人信息1億3000萬餘條,累計傳輸數據壓縮後約為4000G。數據堂的數據,大多是用自營眾包平臺、公共領域共享,網絡爬蟲爬取方式獲取。一份「車輛標準圖像數據」的數據包在網頁公開售價20000元。新華視點記者曾問他們客服,這是否會涉嫌侵犯用戶隱私。客服聲稱,這些照片都是擺拍,獲得了授權。
  • 爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術
    爬蟲技術的使用不僅僅在風控行業,據筆者了解,遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息,了解用戶喜好,從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界,兼談遊戲行業在推廣中應如何合法使用爬蟲技術。
  • 玩「爬蟲」可能觸犯的三宗罪
    數據玩得溜,牢飯吃個夠。 自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。 爬蟲技術違規嗎?開展業務到底存在哪些風險點?