天機數據否認涉足數據爬蟲,關聯透視寶擅長用戶行為數據採集

2020-12-01 藍鯨傳媒

10月29日，天機數據在其官方微信公眾號發布聲明，回應關於「天機數據從事風控、爬蟲業務」相關報導。

天機數據系業務運維解決方案提供商雲智慧(北京)科技有限公司(下稱「雲智慧」)設立的子公司，成立於2016年6月。2016年8月，天機數據獲得紅杉資本中國與戈壁創投聯合投資的1000萬元人民幣天使輪融資;2018年1月，又獲得由寬帶資本(CBC)領投，紅杉資本中國基金、阿爾法公社跟投的PreA輪融資1520萬元。目前紅杉資本中國、戈壁創投、寬帶資本等投資人已全部退出天機數據股東名單，天機數據由雲智慧全資控股。

天機數據表示，與大數據風控平臺相關負面稿件提及的金融風控、徵信和數據爬蟲業務相關的「天機」與「北京天機數測數據科技有限公司」(下稱「天機數測」)無任何關聯關係。天機數測過去從未涉及金融行業的風控、爬蟲等業務，未來也不會開展金融風控、徵信、數據爬蟲等方面工作。

天機數據還強調，其專注於電力、氣象、政府、公安等行業應用場景，其兩位公司相關人員更是極力撇清公司和金融的關係。

事實真的是這樣嗎?

2017年36氪發表的《【獨家】「雲智慧」孵化的「天機數據」，獲紅杉、戈壁聯合投資1000萬元》稿件中有較為詳細的闡述，在此金小鯨(id：lanjinghj)就不贅述了。大意就是介紹其從事的是大數據服務，核心的應用場景就是智慧城市和金融，雲智慧的實際控制人殷晉還對上述領域詳細談到了自己的看法。

此前還有用戶在今日頭條反映稱，由天機數測運營的大數據產品「天機數據」，早在2017年底就為北京714高炮平臺「短貸王」提供天機信息認證服務。

對此，天機數據也否認和短貸王有合作。

上述論據暫只能證明天機數據可能從事的是手機運營商認證和「大數據應用於智慧城市和金融」的業務，確實並不能證明天機數據從事爬蟲、徵信和非法數據獲取相關的業務。

金小鯨(id：lanjinghj)翻閱所有天機數據公眾號內容，找到一條其2016年12月2日推送的《大數據的最後一公裡——數據可視化》內容，其中提到「雲智慧的核心應用性能管理產品透視寶，能夠幫助用戶發現移動端、Web端和後端應用的性能問題，而天機數據是作為數據可視化的專家，通過把應用性能數據的可視化，讓簡單易懂的大數據分析結果呈現在客戶眼前，一目了然的將問題清晰定位，通過一張地圖實時展示APP用戶的活躍程度、性能狀況、性能對用戶分布的影響情況等等，未來的想像空間非常大。」

APP用戶的系列數據有相當比例也屬於個人隱私範疇，那透視寶是怎麼獲取的呢?

金小鯨(id：lanjinghj)獲得的一份「透視寶產品白皮書」介紹，透視寶是面對業務基於端到端的立體化應用性能管理(APM)平臺，針對移動和網站應用，提供全面的性能監控、分析與管理解決方案。

據悉，在運作過程中透視寶自動發現應用中的各個事務流程，實時記錄在應用中該事務流程的用戶行為數據、體驗數據及相關IT性能指標。

同時，透視寶將對實時數據分析提供可視化數據分析報告。在其出示的一份報告中，將用戶在購買產品、充值、使用購物券、加入購物車、確認訂單、修改發票信息等行為數據全部記錄在內，並將應用響應時間及成功率形成可視化分析圖表。

據介紹，「透視寶具有實時處理與分析的大數據架構，面向一萬多種不同類型的用戶體驗與性能指標數據，提供每秒億級別的數據處理架構，透視寶採用基於插件機制的雲監控端及流管理器實現大數據採集。」

金小鯨(id：lanjinghj)暫未得到天機數據從事爬蟲相關業務的證據，且天機數據是雲智慧的全資子公司，而透視寶是雲智慧的產品，也並未有證據證明透視寶是由天機數據運營。

此前同盾公關也曾向金小鯨(id：lanjinghj)否認從事爬蟲相關業務，實際上據財新報導同盾旗下爬蟲公司信川科技的兩名負責人徐斐和童保華已被檢方批捕，同盾實際控制人蔣韜卻沒被抓，說明實操上同盾可以從成立子公司信川科技從事爬蟲來做到一定的風險隔離。

相關焦點

惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?

7月底，新京報記者臥底「鷹眼智客」發現，其實際上是利用爬蟲技術，從淘寶、京東等網站上爬取到店家手機號後，用於營銷。此外，藉助該軟體，通過微信附近的人，用戶可任意設定虛擬位置後批量申請好友，還能「站街」釣魚營銷。有安全專家表示，當用戶發生上網行為時會發送數據包，內含行為痕跡、手機號等信息。
網絡爬蟲竊取數據,技術工具遭遇司法拷問

「網絡爬蟲」是一個科技感十足的名詞，在玩代碼的圈子裡，這指的是一個數據爬取工具，被編程人員用在獲取網際網路上存在的大量信息。不過，一些網際網路公司通過該工具強行侵入其它網站，隨意竊取數據的行為是違法的。網上出現了這樣一個段子，「爬蟲玩得好，監獄進的早。數據玩的溜，牢飯吃個夠。」
入門Python爬蟲——獲取數據篇

作者：李菲來源：人工智慧學習圈在如今的大數據時代，相信大家都對Python一詞有所耳聞。而Python爬蟲，簡單來說，即通過Python程序獲取對我們有用的數據。常用於商業分析，不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。
裁判文書網數據竟被標價售賣:爬蟲程序抓取,或構成侵權

商家還稱，每個月他們能接到四五個文書數據採集的訂單，而價格和買家需要的數據量有關，「幾百萬條數據大概要幾千塊錢，現在加密技術很嚴格，所以要貴一些。」「爬蟲」系統，曾致正常用戶無法訪問北青報記者了解到，部分技術機構通過網絡爬蟲系統獲取裁判文書網數據的行為，已經給裁判文書網正常用戶的訪問帶來了不便。
有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據

產品和運營在日常工作中，常常需要參考各種數據，來為決策做支持。但實際情況是，對於日常工作中的各種小決策，內部提供的數據有時還不足給予充分支持，外部的數據大部分又往往都是機構出具的行業狀況，並不能提供什麼有效幫助。於是產品和運營們往往要藉助爬蟲來抓取自己想要的數據。
紮緊制度籬笆,龍貓數據全方位保障數據安全與用戶隱私

在人工智慧系統應用過程中，數據在其中扮演了不可或缺的角色，數據安全與隱私保護也成為企業必須考慮的問題。龍貓數據作為 AI 數據服務引領企業，始終以保障數據安全、保證用戶隱私不洩露為己任，通過先進的技術和完善的制度流程建立起牢固的防護網，實現了數據安全零事故。
爬蟲技術涉案大數據分析及法律解讀

爬蟲技術涉案大數據分析及法律解讀虞元堅發表於 2021-01-12 16:39:26 爬蟲技術涉案大數據分析及法律解讀爬蟲技術作為一種前端獲取網站信息數據的技術
網絡爬蟲作用有哪些?如何構建網絡爬蟲?

根據We Are Social和Hootsuite的2018年全球數字新報告，全球網際網路用戶數量剛剛超過40億，比2017年增長7％。人們正在以前所未有的速度轉向網際網路，我們在網際網路上做的很多行為產生了大量的「用戶數據」，比如評論，微博，購買記錄等等。
多家數據公司疑因涉違規爬取數據等遭經偵介入

近期多家數據公司疑因涉違規爬取數據等遭經偵介入，而目前大數據行業整頓或仍在繼續。據新流財經報導，百融方面否認百融深圳分公司員工被帶走的傳聞。此前有消息稱百融數據查詢受到影響、個人徵信數據被暫停等，對此，百融回應藍鯨財經稱對其沒有影響。
專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...

網絡爬蟲是一種中立的技術手段，數據爬取是否構成犯罪，要根據爬取行為本身和獲取數據的性質進行實質性判斷；流量造假危及數據信用生態，形成了大量經濟泡沫，建議通過立法增設「妨害數據信用罪」來加強打擊。近日，浙江理工大學於杭州主辦的數據安全犯罪前沿論壇上，部分與會專家發表了上述觀點。
爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

爬蟲技術的使用不僅僅在風控行業，據筆者了解，遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息，了解用戶喜好，從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界，兼談遊戲行業在推廣中應如何合法使用爬蟲技術。
爬蟲代理使用過程中常見錯誤分析

在網際網路上進行自動數據採集已是網際網路從業者的常規操作，爬蟲程序想要長期穩定地進行數據採集，都會使用到爬蟲代理來避免目標網站的IP訪問限制。在數據採集過程中難免會遇到各種各樣的問題，若想要想要快速分析數據採集過程中的問題，我們該怎麼做呢？其實可以通過HTTP請求返回的各種狀態碼進行判斷。
玩大數據一定用得到的19款 Java 開源 Web 爬蟲

今天將為大家介紹19款Java開源Web爬蟲，需要的小夥伴們趕快收藏吧。一、HeritrixHeritrix 是一個由 java 開發的、開源的網絡爬蟲，用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性，方便用戶實現自己的抓取邏輯。
Python網絡爬蟲第七篇——數據存儲

Python網絡爬蟲（第七篇）——數據存儲存儲在文件中，包括TXT文件和CSV文件存儲在MySQL資料庫中。關係資料庫將數據保存在不同的表中，而不是將所有數據放在一個大倉庫內，這樣就增加寫入和提取的速度，數據的存儲也比較靈活。關係資料庫：建立在關係模型的基礎上的資料庫。好比將「小明的個人信息和出行記錄」分別放在「信息表中」和「出行記錄」表中，用小明的信息「ID」作為主關鍵字把兩個表關聯起來。MySQL資料庫需要下載，具體下載方法參考百度。
網絡爬蟲哪些數據可以採集哪些不可以,不看可別後悔

顯然，版權是網絡爬蟲需要關注的內容。如果抓取別人的博客內容然後放到自己的博客上，就可能會惹上官司。不過，有幾層保護，可以根據博客抓取項目的實際影響，幫自己進行辯護。首先，版權保護只涉及有創造性的作品，而不涉及統計數據或事實。好在許多網絡爬蟲抓取的都是事實和統計數據。
如何高效使用爬蟲IP代理?

網際網路時代，得數據者得天下，採集數據的工作越來越重要。但網際網路上存留的數據非常龐大，單靠人力進行數據採集已遠不能滿足需求，因此效率高、成本低的網絡爬蟲廣受人們青睞，成為爬取收錄信息的主流方式。爬蟲代理IP是網絡爬蟲的必備工具，可以讓數據採集變得更加高效。
簡單使用scrapy爬蟲框架批量採集網站數據

本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。本篇文章以豆瓣電影Top250的數據為例，講解一下scrapy框架爬取數據的基本流程。豆瓣Top250 這個數據就不過多分析，靜態網站，網頁結構十分適合寫爬取，所以很多基礎入門的爬蟲案例都是以豆瓣電影數據以及貓眼電影數據為例的。
分析了130W字的數據,我知道了用戶在想什麼

這類諮詢內容的記錄能幫助一些遇到相同問題的用戶更快的解答自己的疑惑，提高產品內容的豐富度，增加用戶粘性。另一方面，公開這類數據讓百度，360等搜尋引擎的爬蟲抓取，有助於提高網站的權重，在用戶搜索相關內容的時候更容易出現在靠前的結果，相當於給平臺新增了流量來源。 3.
爬蟲玩的好,監獄進的早?

這些企業「收緊或叫停數據服務」的背後與涉嫌利用網絡爬蟲技術侵犯個人隱私有關聯。數據服務被叫停，風控行業陷恐慌9月6日下午，大數據風控平臺杭州魔蠍科技有限公司（簡稱魔蠍科技）的創始人兼CEO周江翔被警方帶走調查，其公司數據抓取業務或涉嫌侵犯隱私、助力暴力催收。
初學者如何用「python爬蟲」技術抓取網頁數據?

在當今社會，網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。今天，小編將與您分享一個爬蟲的基本知識和入門教程：什麼是爬蟲？網絡爬蟲，也叫作網絡數據採集，是指通過編程從Web伺服器請求數據（HTML表單），然後解析HTML以提取所需的數據。

天機數據否認涉足數據爬蟲,關聯透視寶擅長用戶行為數據採集

相關焦點

惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?

網絡爬蟲竊取數據,技術工具遭遇司法拷問

入門Python爬蟲——獲取數據篇

裁判文書網數據竟被標價售賣:爬蟲程序抓取,或構成侵權

有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據

紮緊制度籬笆,龍貓數據全方位保障數據安全與用戶隱私

爬蟲技術涉案大數據分析及法律解讀

網絡爬蟲作用有哪些?如何構建網絡爬蟲?

多家數據公司疑因涉違規爬取數據等遭經偵介入

專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...

爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

爬蟲代理使用過程中常見錯誤分析

玩大數據一定用得到的19款 Java 開源 Web 爬蟲

Python網絡爬蟲第七篇——數據存儲

網絡爬蟲哪些數據可以採集哪些不可以,不看可別後悔

如何高效使用爬蟲IP代理?

簡單使用scrapy爬蟲框架批量採集網站數據

分析了130W字的數據,我知道了用戶在想什麼

爬蟲玩的好,監獄進的早?

初學者如何用「python爬蟲」技術抓取網頁數據?