網絡爬蟲怎麼管?最新研究報告:強調場景化治理

2021-01-13 新浪財經

來源：澎湃新聞

原標題：網絡爬蟲怎麼管？最新研究報告在滬發布，強調場景化治理

被稱為「網絡爬蟲」的自動數據採集技術該如何管理？11月28日，在CIS 2019網絡安全創新大會上發布的一份《數據爬取治理報告》提供了思路。

CIS 2019網絡安全創新大會現場

《數據爬取治理報告》是上海數據治理與安全產業發展專業委員會的最新研究成果。報告指出，數據爬取作為數據採集的一種高效實現形式，是國內外諸多網際網路企業極為通常甚至賴以生存的手段。但是隨著圍繞數據自動化技術進行爬取和挖掘行為急劇增多，帶來了數據權屬、智慧財產權和商業機密保護、個人信息隱私界限、不正當競爭、計算機信息系統安全等方面巨大爭議。尤其是近期在金融、內容、電商等各類場景的數據爬取案件頻發，這一「灰色地帶」必將被提上數據治理議程，已成為非常緊迫的現實問題。

《報告》根據現實法律環境剖析了數據爬取在訪問進入、數據類型和數據使用三個環節可能的法律風險，總結髮現數據爬取治理的七大難點，並針對性提出五項治理原則，包括重視場景化治理、消除過度的數據壁壘等具備實操性的建議。最後，《報告》梳理了九個近年國內外較為典型的數據爬取司法判例，旨在給政府相關產業和監管部門、大數據企業和廠商、法律界以及社會公眾提供全面客觀的認知支持。

上海數據治理與安全產業發展專業委員會今年在上海市經信委和上海市委網信辦等部門的指導下，由上海信息服務業行業協會、上海社會科學院網際網路研究中心等機構共同發起成立。

上海市經信委軟體和信息服務業處處長劉山泉表示，上海智慧城市建設高度重視大數據技術和產業的發展，公共數據開放水平居於國內前列，大數據技術生態初步形成，未來高水平、高質量的數據產業將成為上海信息服務業高質量發展的重要引擎。

對此，上海數據治理專委會應在原有工作基礎上，重點做好三個方面的工作：第一，密切關注全球和國內數據治理發展的新動態；第二，重點關註上海社會經濟和產業發展核心領域的數據治理問題；第三，高度關注人工智慧、5G、工業網際網路、區塊鏈等技術發展中可能帶來的數據安全治理問題。

中共上海市委網絡安全和信息化委員會網絡安全處處長王靜認為，數據時代面臨的各種安全風險和挑戰不斷凸顯，從公民個人隱私數據被違法收集、洩露到關鍵信息技術設施數據遭受勒索、盜竊，甚至到大國之間的博弈，數據安全已經不單單是網絡安全問題，而且成為關係社會穩定發展的全局性問題。

相關焦點

網絡爬蟲怎麼管?最新研究報告在滬發布,強調場景化治理

被稱為「網絡爬蟲」的自動數據採集技術該如何管理？11月28日，在CIS 2019網絡安全創新大會上發布的一份《數據爬取治理報告》提供了思路。CIS 2019網絡安全創新大會現場《數據爬取治理報告》是上海數據治理與安全產業發展專業委員會的最新研究成果。報告指出，數據爬取作為數據採集的一種高效實現形式，是國內外諸多網際網路企業極為通常甚至賴以生存的手段。
網絡爬蟲的法律規制

隨著數據資源的爆炸式增長，網絡爬蟲的應用場景和商業模式變得更加廣泛和多樣，較為常見的有新聞平臺的內容匯聚和生成、電子商務平臺的價格對比功能、基於氣象數據的天氣預報應用等等。一個出色的網絡爬蟲工具能夠處理大量的數據，大大節省了人類在該類工作上所花費的時間。網絡爬蟲作為數據抓取的實踐工具，構成了網際網路開放和信息資源共享理念的基石，如同網際網路世界的一群工蜂，不斷地推動網絡空間的建設和發展。
法學匯|網絡爬蟲的入罪標準與路徑研究

網絡爬蟲（Web Crawler），又稱網絡蜘蛛或者網絡機器人，是一種按照一定規則自動抓取網際網路信息的程序。在大數據時代，網絡爬蟲已成為網際網路抓取公開數據的常用工具之一，可以實現對文本、圖片、音頻、視頻等網際網路信息的海量抓取。網絡爬蟲相關訴訟糾紛引發了學界在私法層面對大數據權益屬性、權益分配的諸多法律爭議，以及在公法層面對網絡爬蟲刑法規制路徑的諸多探討。
網絡爬蟲作用有哪些?如何構建網絡爬蟲?

根據We Are Social和Hootsuite的2018年全球數字新報告，全球網際網路用戶數量剛剛超過40億，比2017年增長7％。人們正在以前所未有的速度轉向網際網路，我們在網際網路上做的很多行為產生了大量的「用戶數據」，比如評論，微博，購買記錄等等。
專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...

2020年，疫情的巨大挑戰和數字經濟的蓬勃發展共同構成了網絡空間治理的大背景，針對數據爬取、流量灰黑產、個人數據保護等方面的新問題，刑法學應該如何作出回應？來自清華大學、中國政法大學、浙江大學等機構的專家和網際網路企業代表就此展開了討論。整體保護框架需要改進公民個人信息保護與大數據產業發展之間、信息自由與信息安全之間該如何尋求平衡？
艾媒諮詢|2020中國智慧場景服務專題研究報告

傳統基建也逐漸向「新基建」轉型，如今的商圈、出行、社區、工業園等場景開始向智慧化靠攏。近三年的《國務院政府工作報告》多次提到推進數字社會建設。iiMedia Research(艾媒諮詢)數據顯示，2019年，中國線下零售金額佔社會消費品零售總額75%，線下消費仍然是國內居民的主流消費方式，蘊藏著巨大的市場增長空間。大數據實際用戶畫像更加精準，新零售進一步推動線上線下一體化進程，助力打造智慧場景。
《文化藍皮書:中國文化發展研究報告(2017～2020)》提出——

□本報記者孫海悅　　中國社會科學院中國文化研究中心與社會科學文獻出版社日前在京聯合發布《文化藍皮書：中國文化發展研究報告（2017～2020）》（以下簡稱藍皮書）。藍皮書聚焦黨的十八大以來中國文化產業發展的新特點和政策的相應變遷，對當前文化發展形勢進行全面分析，並對文化產業的未來發展提出建設性意見。
網絡爬蟲哪些數據可以採集哪些不可以,不看可別後悔

可能在抓取的時候我們不太明白專利侵權這些範圍怎麼去界定。專利只是用來聲明發明的所有權。圖片、文字和任何信息本身不能獲得專利權。雖然有些專利（比如軟體專利）並不像我們通常理解的「發明創造」那樣是有形的，但是要注意，獲得專利權的是這些無形的東西（技術），而不是專利報告中的內容。
京東商城修改robots 屏蔽一淘網搜尋引擎爬蟲

京東商城修改爬蟲規則新浪科技訊 10月25日上午消息，京東商城與阿里巴巴集團旗下比價購物搜索一淘網的暗戰出現最新進展，京東商城已通過技術手段在www.360buy.com/robots.txt頁面中加入「User-agent: EtaoSpider Disallow: /」
《文化藍皮書:中國文化發展研究報告(2017～2020)》發布

中國社會科學院中國文化研究中心與社會科學文獻出版社近日聯合發布《文化藍皮書：中國文化發展研究報告（2017～2020）》（以下簡稱《報告》）。《報告》聚焦於黨的十八大以來中國文化產業發展的新特點和政策的相應變遷，對當前文化發展形勢進行全面分析，並對文化產業未來的發展提出建設性意見，具體內容涉及區域文化產業、文化金融、文化消費、公共文化服務體系、文化企業、不同類別的文化產業、國際文化產業等多個方面。新華網文化頻道聯合中國社會科學院中國文化研究中心、社會科學文獻出版社，摘登《報告》部分內容，希冀與網友一起總結經驗、共謀未來。
第7天|10天搞定Python網絡爬蟲,Scrapy爬更快

說了好幾天用requests進行網絡爬蟲編程了，是時候換成專業，高效率的爬蟲庫--Scrapy了。我之所以一開始用requests，就想告訴你，網絡爬蟲，方法挺多的，合適就行。還有在之前說的各種解析庫，在Scrapy中，也會經常用到，特別是Lxml的XPath。如果之前不說，留到現在還得說。
網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私

網絡爬蟲搜尋引擎收集網上信息的主要手段就是網絡爬蟲（也叫網頁蜘蛛、網絡機器人）。它是一種「自動化瀏覽網絡」的程序，按照一定的規則，自動抓取網際網路信息，比如：網頁、各類文檔、圖片、音頻、視頻等。搜尋引擎通過索引技術組織這些信息，根據用戶的查詢快速地提供搜索結果。
還有人不知道網絡爬蟲是什麼吧

就像Koster（Koster，1995）所注意的那樣，爬蟲的使用對很多工作都是很有用的，但是對一般的社區，也需要付出代價。使用爬蟲的代價包括：網絡資源：在很長一段時間，爬蟲使用相當的帶寬高度並行地工作。伺服器超載：尤其是對給定伺服器的訪問過高時。質量糟糕的爬蟲，可能導致伺服器或者路由器癱瘓，或者會嘗試下載自己無法處理的頁面。
資料|精通 Python 網絡爬蟲:核心技術、框架與項目實戰

from=leiphonecolumn_res0731為什麼寫這本書 · · · · · ·網絡爬蟲其實很早就出現了，最開始網絡爬蟲主要應用在各種搜尋引擎中。在搜尋引擎中，主要使用通用網絡爬蟲對網頁進行爬取及存儲。
網絡爬蟲的類型-膠東在線考試培訓

網絡爬蟲具體有哪些類型呢？網絡爬蟲可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中，通常是這幾類爬蟲的組合體。 4.1 通用網絡爬蟲首先我們為大家介紹通用網絡爬蟲（General Purpose Web Crawler）。通用網絡爬蟲又叫作**爬蟲，顧名思義，通用網絡爬蟲爬取的目標資源在全網際網路中。
嚴格按照景區化管理!今天,劉任遠對這兩個項目提出了要求

嚴格按照景區化管理！他強調，要堅定踐行習近平生態文明思想，秉承公園城市營城理念，堅持久久為功，一錘接著一錘敲的工作方法，多管齊下推進好鹿溪河流域水生態治理工作，嚴格按照景區化管理的標準和思路，提高新區重大項目服務群眾的品質，為新區重大項目高質量投用奠定基礎。
在搜尋引擎領域,有哪些常用的網絡爬蟲?

網絡爬蟲也有人叫做網絡蜘蛛。但業界內很少叫蜘蛛的，一般都叫做網絡爬蟲，Spider只是個別爬蟲的名稱。網絡爬蟲是一個自動提取網頁的程序，它為搜尋引擎從Internet網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
「爬蟲」如何搶低價票?藉助超連結信息抓取網頁

然而，就在小王摩拳擦掌，準備使出「洪荒之力」搶張便宜機票時，看到網上曝出這樣一則消息：航空公司放出的低價機票，80%以上被票務公司的「爬蟲」搶走，普通用戶很少能買到。　　小王傻眼了，「爬蟲」究竟是什麼鬼？它又是怎麼搶機票的？難道就沒有辦法治理嗎？
天機數據否認涉足數據爬蟲,關聯透視寶擅長用戶行為數據採集

天機數據表示，與大數據風控平臺相關負面稿件提及的金融風控、徵信和數據爬蟲業務相關的「天機」與「北京天機數測數據科技有限公司」(下稱「天機數測」)無任何關聯關係。天機數測過去從未涉及金融行業的風控、爬蟲等業務，未來也不會開展金融風控、徵信、數據爬蟲等方面工作。
爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術

使用爬蟲技術的「反面教材」今日頭條伺服器被非法抓取數據案罪名：非法獲取計算機信息系統數據罪上海某網絡公司CTO侯某某指使該司技術人員郭某破解北京字節跳動網絡技術有限公司的防抓取措施，使用「robtes.txt，也稱為爬蟲協議、機器人協議等，全稱是「網絡爬蟲排除標準」（Robots Exclusion Protocol），是國際網際網路界為了兼顧保障搜索技術服務於人類，逐步確立起的通行的道德規範。

網絡爬蟲怎麼管?最新研究報告:強調場景化治理

相關焦點

網絡爬蟲怎麼管?最新研究報告在滬發布,強調場景化治理

網絡爬蟲的法律規制

法學匯|網絡爬蟲的入罪標準與路徑研究

網絡爬蟲作用有哪些?如何構建網絡爬蟲?

專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...

艾媒諮詢|2020中國智慧場景服務專題研究報告

《文化藍皮書:中國文化發展研究報告(2017～2020)》提出——

網絡爬蟲哪些數據可以採集哪些不可以,不看可別後悔

京東商城修改robots 屏蔽一淘網搜尋引擎爬蟲

《文化藍皮書:中國文化發展研究報告(2017～2020)》發布

第7天|10天搞定Python網絡爬蟲,Scrapy爬更快

網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私

還有人不知道網絡爬蟲是什麼吧

資料|精通 Python 網絡爬蟲:核心技術、框架與項目實戰

網絡爬蟲的類型-膠東在線考試培訓

嚴格按照景區化管理!今天,劉任遠對這兩個項目提出了要求

在搜尋引擎領域,有哪些常用的網絡爬蟲?

「爬蟲」如何搶低價票?藉助超連結信息抓取網頁

天機數據否認涉足數據爬蟲,關聯透視寶擅長用戶行為數據採集

爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術