網絡爬蟲哪些數據可以採集哪些不可以,不看可別後悔

2021-01-08 數據燈塔

每個人在學習爬蟲或者寫爬蟲的時候有的為了工作,有的可能只是自我的愛好。但不管咋樣,從法律和倫理上來說這是不應許的,畢竟一個很淺顯的道理,你的東西被別人不經允許就拿走,這換成誰都是接受不了的。

所以今天特意告訴小白們,在爬取網站數據的時候是要得到網站所有者允許的,為了學習的話看到網站有廣告都給別人點就下,畢竟就一個點擊量也沒多少錢,幫助別人也是幫自己。

可能在抓取的時候我們不太明白專利侵權這些範圍怎麼去界定。

專利只是用來聲明發明的所有權。圖片、文字和任何信息本身不能獲得專利權。雖然有些專利(比如軟體專利)並不像我們通常理解的「發明創造」那樣是有形的,但是要注意,獲得專利權的是這些無形的東西(技術),而不是專利報告中的內容。除非你利用抓取來的設計圖構建什麼,或者有人為某種網頁抓取方法獲得了專利保護,否則你不太可能在網頁抓取時侵犯他人的專利權。

其次是商標,雖然商標也不太可能成為問題,但還是需要注意的。中國專利商標局對商標的定義如下:

商標:

用來標識和區分一種商品的來源。服務標識(service mark)是一個單詞、詞組、符號和 / 或設計,用來標識和區分一種服務而非商品的來源。術語「商標」通常既可表示商標,也可表示服務標識。

除了當我們提到商標時通常會想到的傳統的單詞 / 符號商標,其他的描述性特徵也可以作為商標。比如,容器的外形(可口可樂的瓶子),或者一種顏色。

和專利不同,商標的所有權很大程度上由使用場景決定。比如,如果我想在博客裡發一篇帶可口可樂圖標的文章,我完全可以這樣做(只要我沒有暗示我的博文是可口可樂贊助或發布的就行)。但是,如果我想製造一種新的軟飲料,在外包裝上使用可口可樂的圖標,那明顯就是侵犯了可口可樂的商標權。同樣道理,雖然我可以把飲料外包裝塗成 Pink Panther 的粉色,但是我不能用同樣的顏色發行一款新的家用隔熱層產品。

版權法

商標和專利有一個共同點,就是它們必須正式註冊才能得到認可。與一般認識不同的是,受版權保護的材料並不需要註冊。究竟是什麼使得圖像、文字、音樂等擁有版權呢?並不是說在網頁下面加上「保留所有權利」(All Rights Reserved)就擁有了版權,也不是說「出版發行的」就擁有版權,而「未出版發行的」就沒有。任何材料,只要你創作出來,它就會自動受到版權法的保護。

《保護文學和藝術作品伯爾尼公約》是 1886 年由瑞士政府在伯爾尼首次公布的版權國際標準。這個公約的基本含義是所有成員國都必須像對待自己國家公民的作品一樣,對其他成員國公民的作品進行版權保護。其實,這就是說作為一個美國公民,如果你涉嫌抄襲一個法國公民的作品,也要承擔法律責任(反之亦然)。

顯然,版權是網絡爬蟲需要關注的內容。如果抓取別人的博客內容然後放到自己的博客上,就可能會惹上官司。不過,有幾層保護,可以根據博客抓取項目的實際影響,幫自己進行辯護。

首先,版權保護只涉及有創造性的作品,而不涉及統計數據或事實。好在許多網絡爬蟲抓取的都是事實和統計數據。雖然用一個網絡爬蟲從網絡上收集詩歌,然後顯示在你自己的網站上有可能是違反版權法的,但是如果它收集不同時間段發表的詩歌數量就不違法了。詩歌是一種創造性作品,但是按月對網站上發表的詩歌進行字數統計就沒什麼創造性了。

如果數據是公司發布的價格、高管的姓名或者其他事實性的信息,那麼即使完全照搬(不是根據抓取的原始數據進行整合或計算)也不會違反版權法。但是,有兩點與網頁抓取相關:

根據「安全港」保護原則,如果你從一個你有理由相信只包含無版權材料的數據源抓取數據,但是有人曾向該數據源提交過有版權的材料,那麼只要你在收到通知後把有版權的材料刪除,就可以免責。

你不能為了收集信息而故意繞開安全措施,比如密碼保護。

總之,未經作者或版權所有者授權,你不可以直接發表有版權的材料。如果你以數據分析為目的,把可以自由訪問的有版權的材料保存在自己的非公開資料庫中,這是合法行為。如果你把數據展示到網站上供人們瀏覽或下載,就不算合法了。如果你分析資料庫裡的數據,然後發布作品的字數統計信息、按作品數量對作者排序,或發布其他的數據分析結果,這是合法行為。如果你還引用了一些原文或簡單的樣本數據來闡述自己的觀點,也是可以的,但是使用之前最好看看國家網絡爬蟲的網絡規則。

侵害動產:

侵害動產與我們常識中的「違法」有著本質的區別,動產的範圍不包括不動產和土地,而是指那些可移動的財產(比如伺服器)。如果接入那些不允許你接入或使用的財產,就會侵害動產。

在雲計算時代,人們可能不把 Web 伺服器看作一種真實有形的資源。但其實伺服器不僅由許多昂貴的組件構成,而且它們還需要空間存放、監控、製冷,以及大量的電力供應。據估計,全球 10% 的電力都是由計算機消耗的。1(如果你自己的電費構成並非如此,可以考慮一下 Google 龐大的伺服器農場,每一座農場都需要與大型電站連接。)

雖然伺服器是很昂貴的資源,但是從法律的角度看,一個非常有趣的現象是,網站管理員非常希望人們使用他們的資源(即接入他們的網站),但同時又不希望資源被過快地消耗掉。通過瀏覽器看一下網站可以,但是發動大規模的 DDoS 攻擊顯然就不允許了。

只有滿足下列 3 個條件,網絡爬蟲的行為才構成侵害動產:

缺少許可

由於 Web 伺服器對所有人開放,所以它們一般也會向網絡爬蟲「提供許可」。但是,很多網站的服務協議條款都明確地禁止使用爬蟲。另外,任何勒令停止通知函顯然撤銷了這類許可。

造成實際的損害

伺服器是很昂貴的。除了伺服器成本,如果你的爬蟲把網站拖垮了,或者限制了網站為其他用戶提供服務的能力,這些都算是你對網站造成的「損害」。

故意而為

這個,你懂的!

只有 3 個條件都滿足才算是侵害動產。然而,如果你違反了服務協議,但並未造成實際的損害,不要以為你就不算違法。可能你的行為已經違法了版權法,或者其他可以處理網絡爬蟲犯罪行為的法律。

請限制你的爬蟲

過去,Web 伺服器比個人電腦要強大得多。其實,「伺服器」的部分定義就是指「大型計算機」。而現在情況似乎反過來了。比如,我的個人電腦擁有一個 3.5GHz 處理器和 8G 內存。Alibaba的一個中等雲計算實例卻只有 3GHz 處理器和 4G 內存。

如果網速正常,還有一臺可以持續抓取的專用設備,即使是一臺個人電腦也可以給許多網站造成沉重負擔,甚至可以對網站造成嚴重損害或者直接把網站拖垮。除非出現了緊急醫療事故,而唯一的援救方法是在兩秒內收集網站上所有的搞笑視頻,否則真的沒有理由去損害別人的網站。

一直被盯著看的機器人是永遠不會完成任務的(抓取總是需要很長時間)。有時候最好讓爬蟲在午夜運行,而不是在下午或者傍晚運行,原因如下。

如果你有大約 8 個小時的時間,即使抓取一頁需要 2 秒,你也可以抓取 14 000 多個頁面。當時間不怎麼緊張的時候,沒必要加快爬蟲的抓取速度。

假如網站的目標訪客和你在同一時區(如果不在同一時區,可以相應地調整時間),那麼夜間網站流量可能會少很多,這就意味著你的抓取行為不會影響網站高峰期的運行了。

你可以在爬蟲抓取網站的時候睡覺,不必為了看到新信息而不斷地翻日誌。想想看,第二天早上睡醒的時候嶄新的數據就擺在面前,得有多麼愜意啊!

再想像一下下面 3 種場景:

你有一個網絡爬蟲遍歷了網站,收集了一些或全部的數據;

你有一個網絡爬蟲遍歷了幾百個小網站,收集了一些或全部的數據;

你有一個網絡爬蟲遍歷了一個超大型網站,比如百度。

在第一個場景中,最好讓爬蟲在深夜慢慢地運行。

在第二個場景中,最好以循環的方式快速地抓取每個網站,而不是一次一個慢慢地抓取。根據你要抓取的網站數量進行合理安排,你就可以以最快的快速(取決於網絡連接和機器)收集數據,而且對每個遠程伺服器造成的負載也比較合理。為實現這種循環抓取方式,你可以採用多線程(每個線程抓取一個網站,可以暫停),也可以用 Python 列表來跟蹤網站。

在第三個場景中,可能你的網絡連接和個人電腦對百度這樣的超大型網站造成的負載不會引起對方的注意。但是,如果你用分布式網絡設備抓取,顯然就不是一回事兒了。請謹慎使用分布式網絡設備,最好問問對方允不允許這麼做。

相關焦點

  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    人們正在以前所未有的速度轉向網際網路,我們在網際網路上做的很多行為產生了大量的「用戶數據」,比如評論,微博,購買記錄等等。這一點也不奇怪,網際網路目前是分析市場趨勢,監視競爭對手或者獲取銷售線索的最佳場所,數據採集以及分析能力已成為驅動業務決策的關鍵技能。而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?
  • 簡單使用scrapy爬蟲框架批量採集網站數據
    前言 本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯繫我們以作處理。 本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。
  • 有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據
    比如說,你想採集豆瓣讀書裡幾百本書的評論,但你不確定一次性抓取下來的數據是否準確。你就可以通過測試,先抓其中幾個網頁測試一下,看看抓到的結果是否是你想要的結果,並根據結果對採集規則進行調整,直到測試出來的結果是讓你滿意的結果為止,然後再進行大規模的採集。這樣就不怕採集出來的數據出錯啦。
  • 爬蟲可以做哪些事?
    不過有一些披著「大數據」外衣的公司,卻使用爬蟲抓取用戶未公開、未授權的個人敏感信息,甚至違規留存、使用、買賣。這些數據如果被放貸公司拿到,就可以進行分析用戶的還款能力和信譽度,來進行廣告投放和簡訊推送,因此不少人的手機上或者郵箱裡總能收到一些貸款廣告。我們的信息是在什麼樣的情況下會被竊取呢?
  • 優秀的爬蟲策略有哪些特性?
    經常使用代理IP的爬蟲工作者都知道,網際網路上擁有海量的數據,對應的爬蟲工作量非常艱巨,所以爬蟲程序的性能非常重要。不同網站對應的爬蟲策略各不相同,那麼優秀的爬蟲策略都具備哪些特性呢?優秀的爬蟲策略有哪些特性?1. 友好性爬蟲的友好性有兩個含義:一是保護目標網站的部分私密性,二是減少目標網站的網絡負載。
  • Python網頁爬蟲工具有哪些?
    一個真實的項目,一定是從獲取數據開始的。不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?
  • 惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?
    ▲「鷹眼智客」大數據營銷系統「不需要不需要,以後別再給我打電話了。」一旦涉及某一方發生洩露,通過抓取這個數據包便可以解析出來用戶的敏感信息。網絡爬蟲則分為合法爬蟲和惡意爬蟲兩種。一些所謂的大數據公司本身沒有數據來源,而是通過爬蟲手段獲取他人的數據。在網絡空間,數據戰爭已進入白熱化。
  • 爬蟲工具有哪些
    火車採集器 火車採集器是一款網頁數據抓取、處理、分析,挖掘軟體。可以靈活迅速地抓取網頁上散亂分布的信息,並通過強大的處理功能準確挖掘出所需數據。免費功能可實現數據的抓取、清洗、分析,挖掘及最終的可用數據呈現,接口和插件擴展等高級功能需要收費。你可以通過設定內容採集規則,輕鬆迅速地抓取網頁上散亂分布的文本、圖片、壓縮文件、視頻等內容。 八爪魚採集器 簡介:八爪魚採集器是一款可視化採集器,內置採集模板,支持各種網頁數據採集。號稱免費,但是實際上導出數據需要積分,可以做任務攢積分,但是正常情況下基本都需要購買積分。
  • 網絡爬蟲的法律規制
    相較於數據所有者通過開發API來提供數據,網絡爬蟲技術為數據收集者提供了極大的便利,也給專業網絡爬蟲公司帶來巨大的收益:隨著網絡爬蟲技術在市場中的日益普遍,其成本急劇下降,截至2016年其服務成本已經低至每小時20元,一般的網絡爬蟲公司平均每年可賺取40萬元,而專門為大公司從事網絡爬蟲外包服務的公司每年收益可達百萬。
  • 新手學自動擋汽車的正確起步方法,不看可別後悔,別怪我沒告訴你
    對於新手來說,開自動擋顯然更容易上手,畢竟在不需要自己來操作換擋,還能根據交通情況智能選檔位。那麼對於新手來說,自動擋汽車的正確起步方法是什麼呢?新手們趕緊來看一看吧,不看可別後悔!自動擋的自動變速器一般檔位都分為P、R、N、D、2(S)、L(1)等,這裡的沒一個檔位的用途和使用方法都是不一樣的,我們對此要有深刻的了解。
  • 網絡爬蟲設計中需要注意的幾個問題
    「網絡爬蟲」又叫網絡蜘蛛,實際上就是一種自動化的網絡機器人,代替了人工來獲取網絡上的信息。許多公司的業務和戰略都需要很多數據進行多維度分析,這也使爬蟲越來越受大家青睞。爬蟲說起來是件簡單的事情。但是往往簡單的事情要做到極致就需要克服重重困難。
  • 網絡爬蟲的類型-膠東在線考試培訓
    網絡爬蟲具體有哪些類型呢? 網絡爬蟲可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中,通常是這幾類爬蟲的組合體。 通用網絡爬蟲所爬取的目標數據是巨大的,並且爬行的範圍也是非常大的,正是由於其爬取的數據是海量數據,故而對於這類爬蟲來說,其爬取的性能要求是非常高的。這種網絡爬蟲主要應用於大型搜尋引擎中,有非常高的應用價值。 通用網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面資料庫、連結過濾模塊等構成。
  • 學習爬蟲前需要先了解哪些知識?
    Python 語法易懂,編寫簡潔,並且還擁有非常豐富的庫,是人工智慧、大數據行業的必備工具。不少朋友都紛紛開始學習,準備入行,那麼在學習爬蟲開發之前需要先了解哪些知識呢? 學習爬蟲前需要先了解哪些知識?
  • 爬蟲究竟是合法還是違法的?
    據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司 200 多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • 爬蟲如何突破大規模防採集封禁?
    什麼是爬蟲防採集?用大白話來說,就是我們想利用工具採集某個網站的數據(前提當然是公開合法數據),但網站不想給你採集而設置的技術阻擋措施。網站常見的爬蟲防採集套路有哪些?爬蟲防採套路5:反饋虛假數據採集難度:★★★★★常見網站:攜程網最近看到一個攜程開發寫的帖子,關於他們是如何給爬蟲反饋「假數據」的。看完覺得攜程太「可怕了」!當你發現辛辛苦苦採集下來的數據居然是假的,請問你心累不心累?!所謂道高一尺,魔高一丈,遇到這種給你「投毒」的網站就請繞道吧,除非你想到更好的破解方法!
  • 爬蟲技術涉案大數據分析及法律解讀
    其實我們常常講的爬蟲技術,與搜尋引擎的爬蟲引擎是完全不同的,其根本目的,是通過對指定網站進行解析,自動並且批量獲取前端展示的數據。簡單來說,就是一種信息採集技術,「爬蟲」的稱呼,只是一種俗稱,我更願意科學地稱其為「網站信息自動化採集技術」。本文以下所稱的爬蟲,皆為定向爬蟲。
  • 玩「爬蟲」可能觸犯的三宗罪
    數據玩得溜,牢飯吃個夠。 自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。 爬蟲技術違規嗎?開展業務到底存在哪些風險點?
  • 入門Python爬蟲——獲取數據篇
    作者: 李菲 來源:人工智慧學習圈在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。
  • 在搜尋引擎領域,有哪些常用的網絡爬蟲?
    網絡爬蟲也有人叫做網絡蜘蛛。但業界內很少叫蜘蛛的,一般都叫做網絡爬蟲,Spider只是個別爬蟲的名稱。 網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從Internet網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    藉助超連結信息抓取網頁  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。