爬蟲究竟是合法還是違法的?

2021-01-09 新浪財經

來源:格隆匯

作者:純潔的微笑

來源:純潔的微笑

據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。

前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?

這個話題涉及到我們很多程式設計師的日常工作,所以有必要和大家細聊一下。

01.技術無罪?

很多朋友給我留言:技術是無罪的,技術本身確實是沒有對錯的,但使用技術的人是有對錯的,公司或者程式設計師如果明知使用其技術是非法的,那麼公司或者人就需要為之付出代價。

在今年國家頒布《中華人民共和國網絡安全法》之後,很多以前處於灰色地帶的業務都不能做了。

君不見之前曾經非常火的各種社工庫網站,現在絕大部分都已經消失匿跡了嗎?因為最新的安全法強調:販賣個人信息超過50條屬於「情節嚴重」,需要追求其法律責任。

很多草根站長都紛紛主動關閉了網站;還有很多涉及版權資訊的網站,比如書籍、影視劇、課程等後期也會面臨越來越嚴格的審查,這就是目前大的形勢。

2014年12月20日,人人影視字幕站發布微博稱,人人影視正式關閉,並表示或將繼續為正版商提供翻譯服務,也可能轉變為討論社區的形式。

2019年6月,吾愛破解因版權問題關站整改...

.....

隨著中國經濟的不斷往前走,智慧財產權問題會越來越重視,非法爬蟲是現在一個重要的打擊部分,

如果有程式設計師走在灰色的邊緣儘早收手,不要因為一點小的收益導致觸犯法律,從而得不償失。

技術是無罪的,但是用到了錯的地方代價也是非常巨大的。

02.爬蟲崗位人人自危

我在拉鉤上搜索: 爬蟲工程師,顯示有 217 條相關招聘信息,薪資從10-60k 都有,說明市場上對爬蟲的需求是很大的。

前天文章發出去之後有很多程式設計師給我留言:

我們領導安排我爬取公司內部的信息,這算不算犯罪呢?

爬取網上公開的信息,這算不算犯罪呢?

寫了一段代碼上傳到 Github,被人用了犯法嗎?

簡單回答一下這些問題:

爬取公司內部信息有公司授權當然不算犯罪的,但是公司內部不用接口而用爬蟲不知道是為什麼?

爬取網上公開信息不犯法,但如果大量開啟爬蟲導致對方伺服器崩潰也是違法的,這屬於暴力攻擊的範疇了。

寫了一段代碼上傳到 Github 上面,有人利用你的代碼做了其它非法的事情,絕大多數都沒有問題的,但如果你寫的軟體涉及到入侵、暴力破解、病毒等就不好說了。

還有朋友認為這事責任在企業不在程式設計師,日常工作中項目初期設計和最後上線需要通過公司的法務批准,所有代碼必須有其他程式設計師同事評審通過才能提交。

這位朋友說的挺對的,按道理每個公司都應該有法務和風控在前面,後面才是產品設計和程式設計師開發的事情,但如果一家公司為了利益,老闆可以直接讓這兩個部門閉嘴,後面程式設計師可以不幹嗎?

更甚至很多公司其實就沒有這兩個部門或者說形同虛設。那麼做為程式設計師自己也需要操一份心,凡是涉及到入侵類的程序都不能幹,因為有一個東西叫做:單位犯罪。

單位犯罪,是指公司、企業、事業單位、機關、團體為單位謀取利益,經單位決策機構或者負責人決定實施的,法律規定應當負刑事責任的危害社會的行為。

我國刑法對單位犯罪原則上採取雙罰制度,即單位犯罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員判處刑罰。

03.什麼樣的爬蟲是非法的?

爬蟲不能涉及個人隱私!

如果爬蟲程序採集到公民的姓名、身份證件號碼、通信通訊聯繫方式、住址、帳號密碼、財產狀況、行蹤軌跡等個人信息,並將之用於非法途徑的,則肯定構成非法獲取公民個人信息的違法行為。

也就是說你爬蟲爬取信息沒有問題,但不能涉及到個人的隱私問題,如果涉及了並且通過非法途徑收益了,那肯定是違法行為。

另外,還有下列三種情況,爬蟲有可能違法,嚴重的甚至構成犯罪:

爬蟲程序規避網站經營者設置的反爬蟲措施或者破解伺服器防抓取措施,非法獲取相關信息,情節嚴重的,有可能構成「非法獲取計算機信息系統數據罪」。

爬蟲程序幹擾被訪問的網站或系統正常運營,後果嚴重的,觸犯刑法,構成「破壞計算機信息系統罪」

爬蟲採集的信息屬於公民個人信息的,有可能構成非法獲取公民個人信息的違法行為,情節嚴重的,有可能構成「侵犯公民個人信息罪」。

現在網上有很多付費的課程,比如極客時間、Gitchat、慕課網、知識星球等等,這些付費內部信息如果被非法爬取手法出售獲利,一種違法行為。

之前我就遇到一個網友,把各個知識星球的內容都抓下來,合到一起自己去賣,自作聰明覺得發現了一個大的商機,其實自己不知道這個行為其實很危險,風險和收益明顯不對等。

我這兩天看的時候,他的一個公眾號都被封了,後來又轉移了一個小號繼續搞,遲早又是被封的命運,真的很不值當。最可憐是那些買他服務的用戶,因為他宣傳時承諾永久,肯定永久不了。

04.什麼樣的爬蟲是合法的?

1、 遵守 Robots 協議

Robots 協議也叫 robots.txt(統一小寫)是一種存放於網站根目錄下的 ASCII 編碼的文本文件,它通常告訴網絡搜尋引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜尋引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。

Robots 協議就是告訴爬蟲,哪些信息是可以爬取,哪些信息不能被爬取,嚴格按照 Robots 協議 爬取網站相關信息一般不會出現太大問題。

2、不能造成對方伺服器癱瘓

但不是說只要遵守 Robots 協議的爬蟲就沒有問題,還涉及到兩個因素,第一不能大規模爬蟲導致對方伺服器癱瘓,這等於網絡攻擊。

2019年05月28日國家網信辦發布的《數據安全管理辦法(徵求意見稿)》中,擬通過行政法規的形式,對爬蟲的使用進行限制:

網絡運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。

3、不能非法獲利

惡意利用爬蟲技術抓取數據,攫取不正當競爭的優勢,甚至是牟取不法利益的,則可能觸犯法律。實踐中,非法使用爬蟲技術抓取數據而產生的糾紛其實數量並不少,大多是以不正當競爭為由提請訴訟。

舉個例子,如果你把大眾點評上的所有公開信息都抓取了下來,自己複製了一個一模一樣的網站,並且還通過這個網站獲取了大量的利潤,這樣也是有問題的。

一般情況下,爬蟲都是為了企業獲利的,因此需要爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。

05.最後

最近看了很多關於程式設計師出事的事件,東南亞程式設計師被打,多個大數據公司被查等等。做為一名普通的程式設計師,希望大家也可以多關注此類事件,從而提醒自己。

有風險的行業謹慎進入,比如現金貸、不合規的P2P、賭博類遊戲、黑五類產品的行業。如果公司安排入侵某個網站數據,或者有同事/朋友邀請洩露公司信息的都需要保持警惕,有時候一個很小的動作都有可能導致出問題。

我們絕大多數公司和個人使用的爬蟲都是沒有問題的,不必人人自危,只要把握住不要爬取個人信息,不要利用爬蟲非法獲利,不要爬取網站的付費內容,基本上不會有問題。

程式設計師是世界上最單純的一批人,也是一批高智商低情商的人,工作是工作但也需要適當保持謹慎,對於一些遊走在法律邊緣的事情請保持距離。

敬畏法律,遵紀守法,從我做起。

相關焦點

  • Web 爬蟲現已合法?
    江湖傳言,網際網路上50%以上的流量都是由爬蟲創造的,很多人都表示:無爬蟲就無網際網路的繁榮。也正因為此,網上各種爬蟲教程風靡不絕,惹各路大神小白觀之參與之。但是,無節制的背後往往隱藏著風險,類似「只因寫了一段爬蟲,公司200多人被抓!」、「程式設計師爬蟲竟構成犯罪?」等報導也時有發生。關於爬蟲合法性的討論,CSDN也在此前的《爬蟲到底違法嗎?這位爬蟲工程師給出了答案》、《不要在爬蟲犯罪的邊緣瘋狂試探!》
  • 爬蟲刑事合規重點
    作為一種技術,爬蟲自然不是違法行為,但爬蟲是否一定會引發數據行業的刑事風險,颯姐團隊認為,關鍵在是否抓住了數據行業合規重點。數據行業合規核心在經營領域中,數據是數據行業的核心,隨著雲計算、物聯網等信息技術產業的不斷發展,數據的重要幾乎成了每一個企業的共識。
  • 玩「爬蟲」可能觸犯的三宗罪
    自2019年9月以來,多家知名公司相關人員被抓或被調查,這些機構均涉及大數據風控業務和爬蟲技術的應用。由此,大數據業務的合規合法問題、爬蟲技術的合理應用問題,引起了大數據和金融科技行業的特別重視。 爬蟲技術違規嗎?開展業務到底存在哪些風險點?
  • 網貸領域爬蟲,既非原罪者也非無辜者
    因此,即使爬蟲為上述活動提供了一定條件,也是在用戶授權範圍內進行的,該過程在形式上是合法的。可能構成犯罪行為的是獲得信息後採取的傷害、滋擾等活動,而並非獲取信息本身的行為。不過該授權是否合法有效,以及在無合法授權的情況下是否構成其他網絡犯罪的幫助犯,本文將在下面詳細分析。2. 非法侵入系統並非爬蟲之罪。
  • 學習爬蟲思路分析
    前段時間可能大家被各大新聞爆出眾多爬蟲工程師程序猿被抓,且不知道犯了什麼罪;大家心中產生了疑問,那學爬蟲的意義到底為何呢,給大家插入一個連結是中華人民共和國國家網際網路信息辦公司的針對網絡爬蟲的法律規制(http://www.cac.gov.cn/2019-06/16/c_1124630015.htm)詳細閱讀,爬蟲並不違法,看你將他用在何處。
  • 爬蟲可以做哪些事?
    隨後,有媒體勾勒出爬蟲在這一事件中扮演的角色——51信用卡技術團隊涉嫌利用爬蟲技術,在網際網路上幫助催債人違規獲取了欠款人的個人通訊錄、地址定位等敏感信息。一瞬間,這場風波讓爬蟲這個專業名詞一下進入大眾視野。在各種新聞報導裡,這些「蟲子」似乎無所不能,可以替企業爬取到任何想要的信息。那麼它們究竟是什麼?又是怎麼成為不法工具的?使用App就會被竊取信息?
  • 網絡小爬蟲莫墮落成小扒手
    數日後,公信寶的運營公司杭州存信數據科技有限公司被公安機關查封,聚信立的運營公司上海誠數信息科技有限公司下發暫停爬蟲業務的通知。此輪監管風暴正值2019年國家網絡安全宣傳周9月16日開幕的前夕。中央網信辦官員楊春豔披露,截至目前,已收到8000條針對APP違法違規收集使用個人信息的舉報,其中實名舉報佔到近1/3。
  • 專家熱議數據安全犯罪:網絡爬蟲未必構成犯罪,對流量造假應推進...
    網絡爬蟲是一種中立的技術手段,數據爬取是否構成犯罪,要根據爬取行為本身和獲取數據的性質進行實質性判斷;流量造假危及數據信用生態,形成了大量經濟泡沫,建議通過立法增設「妨害數據信用罪」來加強打擊。  近日,浙江理工大學於杭州主辦的數據安全犯罪前沿論壇上,部分與會專家發表了上述觀點。
  • Python爬蟲和反爬蟲的鬥爭
    在抓取對方網站、APP 應用的相關數據時,經常會遇到一系列的方法阻止爬蟲。網站APP們這麼做的原因,一是為了保證服務的質量,降低伺服器負載,二是為了保護數據不被獲取。爬蟲與反爬蟲的鬥爭經久不衰,這裡神龍IP給大家分享一些常見的反爬蟲手段。
  • 最全的 Python 反爬蟲及應對方案!
    通過User-Agent來控制訪問無論是瀏覽器還是爬蟲程序,在向伺服器發起網絡請求的時候,都會發過去一個頭文件:headers,比如知乎的requests headers。這裡面的大多數的欄位都是瀏覽器向服務表明身份用的對於爬蟲程序來說,最需要注意的欄位就是:User-Agent很多網站都會建立user-agent白名單,只有屬於正常範圍的user-agent才能夠正常訪問。
  • 爬蟲最愛扒的50家網站:一份赤裸裸的《中國焦慮圖鑑》
    一、爬蟲的「騷操作」爬蟲也分善惡。像谷歌這樣的搜尋引擎爬蟲,每隔幾天對全網的網頁掃一遍,供大家查閱,各個被掃的網站大都很開心。這種就被定義為「善意爬蟲」。但是,像搶票軟體這樣的爬蟲,對著 12306 每秒鐘恨不得擼幾萬次。鐵總並不覺得很開心。這種就被定義為「惡意爬蟲」。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。
  • 爬蟲業務負責人被查?!同盾科技回應了
    新京報訊(記者 黃鑫宇 陳鵬)據媒體9月26日晚的報導,知名大數據公司同盾科技有限公司(下稱「同盾」)爬蟲類產品「數聚魔盒」負責人被查。針對合作客戶,同盾科技有著嚴格的準入篩選和退出機制,一旦發現客戶存在違規違法行為,同盾科技即刻主動終止相關合作。同盾科技1300位員工,依然相信並且堅持心存敬畏,向善而行,呼籲行業良性競爭,為金融風險管控和維護金融體系穩定貢獻綿薄之力,共同創造更大的商業和社會價值!
  • Python基礎教程——爬蟲——起步
    提起,Python,那是必須要提到爬蟲的,雖然其他語言也能爬蟲,但是Python無疑是首選,也是最優解。要說起爬蟲,技術細節還是蠻多的,本文的目的是讓你在最短的時間內掌握思路,許多人說起爬蟲,不知道從哪裡入手,不知道要怎麼辦,這才是要解決的重點。本文提供三套解決思路供大家參考。
  • Jam帶你觀賞7年前加拿大安省爬蟲展
    點擊上方藍色文字ReptileStar↑ 爬蟲星球關注我們!
  • 搜尋引擎爬蟲的工作原理解析
    嚴格來說搜尋引擎是通過一種「爬蟲(蜘蛛)」這樣的電腦程式來抓取我們網頁上面的信息的,總體來講,搜尋引擎爬蟲的工作原理一共分為抓取、過濾、收錄索引、排序四大環節,下面我們一起來看一下。抓取抓取環節是第一步,搜尋引擎收錄你網頁的第一步,它是指搜尋引擎爬蟲通過連結訪問你的網站,進而進行深度和廣度的抓取,深度抓取是指從上至下抓取,廣度抓取則是指從左往右抓取,並且這兩種抓取方式都是同時進行的。通常爬蟲會抓取你網頁上的文字、連結、圖片等等信息,或者從嚴格意義上說,爬蟲其實抓取的是你當前網頁的代碼。
  • Python爬蟲開發的就業前景如何
    首先,在當前的大數據應用環境下,如果單純做Python爬蟲開發,那麼在崗位競爭力上還是有所欠缺的。要想找到一個比較滿意的工作崗位,還需要進一步完善自身的知識結構。Python語言目前在整個IT行業有廣泛的應用,包括Web開發(傳統解決方案之一)、大數據開發、人工智慧開發(機器學習等)、嵌入式開發和各種後端服務開發,但是得益於大數據和人工智慧的發展,近幾年來Python語言有了明顯的上升趨勢,未來的發展空間還是非常值得期待的。
  • 爬蟲腦
    爬蟲腦的決策大多極度趨利避害。當我們在工作的時候,它會一直誘導我們拿起手機聊天,打開電腦遊戲,或者跟朋友遊玩。因為它是希望我們能夠保存更多的能量並且不斷去尋找食物和交配。《曲線世界》天天 繪贊同學聽完「哦」了一長聲,說怪不得他做作業的時候老想著能不能停下來畫個武士啥的。然後他認真嚴肅地問我:「能不能把這個爬蟲腦給拿拿走?」
  • Python爬蟲是什麼意思有啥用 python爬蟲原理實例介紹
    據華為中國官方消息,今日,華為中國發文《小白看過來,讓Python爬蟲成為你的好幫手》,文中詳細介紹了Python爬蟲的工作原理,我們來看一下吧。  以下為《小白看過來,讓Python爬蟲成為你的好幫手》全文:  隨著信息化社會的到來,人們對網絡爬蟲這個詞已經不再陌生。
  • python爬蟲-urllib、urllib2、requests三者關係
    只要人能看到的東西,理論上都是爬蟲可以獲取的。不論靜態頁面還是動態頁面。也不論pc端的頁面還是移動端的app。話有點大,但這就是本系列的目的。爬蟲編程,有很多語言可選,python、php、go、java···甚至是c。這裡我們選擇python作為爬蟲的程式語言,因為它簡單易上手,並且節約生命。