我們常說的爬蟲不是說的一個生物,而是說的網絡爬蟲,也叫網絡蜘蛛。我平常用的谷歌搜索和百度搜索就是爬蟲中的一種,網絡搜尋引擎通過爬蟲軟體更新自身的網站內容或網站的索引。並將自己所訪問的頁面保存下來,以便事後生成索引供用戶搜索。平時我們談到爬蟲學得好,入獄入得早,那為什麼搜尋引擎沒有這方面的擔憂呢?
這裡要分兩點來說明,第一個、伺服器管理員禁止爬蟲抓取的網站,你去抓取了,當然就違法了。第二個、伺服器管理員允許爬蟲抓取,但是你抓取後,對裡面的數據侵權或者濫用。而現階段做爬蟲項目並且盈利的人往往繞不開這兩點,所以不是說爬蟲有罪,而是說抓取網站的方法和行為動機有問題。
2017年,某公司三人抓取伺服器中存儲的視頻數據,並破解某公司的防抓取措施、實施視頻數據抓取。被北京市海澱區人民法院提起公訴,最後被判刑,並處於罰款。這就是典型的禁止爬蟲抓取而去抓的一種行為,有的人說我僅僅只是公司的員工,是老闆要我去做的,那是不是和我沒有關係了。答案是肯定的——不是!我們可以看到此案中三個人都被判了刑。
2019年,中國最大的簡歷大數據公司巧達科技有限公司被警方查封,所有員工均被帶走。該公司截至2015年6月30日,就宣稱資料庫中,以人為計算,收入自然人的簡歷就超過1.6億人,而這些都是通過爬蟲獲取其他招聘網站的數據。公司旗下愛夥伴功能就是一旦某企業員工在招聘網站上有信息更新投遞簡歷,或資料被獵頭頻繁查看,就讓該公司領導提前知道員工可能離職。這個就是不僅非法獲取,還對裡面的數據濫用。
現階段手機app會申請大量的權限來獲取數據,很多軟體不給權限也不能使用。有一部分授權給了第三方,有一部分就流入到了網絡(流入到網絡的數據不止這一種情況)。然後被某些爬蟲公司爬取賣給了一些客戶,所以當接到詐騙電話或者垃圾郵件的時候,也無法判斷到底是哪一個洩露出來的。爬蟲工程師的招聘現在還是相當的火熱。而且很多都被披上了大數據華麗的外衣,但是歸根結底還是靠賣數據賺錢。
不過爬蟲的應用也非常多,比如想買房,可以把相關地區的所有房價全部爬下來,然後自動比對,剩下的再來篩選,這要比一個個上網查效率高上很多。又比如說看到一個圖庫很不錯,想全部下載下來,就可以運用爬蟲技術來批量下載,而不用一個一個手動下載等等。爬蟲只是一個手段,具體是向好的方面還是壞的方式就只有看使用者的方法了。