網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私

2020-12-01 未央網

本文共字,預計閱讀時間

曾經有個朋友滿臉困惑地問起:「據說谷歌可以搜索到私人電子郵件,真的假的?」

回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。

網絡爬蟲

搜尋引擎收集網上信息的主要手段就是網絡爬蟲(也叫網頁蜘蛛、網絡機器人)。它是一種「自動化瀏覽網絡」的程序,按照一定的規則,自動抓取網際網路信息,比如:網頁、各類文檔、圖片、音頻、視頻等。搜尋引擎通過索引技術組織這些信息,根據用戶的查詢快速地提供搜索結果。

具體來說,如果把網際網路上的網頁或網站理解為一個個節點,大量的網頁或網站將通過超連結形成網狀結構。人們瀏覽網頁時,通過點擊網頁上的連結,從一個節點跳轉到下一個節點,就像是在一張網上行走。網絡爬蟲模擬了該行為,但是速度更快,跳轉的節點更全面,所以被形象地稱為網絡爬蟲或網絡蜘蛛。

隨著網絡的迅速發展,不斷優化的網絡爬蟲技術正在有效地應對各種挑戰,為高效搜索用戶關注的特定領域與主題提供了有力支撐,也為中小站點的推廣提供了有效的途徑,為此,網站針對搜尋引擎爬蟲的優化(SEO)曾風靡一時。

爬取原理

需要說明的是,網絡爬蟲從一些初始網頁URL(網頁地址)開始抓取網頁,在此過程中,不斷從當前頁面上抽取新的連結用於爬取,循環往復擴充到整個網絡,為搜尋引擎或大型網絡服務商採集數據。

網絡爬蟲的爬行範圍和數量巨大,對於爬行速度和存儲空間要求較高。同時,由於待刷新的頁面很多,所以通常採用並行的方式。

下圖所示的是一個通用的爬蟲框架流程。首先精心選擇一部分網頁,以這些網頁的連結地址作為種子URL放入待抓取的URL隊列中,爬蟲從URL隊列依次讀取每個URL,通過DNS解析轉換為對應的IP位址。然後將其和網頁相對路徑交給網頁下載器,網頁下載器負責網頁內容的下載。一方面下載的內容存儲到資料庫中,等待後續處理;另一方面該網頁的URL添加到已抓取隊列(這個隊列記載了已經下載過的網頁URL,避免重複抓取)。此外,從剛下載的網頁中抽取出新的URL,如果該連結沒有被抓取過,則添加入待抓取URL隊列,在之後的調度中下載對應的網頁。這樣循環往復,直到待抓取URL隊列為空(實際上不會為空,會有其他的條件終止爬取),代表完成了一輪完整的抓取過程。

上述是一個通用爬蟲的整體流程,由於網際網路上網頁數量太過巨大,在實踐中通常會有不同的爬行策略,常用的有:深度優先策略、廣度優先策略。網站典型的網頁層次關係通常像一棵樹,如果把主頁看作樹根,其他的網頁則是枝杈上的樹葉。具體來說:

(1)深度優先策略是在垂直方向上,逐個分支爬取,依次訪問下一級網頁,直到不能再深入為止。爬蟲在完成一個爬行分支後,返回到上一連結節點搜索其它分支。當所有分支遍歷完後,爬行任務結束。這種策略比較適合垂直搜索或站內搜索,但爬行頁面內容層次較深的站點時會造成資源的巨大浪費。

(2)廣度優先策略是在水平方向上,逐個層面爬取,優先爬行處於較淺層次的頁面。當某一層次的全部頁面抓取完後,再深入下一層爬行。這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結束爬行的問題,不足之處在於需較長時間才能爬行到目錄層次較深的頁面。

爬蟲技術也面臨著一系列的難題,比如:網際網路上存在的大量重複網頁、動態頁面、動畫特效頁面等,增加了信息獲取的困難。現有的搜尋引擎能抓取的網頁不超過網際網路所有網頁總數的一半,極端的估計是少於16%。

爬蟲應用

堅持看到這裡的寶寶要問了,枯燥的技術結束了吧?到底爬蟲還有什麼用呢?

眾所周知,很多電商平臺都有自動調價功能,它會依靠爬蟲程序掃描同類網站商品的價格,針對性地展開相應的調整,從而取得價格優勢,為銷量提供保證。比如蘇寧易購的「稜鏡」系統就是一款實時比價工具。利用網絡爬蟲獲取其他電商平臺的同款商品的價格、促銷、評論等商品信息,給業務人員的工作帶來了極大便利。

其實,自從亞馬遜十多年前推出該自動比價模式以來,機器人驅動的定價給整個零售行業帶來了巨大的變革。以往,零售店最多每周調價一次,因為更換標籤的成本和時間成本都很高。而在電子商務世界,零售商卻可以隨時調價,有時候甚至達到每天數次,這都得益於競對定價數據等。

在電子商務行業,使用爬蟲成為了一場「貓捉老鼠」的遊戲。企業一方面希望阻止競爭對手爬取自己的網站,另一方面又想滲透對手的網站。儘管擁有各類技術防範,但爬取機器人數量還是令人震驚。除了競爭對手外,有的流量還來自科研院所,目的是研究競爭、搜尋引擎、廣告服務,甚至還有的是企圖入侵網站帳號的不法分子。

爬蟲安全性

到了這裡,必須說下網絡爬蟲的安全性問題。由於網絡爬蟲的策略是儘可能多的「爬過」網站中的高價值信息,會根據特定策略儘可能多的訪問頁面,佔用網絡帶寬並增加網絡伺服器的處理開銷,不少小型站點的站長發現當網絡爬蟲光顧的時候,訪問流量將會有明顯的增長。

例如,某個網站上有一個10MB(如PDF格式)的文件,使用爬蟲抓取該文件1000次,就會使網站產生大量出站流量(可在數分鐘內達到GB級),引起的後果很可能是災難性的。這種攻擊達到的效果似曾相識,類似臭名昭著的DDoS攻擊,使網頁服務在大量的暴力訪問下,資源耗盡而停止提供服務。

此外,惡意用戶還可能通過網絡爬蟲抓取各種敏感資料用於不正當用途,主要表現在以下幾個方面:

(1)網站入侵,大多數基於網頁服務的系統都附帶了測試頁面及調試用後門程序等。通過這些頁面或程序甚至可以繞過認證直接訪問伺服器敏感數據,成為惡意用戶分析攻擊的有效情報來源。而且這些文件的存在本身也暗示網站中存在潛在的安全漏洞。

(2)搜索管理員登錄頁面,許多在線系統提供了基於網頁的管理接口,允許管理員對其進行遠程管理與控制。如果管理員疏於防範,一旦其管理員登錄頁面被惡意用戶搜索到,將面臨極大的威脅

(3)搜索網際網路用戶的個人資料,網際網路用戶的個人資料包括姓名、身份證號、電話、郵箱地址、QQ號、通信地址等個人信息,惡意用戶獲取後有可能實施攻擊或詐騙。

因此,採取適當的措施限制網絡爬蟲的訪問權限,向網絡爬蟲開放網站希望推廣的頁面,屏蔽比較敏感的頁面,對於保持網站的安全運行、保護用戶的隱私是極其重要的。所以,谷歌正常情況下不應該抓取到私人郵件,但不排除特別情況下,由於伺服器的管理漏洞而發生信息洩露的可能。

能堅持看到最後的童鞋必須有獎勵,推薦一個搜尋引擎shodan ,被稱為「黑暗」谷歌,也被稱為世界上最可怕的搜尋引擎。它看上去跟普通搜尋引擎一樣,但是可以搜到網絡上存在的攝像頭、路由器、印表機等數據採集監控系統,並根據其所屬國家、作業系統、品牌以及其它屬性進行分類。如果說,谷歌和百度是網站內容搜索,那麼,它則是網絡設備搜索,在物聯網應用中提供了探索的場景。

(微信公眾號:蘇寧財富資訊;作者:蘇寧金融研究院高級研究員沈春澤)

[Source]

本文系未央網專欄作者發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!

本文為作者授權未央網發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!

本文版權歸原作者所有,如有侵權,請聯繫刪除。

相關焦點

  • 百度網盤洩露隱私?千萬別點「公開分享」
    原標題:百度網盤洩露隱私?千萬別點「公開分享」   百度雲作為市場上較為流行的雲存儲服務,其註冊用戶已超一億人。但近日,有網友發文提醒,使用百度網盤分享的文件連結,有可能被第三方網盤搜尋引擎抓取,從而導致用戶的私密文件遭洩露。
  • 趙麗穎隱私洩露,楊坤被逼瘋:有人正在看著你!
    一個完全不認識的人,偷偷潛入你的家裡,這裡轉轉那裡看看,亂翻你的東西,偷窺到你最隱私的地方。這何止可怕!簡直可怕+可恨+可恥!私闖民宅。偷拍照片。私自曝光。侵犯隱私。哪一條都夠你喝一壺的,你丫在犯罪知道嗎?吃瓜如我,也有一萬句mmp不知當講不當講。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。1、通用Web爬蟲通用網絡爬蟲所爬取的目標數據是巨大的,並且爬行的範圍也是非常大的,正是由於其爬取的數據是海量數據,故而對於這類爬蟲來說,其爬取的性能要求是非常高的。這種網絡爬蟲主要應用於大型搜尋引擎中,有非常高的應用價值。 或者應用於大型數據提供商。
  • 360瀏覽器深陷「隱私門 搜索被指「肉雞」模式
    8月底,知名網絡安全漏洞平臺「烏雲」曝光的信息就顯示,360的搜尋引擎能夠探測到大量廠商的網站後臺管理入口,部分廠商的用戶名和資料庫存在洩露風險。  為什麼設置了Robots「搜索禁入」協議的網站後臺網址,仍然被360搜索爬蟲抓到?  「烏雲」平臺的安全專家猜測,360可能通過360安全衛士和360瀏覽器上傳用戶瀏覽網頁等信息,由此形成自己的搜索資料庫。
  • 手機攝像頭和話筒成隱私洩露「重災區」
    網絡隱私越來越成為一個全球性的重要議題,什麼軟體會獲取我們的隱私信息?哪些獲取行為屬于越界獲取?我們該如何防範隱私洩漏和網絡欺詐?日前,騰訊社會研究中心和DCCI網際網路數據研究中心聯合發布《網絡隱私安全及網絡欺詐行為研究分析報告(2018年上半年)》(以下簡稱《報告》),通過對1144款手機APP獲取用戶隱私權限情況的統計顯示,目前幾乎所有手機APP都在獲取用戶隱私信息,但大多數都能遵循「合法、正當、必要」的原則進行獲取,越界獲取用戶隱私比例持續大幅降低,2018年上半年安卓APP越界獲取比例降低到5.1%。
  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    你的低價機票 被「蟲子」吃了資料圖:一款搶票瀏覽器的廣告出現在北京的公交站臺。中新社發 劉關關 攝  不到兩個月,2018年春節要來了。  「今年我得早下手,搶張回家的低價機票。」  藉助超連結信息抓取網頁  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。
  • 共享充電寶陷洩露個人隱私旋渦 消費者隱私已被洩露怎麼辦
    不過,共享充電寶最近陷入了洩露個人隱私的旋渦。近日,公安部網安局微信公眾號推送了一篇題為《警惕身邊的共享充電寶陷阱》的文章。該文稱,部分共享充電寶不僅可能存在質量隱患,還可能被不法分子植入「木馬」程序,導致手機裡的通訊錄、文本信息甚至照片、視頻等隱私數據被洩露。這些充電寶主要來源於三個地方:一是商場裡的可租賃移動電源;二是火車站裡叫賣的滿電充電寶;三是掃碼免費送的充電寶。
  • 惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?
    一旦涉及某一方發生洩露,通過抓取這個數據包便可以解析出來用戶的敏感信息。網絡爬蟲則分為合法爬蟲和惡意爬蟲兩種。一些所謂的大數據公司本身沒有數據來源,而是通過爬蟲手段獲取他人的數據。在網絡空間,數據戰爭已進入白熱化。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    如果把所有的可能路徑呈現出來,就會看到一個網絡結構。 網絡爬蟲模擬了人們瀏覽網頁的行為,只是用程序代替了人類的操作,在廣度和深度上遍歷網頁。如果把網際網路上的網頁或網站理解為一個個節點,大量的網頁或網站通過超連結形成網狀結構。
  • SNS屏蔽搜尋引擎為哪般 用戶隱私大過天
    依靠熟人的熟人來發展網絡社交的SNS網站目前正在遭遇一場隱私洩露危機。大多數SNS網站都採用實名制,並要求填寫手機號碼、郵箱、QQ、MSN、性別、出生日期等多項個人信息,在掌握了大量用戶隱私的同時,也遭到了許多不法分子的覬覦。現在的隱私洩露已經不僅限於木馬病毒的竊取,而更多的是來至於出於商業目的的數據搜集。搜尋引擎作為最常用、最直接獲取網站信息的工具,雖然方便了用戶,但也常被某些人利用,非法搜集用戶私人信息,然後賣給商家。
  • 網絡爬蟲的類型-膠東在線考試培訓
    網絡爬蟲具體有哪些類型呢? 網絡爬蟲可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中,通常是這幾類爬蟲的組合體。 通用網絡爬蟲所爬取的目標數據是巨大的,並且爬行的範圍也是非常大的,正是由於其爬取的數據是海量數據,故而對於這類爬蟲來說,其爬取的性能要求是非常高的。這種網絡爬蟲主要應用於大型搜尋引擎中,有非常高的應用價值。 通用網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面資料庫、連結過濾模塊等構成。
  • 網絡爬蟲的法律規制
    一、網絡爬蟲的功能和價值   (一)定位網絡爬蟲,又稱為網絡蜘蛛或網絡機器人,是網際網路時代一項普遍運用的網絡信息搜集技術。該項技術最早應用於搜尋引擎領域,是搜尋引擎獲取數據來源的支撐性技術之一。
  • 發照片傳原圖分分鐘洩露你的隱私,這個鍋微信說不背!
    你與陌生人之間,可能只是一張照片的距離。有時候一張「原圖」照片,分分鐘就暴露了你的信息……據齊魯晚報消息,和好友約好一起聚餐,發了一張火鍋店原圖,好友準確找到了位置。看起來高智商的背後,其實智慧型手機裡的照片定位系統。
  • 年終曬網絡消費帳單 當心洩露隱私
    年終曬網絡消費帳單 當心洩露隱私 市工商局提醒:面對記帳理財APP需提高警惕 作者:姜帆 2018-01-10 13:17   來源:北方晨報
  • 百度地圖採集軟體 實體店商家信息爬蟲工具分享
    網絡爬蟲幫助搜尋引擎從全球資訊網下載網頁,全球資訊網是一個自動提取網頁信息的程序,所以網絡爬蟲也是搜尋引擎的重要組成部分。已知的網絡爬蟲分為傳統爬蟲和聚焦爬蟲。傳統爬蟲:就像蜘蛛在蜘蛛網上爬行一樣,網頁URL類似於相互關聯的蜘蛛網。網頁蜘蛛從一些初始網頁URL開始,獲取初始網頁上的URL。
  • 微信發送原圖洩露位置信息引關注 專家支招保護隱私
    北京某大學大四女生劉欣(化名)說,在大數據時代,即使不發原圖,也還會有其他方式洩露隱私。劉欣說,其實自拍照不用太擔心,畢竟發到朋友圈的照片都是處理過的,主要是一些學習或者工作的要求,需要和一些人之間傳遞資料信息,有時候為了方便就發了原圖。「想來還是有些後怕,感覺自己沒有隱私了,拍照時間以及位置信息都暴露給其他人了。」
  • 你的生活被這些「蟲子」包圍了嗎?爬蟲可以做哪些事?
    不過程式設計師也對記者表示,像支付寶這麼嚴謹的金融科技公司,有一套嚴密的反爬蟲技術,用戶信息是很難被竊取的。此外,如果要避免信息不被爬蟲竊取,最好選擇大公司的產品,一般來說大公司都會有反爬蟲系統,而且對用戶信息保護的意識更高,反之洩露信息的可能性越大。
  • 推薦四個網絡爬蟲抓包神器
    目前市面上比較不錯的網絡爬蟲抓包工具有Fiddler、charles、Anyproxy和mitmproxy等。有人可能會問,何為網絡爬蟲?首先,網絡爬蟲它是一種程序,它的樣子如同一個大蜘蛛.它將網絡上全部的連結和內容進行查索,建立相關的資料庫並引入。
  • 手持身份證照片現身網絡:搜索可得大量圖片
    個人信息洩露的話題對於網友來說已經到了草木皆兵的境地。  大量手持身份證照片現身網絡  9月4日晚間,知名微博博主@網際網路的那點事發文稱,「想知道個人信息怎麼洩露嗎?  正當網友驚恐於自己的個人隱私居然遭到了如此徹底的洩露時
  • 網絡爬蟲怎麼管?最新研究報告:強調場景化治理
    來源:澎湃新聞原標題:網絡爬蟲怎麼管?最新研究報告在滬發布,強調場景化治理被稱為「網絡爬蟲」的自動數據採集技術該如何管理?11月28日,在CIS 2019網絡安全創新大會上發布的一份《數據爬取治理報告》提供了思路。