網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私

2020-12-26 未央網

本文共字,預計閱讀時間

曾經有個朋友滿臉困惑地問起:「據說谷歌可以搜索到私人電子郵件,真的假的?」

回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。

網絡爬蟲

搜尋引擎收集網上信息的主要手段就是網絡爬蟲(也叫網頁蜘蛛、網絡機器人)。它是一種「自動化瀏覽網絡」的程序,按照一定的規則,自動抓取網際網路信息,比如:網頁、各類文檔、圖片、音頻、視頻等。搜尋引擎通過索引技術組織這些信息,根據用戶的查詢快速地提供搜索結果。

具體來說,如果把網際網路上的網頁或網站理解為一個個節點,大量的網頁或網站將通過超連結形成網狀結構。人們瀏覽網頁時,通過點擊網頁上的連結,從一個節點跳轉到下一個節點,就像是在一張網上行走。網絡爬蟲模擬了該行為,但是速度更快,跳轉的節點更全面,所以被形象地稱為網絡爬蟲或網絡蜘蛛。

隨著網絡的迅速發展,不斷優化的網絡爬蟲技術正在有效地應對各種挑戰,為高效搜索用戶關注的特定領域與主題提供了有力支撐,也為中小站點的推廣提供了有效的途徑,為此,網站針對搜尋引擎爬蟲的優化(SEO)曾風靡一時。

爬取原理

需要說明的是,網絡爬蟲從一些初始網頁URL(網頁地址)開始抓取網頁,在此過程中,不斷從當前頁面上抽取新的連結用於爬取,循環往復擴充到整個網絡,為搜尋引擎或大型網絡服務商採集數據。

網絡爬蟲的爬行範圍和數量巨大,對於爬行速度和存儲空間要求較高。同時,由於待刷新的頁面很多,所以通常採用並行的方式。

下圖所示的是一個通用的爬蟲框架流程。首先精心選擇一部分網頁,以這些網頁的連結地址作為種子URL放入待抓取的URL隊列中,爬蟲從URL隊列依次讀取每個URL,通過DNS解析轉換為對應的IP位址。然後將其和網頁相對路徑交給網頁下載器,網頁下載器負責網頁內容的下載。一方面下載的內容存儲到資料庫中,等待後續處理;另一方面該網頁的URL添加到已抓取隊列(這個隊列記載了已經下載過的網頁URL,避免重複抓取)。此外,從剛下載的網頁中抽取出新的URL,如果該連結沒有被抓取過,則添加入待抓取URL隊列,在之後的調度中下載對應的網頁。這樣循環往復,直到待抓取URL隊列為空(實際上不會為空,會有其他的條件終止爬取),代表完成了一輪完整的抓取過程。

上述是一個通用爬蟲的整體流程,由於網際網路上網頁數量太過巨大,在實踐中通常會有不同的爬行策略,常用的有:深度優先策略、廣度優先策略。網站典型的網頁層次關係通常像一棵樹,如果把主頁看作樹根,其他的網頁則是枝杈上的樹葉。具體來說:

(1)深度優先策略是在垂直方向上,逐個分支爬取,依次訪問下一級網頁,直到不能再深入為止。爬蟲在完成一個爬行分支後,返回到上一連結節點搜索其它分支。當所有分支遍歷完後,爬行任務結束。這種策略比較適合垂直搜索或站內搜索,但爬行頁面內容層次較深的站點時會造成資源的巨大浪費。

(2)廣度優先策略是在水平方向上,逐個層面爬取,優先爬行處於較淺層次的頁面。當某一層次的全部頁面抓取完後,再深入下一層爬行。這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結束爬行的問題,不足之處在於需較長時間才能爬行到目錄層次較深的頁面。

爬蟲技術也面臨著一系列的難題,比如:網際網路上存在的大量重複網頁、動態頁面、動畫特效頁面等,增加了信息獲取的困難。現有的搜尋引擎能抓取的網頁不超過網際網路所有網頁總數的一半,極端的估計是少於16%。

爬蟲應用

堅持看到這裡的寶寶要問了,枯燥的技術結束了吧?到底爬蟲還有什麼用呢?

眾所周知,很多電商平臺都有自動調價功能,它會依靠爬蟲程序掃描同類網站商品的價格,針對性地展開相應的調整,從而取得價格優勢,為銷量提供保證。比如蘇寧易購的「稜鏡」系統就是一款實時比價工具。利用網絡爬蟲獲取其他電商平臺的同款商品的價格、促銷、評論等商品信息,給業務人員的工作帶來了極大便利。

其實,自從亞馬遜十多年前推出該自動比價模式以來,機器人驅動的定價給整個零售行業帶來了巨大的變革。以往,零售店最多每周調價一次,因為更換標籤的成本和時間成本都很高。而在電子商務世界,零售商卻可以隨時調價,有時候甚至達到每天數次,這都得益於競對定價數據等。

在電子商務行業,使用爬蟲成為了一場「貓捉老鼠」的遊戲。企業一方面希望阻止競爭對手爬取自己的網站,另一方面又想滲透對手的網站。儘管擁有各類技術防範,但爬取機器人數量還是令人震驚。除了競爭對手外,有的流量還來自科研院所,目的是研究競爭、搜尋引擎、廣告服務,甚至還有的是企圖入侵網站帳號的不法分子。

爬蟲安全性

到了這裡,必須說下網絡爬蟲的安全性問題。由於網絡爬蟲的策略是儘可能多的「爬過」網站中的高價值信息,會根據特定策略儘可能多的訪問頁面,佔用網絡帶寬並增加網絡伺服器的處理開銷,不少小型站點的站長發現當網絡爬蟲光顧的時候,訪問流量將會有明顯的增長。

例如,某個網站上有一個10MB(如PDF格式)的文件,使用爬蟲抓取該文件1000次,就會使網站產生大量出站流量(可在數分鐘內達到GB級),引起的後果很可能是災難性的。這種攻擊達到的效果似曾相識,類似臭名昭著的DDoS攻擊,使網頁服務在大量的暴力訪問下,資源耗盡而停止提供服務。

此外,惡意用戶還可能通過網絡爬蟲抓取各種敏感資料用於不正當用途,主要表現在以下幾個方面:

(1)網站入侵,大多數基於網頁服務的系統都附帶了測試頁面及調試用後門程序等。通過這些頁面或程序甚至可以繞過認證直接訪問伺服器敏感數據,成為惡意用戶分析攻擊的有效情報來源。而且這些文件的存在本身也暗示網站中存在潛在的安全漏洞。

(2)搜索管理員登錄頁面,許多在線系統提供了基於網頁的管理接口,允許管理員對其進行遠程管理與控制。如果管理員疏於防範,一旦其管理員登錄頁面被惡意用戶搜索到,將面臨極大的威脅

(3)搜索網際網路用戶的個人資料,網際網路用戶的個人資料包括姓名、身份證號、電話、郵箱地址、QQ號、通信地址等個人信息,惡意用戶獲取後有可能實施攻擊或詐騙。

因此,採取適當的措施限制網絡爬蟲的訪問權限,向網絡爬蟲開放網站希望推廣的頁面,屏蔽比較敏感的頁面,對於保持網站的安全運行、保護用戶的隱私是極其重要的。所以,谷歌正常情況下不應該抓取到私人郵件,但不排除特別情況下,由於伺服器的管理漏洞而發生信息洩露的可能。

能堅持看到最後的童鞋必須有獎勵,推薦一個搜尋引擎shodan ,被稱為「黑暗」谷歌,也被稱為世界上最可怕的搜尋引擎。它看上去跟普通搜尋引擎一樣,但是可以搜到網絡上存在的攝像頭、路由器、印表機等數據採集監控系統,並根據其所屬國家、作業系統、品牌以及其它屬性進行分類。如果說,谷歌和百度是網站內容搜索,那麼,它則是網絡設備搜索,在物聯網應用中提供了探索的場景。

(微信公眾號:蘇寧財富資訊;作者:蘇寧金融研究院高級研究員沈春澤)

[Source]

本文系未央網專欄作者發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!

本文為作者授權未央網發表,屬作者個人觀點,不代表網站觀點,未經許可嚴禁轉載,違者必究!

本文版權歸原作者所有,如有侵權,請聯繫刪除。

相關焦點

  • 「爬蟲」背後的灰色大生意 | 個人數據隱私保衛戰
    而用戶也確實可以通過安裝使用各類安全產品和應用,防止個人信息洩露,但常常防不勝防。現實的情況是,對於很多用戶來說,他們既沒有個人數據隱私的保護意識,也沒有相應的安全能力,個人數據簡直就是在「裸奔」,甚至還會因為一些公司的「小恩小惠」,而主動分享數據。大數據行業長期遊走在灰色地帶,很多數據的來源並不「清白」,這早已不是秘密。
  • 百度網盤洩露隱私?千萬別點「公開分享」
    原標題:百度網盤洩露隱私?千萬別點「公開分享」   百度雲作為市場上較為流行的雲存儲服務,其註冊用戶已超一億人。但近日,有網友發文提醒,使用百度網盤分享的文件連結,有可能被第三方網盤搜尋引擎抓取,從而導致用戶的私密文件遭洩露。
  • 隱私洩露的盡頭,連著惡意叢生的網絡暴力|媒體札記
    在對個人隱私信息的處理上,更應該慎之又慎。避免相關內容被在網絡上不當傳播,給患者造成負面影響」。只有讓每個確診者都不懼怕外界的非議與偏見,他們才會更加安心地接受防疫部門的詢問,如實報告行跡。反之,很可能有個別人擔心隱私洩露、不敢說出實情。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    網絡爬蟲大致有4種類型的結構:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲 。1、通用Web爬蟲通用網絡爬蟲所爬取的目標數據是巨大的,並且爬行的範圍也是非常大的,正是由於其爬取的數據是海量數據,故而對於這類爬蟲來說,其爬取的性能要求是非常高的。
  • 圍剿網絡「爬蟲」:監管發文規範切斷非持牌合作
    來源:21世紀經濟報導原標題:圍剿網絡「爬蟲」: 監管發文規範 大數據公司切斷非持牌合作網絡「爬蟲」業務,正在被監管合力規範。中國網際網路金融協會指出,根據國家監管部門發現,社會上有一些網際網路機構以「大數據」為名,通過「爬蟲」業務涉嫌違法違規收集個人信息,或竊取、濫用、買賣、洩露個人信息,侵犯了消費者個人隱私,造成了不良的社會影響。
  • 「爬蟲」背後的灰色大生意
    網絡爬蟲,簡單來說就是一個自動抓取網絡數據的程序,比如搜尋引擎大量使用的就是這種技術。而用戶也確實可以通過安裝使用各類安全產品和應用,防止個人信息洩露,但常常防不勝防。現實的情況是,對於很多用戶來說,他們既沒有個人數據隱私的保護意識,也沒有相應的安全能力,個人數據簡直就是在「裸奔」,甚至還會因為一些公司的「小恩小惠」,而主動分享數據。
  • 網絡爬蟲技術有哪些用途和危害?
    那麼在信息流量堪稱浩如煙海的網絡上,怎麼會被精確到每個用戶到底關注什麼呢?其實這就是運用了網絡爬蟲技術。估計有人對爬蟲二字看起來就發毛。與自然接觸少的城裡長大的人,很多都天生怕蟲子,不過對從小燒烤蒸煮過無數蟲子螞蚱的老一代人來說,蟲子又有什麼可怕的?網絡爬蟲說到底就是一種小程序,屬於按照一定的規則,自動抓取全球網絡上的程序和腳本。
  • 「爬蟲」如何搶低價票?藉助超連結信息抓取網頁
    藉助超連結信息抓取網頁  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。
  • 大數據行業的灰色生意:利用爬蟲軟體竊取和販賣個人隱私信息
    然而,少數大數據公司並不滿足於此,它們跨越紅線,通過竊取個人隱私信息牟取暴利,讓「畫像」變成了「照相」,而且還是偷拍。  近期,數據堂、巧達科技、魔蠍科技、新顏科技等大數據行業公司相繼被公安機關查處,它們涉嫌利用爬蟲技術竊取和販賣個人信息,讓網民深受其害。灰色生意的暴利,已讓一些大數據公司失去了職業操守,徹底變成了網絡上的害蟲。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    " 放下你手裡的代碼,小心被抓。"最近程式設計師圈子不乏這樣的戲謔調侃。原因是最近發生的多起涉及爬蟲技術的公司被司法部門調查。近日,51 信用卡被查,更是將暴力催收背後非法使用爬蟲技術爬取個人隱私數據的醜行,暴露在陽光之下。
  • 51信用卡被查引發「爬蟲技術」爭議 是否侵犯個人信息?
    直營的話有個好處是所有的環節你都可以按照你認為比較規範的策略和要求去做,讓業務儘可能地合規。」51信用卡公司是否存在暴力催收等問題仍在調查中,不過,此次事件也使得整個大數據風控行業和其背後的「爬蟲技術」再一次引發了輿論的廣泛關注。所謂網絡爬蟲,即一種按照一定規則,自動抓取網際網路信息的程序。
  • 洩露個人隱私、竊取商業機密?數據爬取的合理邊界在哪
    10月11日,在上海社科院國際創新中心舉辦的上海「數據治理系列沙龍」第四期——「數據爬取治理」分享會上,多位法律專家和業界人士對這些問題做了深入探討。上海「數據治理系列沙龍」第四期——「數據爬取治理」分享會現場數據爬取的技術原理數據爬取,是指利用「爬蟲」在網際網路上抓取信息的行為或過程。
  • 整肅爬蟲公司
    截至2018年,數聚魔盒已經服務了超過2000家海內外客戶,累計超過億的數據調用量,覆蓋了超過8000萬獨立用戶,連接了超過億人的關係網絡。  張新波將信川科技定位為一家技術公司,主要是通過數據採集工具幫助客戶採集信息。對於爬蟲技術,他認為是「技術中立」的,「原本這些信息就需要向金融機構提供,用戶自己列印截圖跟我們幫他爬蟲是一樣的。
  • 警方介入成都確診女子隱私洩露
    儘管國內的疫情已經得到了有效的控制,但是隔斷事件就能出現的新情況也時刻牽動著網友們的心。尤其是最近發生在四川成都的一起案例,更是引發了全國的關注和熱議,成都確診女子隱私也已經在網絡上大肆洩露。針對成都確診女子隱私洩露,事件警方回應稱已介入。
  • 微信中這6個設置要關閉,否則個人隱私或將被洩露
    原題:微信中這6個設置要關閉,否則個人隱私或將被洩露。對此大家怎麼看?網絡的發達確實給我們帶來了一定的便利,但是卻存在一定的安全隱患,那就是個人信息洩露的問題。不難發現在生活中,我們收到騷擾電話以及簡訊越來越多了,而這些正是因為,網絡的發達,我們在享受這個紅利的時候,留下了足跡。而微信無疑成為我們個人信息的聚集地,微信中這6個設置要關閉,否則個人隱私或將被洩露。
  • 67%酒店在無意中洩露個人信息,第三方服務商可以替你取消訂單
    繼華住旗下酒店1.3億客人入住信息洩露,以及萬豪旗下喜達屋酒店3.83億客人開房信息洩露等事件後,酒店信息洩露似乎已經不是什麼新鮮事。
  • 共享充電寶陷洩露個人隱私旋渦 消費者隱私已被洩露怎麼辦
    不過,共享充電寶最近陷入了洩露個人隱私的旋渦。近日,公安部網安局微信公眾號推送了一篇題為《警惕身邊的共享充電寶陷阱》的文章。該文稱,部分共享充電寶不僅可能存在質量隱患,還可能被不法分子植入「木馬」程序,導致手機裡的通訊錄、文本信息甚至照片、視頻等隱私數據被洩露。這些充電寶主要來源於三個地方:一是商場裡的可租賃移動電源;二是火車站裡叫賣的滿電充電寶;三是掃碼免費送的充電寶。
  • 新民快評|隱私買賣,堵住洩露源頭是關鍵
    「提供任何信息查詢服務」「可查任何信息」……據新華社報導,在閒魚、轉轉等二手交易平臺上,有一些聲稱可以提供個人信息查詢服務的賣家;戶籍、房產、開房記錄等隱私信息,有的幾百元就能買到。圖片來源:東方IC買賣閒置物品的二手交易平臺上,居然可以買到敏感的個人隱私信息,這一狀況讓人無法等閒視之。加強二手物品網絡交易平臺監管,是網絡市場治理的重點之一,但買賣隱私的違法違規交易屢禁不絕,警示平臺須花更大力氣審核把關。
  • 網絡時代發達,常用軟體存在隱私洩露的隱患,這些預防措施很重要
    當今社會是信息一體化全球一體化的時代,社會的發展也非常快,故事後的人們通過書信來交流,通過各國各地的使節來傳播文化,後來人們報紙作為新聞的傳播載體,而後手機的發明讓人與人的交流更加便捷,信息化時代初步到來,直到網際網路的發展以及智慧型手機的出現,人們才能實現現在的「坐在家中看世界」「一機走天下」的預想,可以說,當今社會的網絡時代非常發達
  • 網絡爬蟲是啥玩意兒?有什麼用呢?
    這個時候,網際網路上的資源就非常關鍵了,從網絡上爬取數據資源,就成為了至關重要的一個環節。那到底什麼是網絡爬蟲呢?網絡爬蟲也叫網絡蜘蛛,即Web Spider,名字非常形象。網絡蜘蛛通過網頁的連結地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,一直循環下去,直到把整個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站,那麼網絡蜘蛛可以用這個原理把網際網路上所有的網頁都抓取下來。