「爬蟲」如何搶低價票?藉助超連結信息抓取網頁

2021-01-08 中國新聞網

  你的低價機票 被「蟲子」吃了

資料圖:一款搶票瀏覽器的廣告出現在北京的公交站臺。

中新社

發 劉關關 攝

  不到兩個月,2018年春節要來了。

  「今年我得早下手,搶張回家的低價機票。」在北京打工的小王對科技日報記者說,由於老家在雲南,春節機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。

  然而,就在小王摩拳擦掌,準備使出「洪荒之力」搶張便宜機票時,看到網上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務公司的「爬蟲」搶走,普通用戶很少能買到。

  小王傻眼了,「爬蟲」究竟是什麼鬼?它又是怎麼搶機票的?難道就沒有辦法治理嗎?

  藉助超連結信息抓取網頁

  「『爬蟲』技術是實現網頁信息採集的關鍵技術之一,通俗來說,『爬蟲』就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工幹預。」北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。

  閆懷志介紹,「爬蟲」又稱網頁「蜘蛛」、網絡機器人,它是一種按照一定規則自動抓取網頁信息的程序或者腳本,通常駐留在伺服器上。在Web網頁中,既包含可供用戶閱讀的文字、圖片等信息,還包含一些超連結信息。網絡「爬蟲」正是藉助這些超連結信息來不斷抓取網絡上的其他網頁。

  「這種信息採集過程很像一個爬蟲或蜘蛛在網絡上漫遊,網絡『爬蟲』或網頁『蜘蛛』因此得名。」閆懷志說,「爬蟲」最早應用在搜尋引擎領域,比如谷歌、百度、搜狗等搜尋引擎工具每天需要抓取網際網路上數百億的網頁,它們需要藉助龐大的「爬蟲」集群來實現搜索功能。

  當前,「爬蟲」已被廣泛用於電子商務、網際網路金融等諸多領域。比如,「爬蟲」可以抓取航空公司官網的機票價格,發現低價或緊俏機票後,「爬蟲」可以利用虛假客源的真實身份信息實現搶先預訂。再有,很多網際網路瀏覽器都推出了自己的搶票插件,以高訂票成功率來推廣瀏覽器。

  根據抓取任務和目標的不同,網絡「爬蟲」可大致分為批量型、增量型和垂直型。批量型「爬蟲」的抓取範圍和目標較為明確,可以是網頁的設定數量,也可以是消耗時間的設定。增量型「爬蟲」主要用於持續抓取更新的網頁,以適應網頁的不斷變化。垂直型「爬蟲」主要是用於特定主題內容或特定行業的網頁。

  「爬蟲」究竟是如何搶票的

  此前,在線票務服務公司攜程的「反爬蟲」專家在技術分享中透露,某網站的一個頁面,每分鐘的瀏覽量是1.2萬,真實用戶只有500個,「爬蟲」流量佔比為95.8%。

  採訪中,很多業內人士也表示,即使在「爬蟲」活動的淡季,虛假流量也佔到訂票網站總流量的50%,高峰期更是在90%以上。

  那麼,「爬蟲」究竟是如何實現搶票的呢?對此,閆懷志解釋,主要是機票代理公司利用「爬蟲」技術,不斷抓取航空公司售票官網網頁信息,如果發現該航空公司有低價票放出,「爬蟲」即刻利用虛假客源身份進行批量預定但不實際支付,以達到搶佔低價票源的目的。由於「爬蟲」的效率遠遠超過正常的手動操作,導致通過正常操作幾乎無法搶到票。

  隨後,機票代理公司會通過其自身銷售渠道(包括公司網站、在線旅行社、客戶電話訂購等)找到真正的客源,在航空公司允許的帳期內,退訂此前使用虛假客源身份預定的低價票,然後使用真實身份信息進行訂購,最後實現該低價票的加價轉售。

  如果未在航空公司規定的帳期內找到真正客源,機票代理公司會在訂單失效前再追加虛假身份訂單,繼續「霸佔」該低價票,如此反覆,直至找到真正客源售出為止。

  「上面的操作流程就構成了完整的機票銷售鏈條。在這個過程中,航空公司售票系統允許在帳期內反覆訂、退票的規定為機票代理公司利用『爬蟲』搶票並加價獲利提供便利。這種搶票方式,被稱為技術『黃牛』。」閆懷志強調。

  的確,有業內人士表示,這些「爬蟲」流量消耗了大量的機器資源,卻不產生任何消費,這是每個公司最痛恨的東西。但是,因為怕誤傷真實用戶,各家公司的「反爬蟲」策略做得非常謹慎。

  採用一定手段 「爬蟲」可防可控

  任何事情都有兩面,「爬蟲」技術也不例外。

  在閆懷志看來,「爬蟲」既可為正常的數據批量獲取提供有效的技術手段,也可被惡意使用以獲取不當利益。如果「爬蟲」技術被不正當利用,就會帶來一定的危害。

  首先,威脅數據安全。航空公司售票網站數據被惡意爬取,數據可能會被機票代理公司惡意利用,而且還存在被同業競爭對手獲取的風險。

  其次,導致系統性能下降,影響用戶體驗。「爬蟲」大量的抓取請求會導致航空公司售票網站伺服器資源負載上升、性能下降,網站響應變慢甚至無法提供服務,對用戶搜索和交易體驗造成負面影響。但由於存在巨大的灰色利益空間,同時「反爬蟲」技術在與「爬蟲」對抗中作用有限,使得這種顯失公平的「作弊」方式成為擾亂機票市場秩序的技術「頑疾」。

  「從技術角度來看,阻擊『爬蟲』可以通過網站流量統計系統和伺服器訪問日誌分析系統。」閆懷志說,通過流量統計和日誌分析,如果發現單個IP訪問、單個session訪問、User-Agent信息超出設定的正常頻度閾值,則判定該訪問為惡意「爬蟲」所為,將該「爬蟲」的IP列入黑名單以拒絕其後續訪問。

  再就是設置各種訪問驗證環節。比如,在可疑IP訪問時,返回驗證頁面,要求訪問者通過填寫驗證碼、選取驗證圖片或者字符等方式實現驗證。如果是惡意「爬蟲」爬取,顯然很難完成上述驗證操作,進而可以封鎖該「爬蟲」的訪問,防止其惡意爬取信息。

  網際網路空間不能有「灰色地帶」

  當前,雲計算、大數據等為代表的新一代信息技術處在高速發展階段。

  「上述新技術如果被非法或者不當應用,則會產生嚴重的危害。網際網路空間安全需要建立健全完善的保護體系,絕不能『裸奔』。」閆懷志說。

  2017年6月1日,我國《網絡安全法》正式實施,明確了各方在網絡安全保障中的權利與責任。這是中國網絡空間治理和法制建設從量變到質變的重要裡程碑,這部法律作為依法治網、化解網絡風險的法律重器,成為我國網際網路在法治軌道上健康運行的重要保障。

  然而,目前對於高科技「黃牛」倒票行為,尚未有明確規定,使得惡意爬取信息並不當獲利行為處在法律法規監管的「灰色地帶」。

  閆懷志介紹,國際上,針對「爬蟲」應用,專門制訂了Robots協議(即「爬蟲」協議、網絡機器人協議等)。該協議全稱為「網絡爬蟲排除標準」,網站可通過該協議告知「爬蟲」可以爬取哪些頁面及其信息,不能爬取哪些頁面及其信息。該協議作為網站和「爬蟲」的溝通方式,用來規範「爬蟲」行為,限制不正當競爭。

  作為國際網際網路界通行的道德規範,該協議的原則是:「爬蟲」及搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權;網站有義務保護其使用者的個人信息和隱私不被侵犯。這就規定了爬取者和被爬取者雙方的權利和義務。

  一位不願具名的法律專家也表示,「反爬蟲」不僅要依靠技術防範和業界自律,還應該通過完善管理和法律法規手段來約束這種行為,尤其是法律手段才能彰顯懲治力和震懾力。航空公司也要完善帳期管理,不給「爬蟲」搶票提供機會。

  本報記者 付麗麗

相關焦點

  • 什麼是爬蟲?如何提高爬蟲爬取網頁速度?
    爬蟲的作用想必大家也知道了,那就是抓取頁面,嚴格來說是訪問頁面,搜尋引擎蜘蛛好比是網際網路的一個普通訪客,蜘蛛和人打開網頁是一模一樣的,如果我們人能訪問這個網頁,蜘蛛也如此一樣能訪問。通俗來講,網際網路好比一張偌大的蜘蛛網,網絡爬蟲就像蜘蛛一直在蛛網上爬行捕捉優質的信息並收錄到自己的資料庫中,然後當用戶在搜尋引擎上搜索對應關鍵詞時,搜尋引擎將對關鍵詞進行分析處理,然後從收錄的網頁中找出相關網頁,按照排名規則進行排序並將結果展現給搜索用戶。因此搜尋引擎離不開網絡爬蟲,網絡爬蟲也是搜尋引擎的重要組成部分。
  • 網絡爬蟲無處不在,無意中的連結分享就能洩露你的隱私
    回答前,需要解釋一下網頁爬蟲的作用。今天,搜尋引擎已經成為大家上網衝浪的標配,甚至有「內事不決問百度,外事不決問谷歌」的說法。搜尋引擎可以根據用戶的需要提供內容豐富的網上信息,相對於傳統的紙質信息媒介,從根本上改變了人們獲取及處理信息的習慣,極大提高了效率。而其基礎就在於大量收集網頁信息的網絡爬蟲。在搜尋引擎發展的初期,程序猿小哥哥相互間炫耀的一個指標就是,自己的爬蟲收集的網頁數量。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • 惡意爬蟲抓取信息,「大數據」營銷公司如何販賣個人隱私?
    近日,新京報記者調查發現:有大數據營銷公司靠銷售爬蟲工具獲利,電商平臺商家數據遭爬取;還有公司稱可以獲取任意網頁及APP訪客的手機號;專家稱其屬於惡意爬取,涉嫌犯罪。7月底,新京報記者臥底「鷹眼智客」發現,其實際上是利用爬蟲技術,從淘寶、京東等網站上爬取到店家手機號後,用於營銷。此外,藉助該軟體,通過微信附近的人,用戶可任意設定虛擬位置後批量申請好友,還能「站街」釣魚營銷。有安全專家表示,當用戶發生上網行為時會發送數據包,內含行為痕跡、手機號等信息。
  • 網頁爬蟲及其用到的算法和數據結構
    網絡爬蟲,是一種按照一定的規則,自動的抓取全球資訊網信息的程序或者腳本。網絡爬蟲是搜尋引擎系統中十分重要的組成部分,它負責從互 聯網中搜集網頁,採集信息,這些網頁信息用於建立索引從而為搜索 引擎提供支持,它決定著整個引擎系統的內容是否豐富,信息是否即 時,因此其性能的優劣直接影響著搜尋引擎的效果。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。
  • 百度地圖採集軟體 實體店商家信息爬蟲工具分享
    網絡爬蟲幫助搜尋引擎從全球資訊網下載網頁,全球資訊網是一個自動提取網頁信息的程序,所以網絡爬蟲也是搜尋引擎的重要組成部分。已知的網絡爬蟲分為傳統爬蟲和聚焦爬蟲。傳統爬蟲:就像蜘蛛在蜘蛛網上爬行一樣,網頁URL類似於相互關聯的蜘蛛網。網頁蜘蛛從一些初始網頁URL開始,獲取初始網頁上的URL。
  • 數據從業者必讀:抓取了一千億個網頁後我才明白,爬蟲一點都不簡單
    流行的Python爬蟲框架Scrapy開發者Scrapinghub分享了他們抓取一千億個網頁後的經驗之談。現在爬蟲技術似乎是很容易的事情,但這種看法是很有迷惑性的。開源的庫/框架、可視化的爬蟲工具以及數據析取工具有很多,從網站抓取數據似乎易如反掌。然而,當你成規模地在網站上抓東西時,事情很快就會變得非常棘手。
  • Python爬蟲是什麼意思有啥用 python爬蟲原理實例介紹
    但什麼是爬蟲,如何利用爬蟲為自己服務,這些在ICT技術小白聽起來又有些高入雲端。不用愁,下面一文帶你走近爬蟲世界,讓即使身為ICT技術小白的你,也能秒懂使用Python爬蟲高效抓取圖片。  什麼是專用爬蟲?  網絡爬蟲是一種從網際網路抓取數據信息的自動化程序。
  • Python爬蟲很難,那是你沒有掌握爬蟲的思想,看看大神如何來分析
    大家學習Python爬蟲可能會遇到各種各樣的問題,那麼在遇到這些問題的時候,我們應該如何去解決呢?1.什麼是爬蟲爬蟲,即網絡爬蟲,大家可以理解為在網絡上爬行的一隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。
  • 了解入門爬蟲技術原理,看這篇就夠了
    本文主要介紹與網絡爬蟲相關的技術,儘管爬蟲經過幾十年的發展,從整體框架上來看已經相對成熟,但隨著網際網路的不斷發展,也面臨著一些新的挑戰。二、通用爬蟲技術框架爬蟲系統首先從網際網路頁面中精心選擇一部分網頁,以這些網頁的連結地址作為種子URL,將這些種子放入待抓取URL隊列中,爬蟲從待抓取URL隊列依次讀取,並將URL通過DNS解析,把連結地址轉換為網站伺服器對應的IP位址。
  • 爬蟲學得好,監獄進得早——兼談遊戲推廣中如何合法使用爬蟲技術
    爬蟲技術的使用不僅僅在風控行業,據筆者了解,遊戲行業在推廣產品時亦會使用爬蟲技術獲取用戶信息,了解用戶喜好,從而提高遊戲推廣的精準度。本文主要討論運用爬蟲技術抓取數據行為的法律邊界,兼談遊戲行業在推廣中應如何合法使用爬蟲技術。
  • 爬蟲工具有哪些
    火車採集器 火車採集器是一款網頁數據抓取、處理、分析,挖掘軟體。可以靈活迅速地抓取網頁上散亂分布的信息,並通過強大的處理功能準確挖掘出所需數據。免費功能可實現數據的抓取、清洗、分析,挖掘及最終的可用數據呈現,接口和插件擴展等高級功能需要收費。你可以通過設定內容採集規則,輕鬆迅速地抓取網頁上散亂分布的文本、圖片、壓縮文件、視頻等內容。 八爪魚採集器 簡介:八爪魚採集器是一款可視化採集器,內置採集模板,支持各種網頁數據採集。號稱免費,但是實際上導出數據需要積分,可以做任務攢積分,但是正常情況下基本都需要購買積分。
  • Python新手都可以做的爬蟲,抓取網上 OJ 題庫信息
    最近有朋友在做 OJ 題庫,順手做個小爬蟲,導出一份題庫列表來看看!目標:浙江大學題庫工具:python3.6,requests 庫、lxml 庫、pycharm思路:先找到網頁中題庫所在的位置然後我們點擊第一頁和後面幾頁,看看 url 的變化發現規律了嗎?
  • 裁判文書網數據竟被標價售賣:爬蟲程序抓取,或構成侵權
    不少聲稱能夠出售裁判文書網數據的商家在商品文字描述中稱,其數據是通過「網絡爬蟲」的方式獲取的。所謂「網絡爬蟲」,又稱網頁蜘蛛、網頁機器人,是一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本。相當於一個自動訪問網頁並進行相關操作的小機器人。
  • 爬蟲玩的好,監獄進的早?
    法院方面認為,奇虎公司違反了百度的「爬蟲Robots協議」,依據360搜尋引擎隨意抓取百度的網頁、甚至將用戶的瀏覽連結直接跳轉至360的快照界面的不正當行為,判決賠償百度公司經濟損失50萬元及20萬元的其他合理費用。百度方面表示,360公然違反了Robots協議,隨意將百度公司的網站內容佔為己有,侵犯了百度公司的權益。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    爬蟲的技術原理 搜尋引擎收集網上信息的主要手段就是網絡爬蟲(也叫網頁蜘蛛、網絡機器人)。它是一種「自動化瀏覽網絡」的程序,按照一定的規則,自動抓取網際網路信息,比如:網頁、各類文檔、圖片、音頻、視頻等。搜尋引擎通過索引技術組織這些信息,根據用戶的查詢,快速地提供搜索結果。
  • 有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據
    於是產品和運營們往往要藉助爬蟲來抓取自己想要的數據。比如想要獲取某個電商網站的評論數據,往往需要寫出一段代碼,藉助python去抓取出相應的內容。說到學寫代碼……額,我選擇放棄。那麼問題來了,有沒有什麼更方便的方法呢?今天就為大家介紹3個能適應大多數場景的數據採集工具,即使不懂爬蟲代碼,你也能輕鬆爬出95%網站的數據。
  • 常見的反爬蟲技術有哪些?如何防止別人爬自己的網站?
    搜尋引擎可以通過爬蟲抓取網頁信息,同時也有很多企業通過爬蟲獲取其他平臺的信息用於數據分析或者內容優化,但是對於自身網站有些頁面或者信息並不希望被爬蟲抓取,那我們如何來實現反爬蟲技術呢?如何防止別人爬自己的網站呢?
  • 從零開始學會Python 爬蟲,該怎麼做?
    從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站,那麼網絡蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。