京東商城修改robots 屏蔽一淘網搜尋引擎爬蟲

2020-11-26 TechWeb

京東商城修改爬蟲規則

新浪科技訊 10月25日上午消息,京東商城與阿里巴巴集團旗下比價購物搜索一淘網的暗戰出現最新進展,京東商城已通過技術手段在www.360buy.com/robots.txt頁面中加入「User-agent: EtaoSpider Disallow: /」代碼,屏蔽來自一淘網的內容抓取。

雙方暗戰的開端始於24日下午17時30分左右,京東商城CEO劉強東先發布一條微博:「一家網站未經我們允許直接抓取我們所有的產品評價,這些產品評價是京東花費了價值過億的積分激勵用戶寫出來的,你怎麼也要打聲招呼吧?實在難以相信這是一家整日倡導「新商業文明、誠信」的公司所為,這和雞鳴狗盜行為有何分別?」隨後這條微博被刪除。

正當大家猜測劉強東這條微博不點評批評的對象是誰時,答案很快揭曉:19時左右一淘網官方發布一條微博,稱認領這個「不點名批評」,事實上劉強東微博描述的「新商業文明、誠信」也是阿里巴巴多次對外強調的願景。

隨後網上就出現一份號稱是京東商城戰略內部流傳出的「針對一淘的競爭策略研究報告」,報告對於一淘網現狀、以及將對京東形成的威脅做出分析。

上述報告表示,一旦淘寶發展起來,京東的客戶將被分流,或者客戶流量入口被一淘所「鉗制」,並和電商行業上演赤裸裸的價格戰。在京東應該採取何種應對策略時,上述報告則建議「高調宣布拒絕合作」,並和外部資源聯合抵制。

但上述報告的真實性並未得到確認,京東商城並未對此事發表評論。不過也有業內人士認為此事可能是新一輪的「炒作」。

今日該事件出現最新進展,京東商城已通過技術手段在www.360buy.com/robots.txt頁面中加入「User-agent: EtaoSpider Disallow: /」代碼,屏蔽來自一淘網的內容抓取。

此前行業裡曾有過愛幫網和大眾點評網,因為抓取點評信息內容是否侵權剪不斷、理還亂的長達數年的法律糾紛。阿里巴巴集團旗下的淘寶網也於2008年公開宣布對百度蜘蛛設置了屏蔽,用戶便無法再從百度搜索到淘寶用戶的商品信息。(曉文)

相關焦點

  • 卓新智趣技術大咖:Robots爬蟲協議正確寫法與實操經驗分享
    卓新智趣技術大咖:Robots爬蟲協議正確寫法與實操經驗分享   想要網站健康收錄,那一定離不開Robots協議的設置以及robots正確寫法
  • 屏蔽蜘蛛抓取的後果
    爬蟲是搜尋引擎用來抓取網站的一套自動化程序,是搜尋引擎基本原理所必須的一環,屏蔽爬蟲抓取之後,搜尋引擎蜘蛛將無法抓取網站。除了有品牌保護的品牌詞會排名第一,其他關鍵詞的排名基本會消失,甚至索引也會被清除。
  • 如何屏蔽搜尋引擎抓取?
    作網站運營尤其是網站排名優化的時候,我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁,收錄。然而,很多時候一些網站因為所真對的用戶群體和目標地區不同,並不希望獲得搜尋引擎的光顧,這個時候我們要如何來解決呢?今天和筆者小丹一起來研究一下吧!    當我們看到要屏蔽抓取的時候,大多數SEOer想到的都是robots.txt文件。
  • 2018年最新搜尋引擎蜘蛛大全
    今天冬鏡SEO講的是2018年最新各大搜尋引擎蜘蛛名稱整理分享各大seo搜尋引擎的蜘蛛會不斷地訪問抓取我們站點的內容,也會消耗一定的站點流量有時候就需要屏蔽某些蜘蛛訪問我們的站點,文章尾部會講解決辦法了解各大搜尋引擎蜘蛛爬蟲
  • 你其實並不了解的搜尋引擎蜘蛛分類
    本章主要介紹一下搜尋引擎蜘蛛都有哪些類型。了解類型之前要先知道什麼是搜尋引擎蜘蛛。百度百科上有相關解釋,天鴻用一個形象的表述重新說一下。2.增量型Spider增量型Spider也可以稱之為通用爬蟲。一般可以稱為搜尋引擎的網站或程序,使用的都是增量型Spider,但是站內搜尋引擎除外,自有站內搜尋引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,沒有固定目標、範圍和時間限制,一般會無休止地抓取下去,直到把全網的數據抓完為止。
  • 淘寶屏蔽搜尋引擎
    淘寶網日前推出第三期消費者保障計劃,包括數碼家電產品「30天維修」、古董珠寶類目保真、食品類目認證審核、奢侈品鑑賞以及屏蔽搜尋引擎五大舉措。其中,針對數碼家電產品的「30天維修」與屏蔽搜尋引擎已率先推出。
  • 放下你手裡的代碼:爬蟲技術的善與惡
    爬蟲的發展歷史 網絡爬蟲最早的用途是服務於搜尋引擎的數據收集,而現代意義上的搜尋引擎的鼻祖是1990年由加拿大麥吉爾大學(University of McGill)學生Alan Emtage發明的的Archie。
  • 在搜尋引擎領域,有哪些常用的網絡爬蟲?
    但業界內很少叫蜘蛛的,一般都叫做網絡爬蟲,Spider只是個別爬蟲的名稱。 網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從Internet網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
  • 網絡爬蟲的法律規制
    一、網絡爬蟲的功能和價值   (一)定位網絡爬蟲,又稱為網絡蜘蛛或網絡機器人,是網際網路時代一項普遍運用的網絡信息搜集技術。該項技術最早應用於搜尋引擎領域,是搜尋引擎獲取數據來源的支撐性技術之一。
  • 一淘回應京東:數據來自系統5000家網站價格信息抓取
    【TechWeb報導】2月1日消息,繼京東商城質疑一淘網報告真實性後,一淘網回應稱,昨日公布去年Q4全網B2C商家商品價格指數報告,統計數據來自於自身價格監測系統對5000餘家購物網站價格信息的收錄抓取,京東作為一家B2C網站自然在涉及之列。
  • 常見的反爬蟲技術有哪些?如何防止別人爬自己的網站?
    搜尋引擎可以通過爬蟲抓取網頁信息,同時也有很多企業通過爬蟲獲取其他平臺的信息用於數據分析或者內容優化,但是對於自身網站有些頁面或者信息並不希望被爬蟲抓取,那我們如何來實現反爬蟲技術呢?如何防止別人爬自己的網站呢?
  • 淘寶打造個性化服務 屏蔽搜尋引擎
    淘寶網的「消費者保障計劃」第三期包括:數碼與家電類目30天維修、古董珠寶類目保真、食品類目認證審核、奢侈品鑑賞以及屏蔽搜尋引擎五大舉措。這些舉措標誌著淘寶網正強化個性化服務,為網購消費者提供更好的購物感受。
  • 還有人不知道網絡爬蟲是什麼吧
    個人爬蟲,如果過多的人使用,可能導致網絡或者伺服器阻塞。對這些問題的一個部分解決方法是漫遊器排除協議(Robots exclusion protocol),也被稱為robots.txt議定書(Koster,1996),這份協議對於管理員指明網絡伺服器的那一部分不能到達是一個標準。
  • SNS屏蔽搜尋引擎為哪般 用戶隱私大過天
    首頁 > 評論 > 關鍵詞 > 實名制最新資訊 > 正文 SNS屏蔽搜尋引擎為哪般 用戶隱私大過天
  • 優酷網屏蔽搜尋引擎服務 並不是針對第三方
    核心提示:中國第一視頻網站優酷網完全屏蔽了搜尋引擎視頻搜索服務 中國站長站(Chinaz.com)訊 國內第一視頻網站優酷網已經完全屏蔽了百度和谷歌的視頻搜索服務。 現在打開百度視頻搜索,可以搜索到各大視頻網站的視頻內容。但是,無論輸入什麼都找不到優酷網的視頻。CHINAZ編輯又在視頻搜索欄目嘗試用SITE。
  • 爬蟲玩的好,監獄進的早?
    Robots協議(Robots ExclusionProtocol)是網站為維護自身數據信息,通過一種約定俗成的規則告訴一些「爬蟲玩家」、搜尋引擎哪些頁面可抓、哪些不能抓。例如這是京東的「君子協議」:(不要讓無聊的代碼阻擋你讀下去的欲望,真正的君子協議要「亮劍」了)在上面的協議中:User-agent表示對哪些爬蟲生效,*表示所有爬蟲;Disallow正如其譯文一樣,代表拒絕爬蟲進行抓取的網址,/表示根目錄;通常爬蟲對某些網站進行爬取時,要獲取到robots.txt
  • 什麼是搜尋引擎蜘蛛,什麼是爬蟲程序?有哪些類型
    什麼是搜尋引擎蜘蛛,什麼是爬蟲程序?搜尋引擎蜘蛛程序,其實就是搜尋引擎的一個自動應用程式,它的作用是什麼呢?其實很簡單,就是在網際網路中瀏覽信息,然後把這些信息都抓取到搜尋引擎的伺服器上,然後建立索引庫等等。
  • 簡單使用scrapy爬蟲框架批量採集網站數據
    本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。 Scrapy的爬蟲項目的創建流程 1.創建一個爬蟲項目 在Pycharm中選擇 Terminal 在 Local 裡面輸入 scrapy startproject +(項目名字
  • 了解入門爬蟲技術原理,看這篇就夠了
    一、爬蟲系統的誕生通用搜尋引擎的處理對象是網際網路網頁,目前網際網路網頁的數量已達百億,所以搜尋引擎首先面臨的問題是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成網際網路網頁的鏡像備份。網絡爬蟲能夠起到這樣的作用,完成此項艱巨的任務,它是搜尋引擎系統中很關鍵也很基礎的構件。