3B大戰,中國爬蟲第一案的來龍去脈

2021-01-14 網易新聞

最近,大數據行業,特別是涉及到爬蟲技術的大數據公司接連出事,風波不斷,不是被警方帶走或被查封人公司,就是自行停止了數據爬蟲服務。一時間,大數據公司是不是會像P2P一樣,成多米諾骨牌效應,引發猜測和行業恐慌。

一隻簡單的網絡爬蟲,應該遵守網絡世界的「叢林法則」,否則在蝴蝶效應下,足以引發嚴重的法律後果。特別是當網絡爬蟲爬取內容涉及到作品類內容或個人信息時,可能會涉嫌侵犯智慧財產權或侵犯公民個人信息犯罪;而當網絡爬蟲採取技術措施故意繞開反爬蟲技術措施,或系統增刪改時,可能會涉及到破壞計算機信息系統罪;最後,若網絡爬蟲涉及數據類攫取時,則可能涉及一些企業之間的不當競爭,或非法獲取計算機信息系統數據罪類罪名。

網絡數據行業如何更好的利用爬蟲?司法實踐如何看待數據爬蟲?爬蟲又應當如何進行法律風控?程序猿碼農們又該如何自處?

2014年8月7日,圍繞360搜尋引擎是否違反Robots協議而引發的不正當競爭糾紛案,在北京市第一中級人民法院作出一審判決,認定被告北京奇虎科技有限公司的行為違反了反不正當競爭法的相關規定,應賠償原告北京百度網訊科技有限公司、百度在線網絡技術(北京)有限公司經濟損失及合理支出共計70萬元,同時駁回百度公司的其他訴請。案件發生的根源,有人總結為是360對百度應用型數據的覬覦。

這是一場數據爭奪之戰!

案件結果過來後,@360搜索官方聲稱:【法院判定360搜索可抓取百度內容:自由競爭的勝利】對於百度濫用Robots協議,以白名單機制限制360搜索發展的做法,法院持不支持態度,在判決書的第五條,法院判百度必須修改Robots協議,而百度要求法院禁止360抓取百度內容的要求被否決。業界評論認為,這是網際網路精神的勝利!

Robots協議(也稱爬蟲協議、爬蟲規則、機器人協議、蜘蛛協議等)由荷蘭籍網絡工程師Martijn Koster 於1994年首次提出,是一個搜尋引擎的國際默認公約,任何網站只要在其Robots中禁止搜尋引擎訪問,那麼搜尋引擎就無權收錄。有人形象地比喻為:搜尋引擎在網際網路上就像國王,網站就是每個人的小家,而Robots協議則是對抗國王的最後利器,正所謂「風能進雨能進國王不能進」。「Robots協議」已經被網際網路江湖認定為除「避風港規則」外的第二本武功秘籍。

在本案出來之前,已經有類似案例出現,但本案具有特殊性。該案關係網際網路行業尤其是搜尋引擎的基本遊戲規則。

有關屏蔽的相關案例

1:Facebook屏蔽谷歌
2:默多克旗下多家新聞網站屏蔽搜索爬蟲,後妥協開發
3:2008年淘寶屏蔽百度搜尋引擎
4:2013年8月,淘寶屏蔽與微信的一切數據連結,目前已開放
5:2011年10月,京東屏蔽一淘搜索
6:優酷屏蔽了百度與谷歌的搜尋引擎;09年3月份,優酷又一次開放了百度谷歌的視頻搜索
7:QQ空間自05年誕生時就沒有開放給百度與谷歌;2012年QQ空間向百度與谷歌開放
8:百度對競爭對手360搜索進行了屏蔽

百度當然希望所有網站都不要對其抓取進行「Robots協議」的限制。但百度推出的「百度知道」等,均對360的抓取進行單獨屏蔽。而360繞行「Robots協議」,仍然進行抓取。由於「Robots協議」被默認為公約、行業習慣、道德規範,因此有部分學者認定其在國內可以援引,具有法律效力(劉春田教授)。但360認為,「Robots協議」屬於善意提示性文件,不是法律。而且百度唯獨排斥360抓取其網站數據的行為,也構成不正當競爭,是濫用權利。

對於360的觀點,法院認為,

「有鑑於網際網路行業,尤其是搜尋引擎行業的現狀,並考慮到網際網路行業內已建立了網際網路協會這一成熟的行業自律組織,以及在行業內已經形成《自律公約》這樣專門解決該類糾紛的自律性公約的事實,搜尋引擎服務商與網站服務商或所有者關於Robots協議產生糾紛時,應遵循如下「協商-通知」程序處理:即在搜尋引擎服務商認為網站Robots協議設置不合理時,應先向網站服務商或所有者提出書面修改Robots協議的請求,網站服務商或所有者不同意修改Robots協議的,應在合理的期限內,書面、明確的提出其拒絕修改的合理理由,如搜尋引擎服務商認為網站服務商或所有者提出的合理理由不成立的,雙方可以由相關行業協會調解和裁決,緊急情況下可以採取諸如訴訟、申請行為保全等法律措施予以解決。」

「在判決書的第五條,法院判百度必須修改Robots協議,而百度要求法院禁止360抓取百度內容的要求被否決。」——360官方微博公布的內容

最終,法院的判決結果值得玩味,「北京一中院一審判決認定,被告奇虎公司的行為違反了反不正當競爭法第二條的規定,應當承擔相應的民事責任。被告自其搜尋引擎推出伊始至《自律公約》籤訂之日期間的行為已經構成不正當競爭,應對原告予以賠償。」

「由於兩原告並未指出被告的不當行為給兩原告造成了何種商業信譽上的損失,故而兩原告要求被告消除影響的訴訟請求缺乏事實和法律依據,法院不予支持。據此,法院一審判決奇虎賠償百度經濟損失及合理支出共計人民幣70萬元,駁回百度公司的其他訴請。」

一方面360告知百度快照的抓取和複製已經在開庭前早已停止,因此無必要判決被告停止不正當競爭行為;另一方面,未來360是否真的可以繼續抓取百度網站的數據。結合以上新聞報導摘錄的信息,最終還是需要具體看判決全文。

至於70萬元的賠償損失,主要還是認定在特定時期內360的行為(如抓取、複製百度快照的行為)已經構成不正當競爭。

依據的是我國《反不正當競爭法》第二條,原則性條款。可見網際網路競爭領域的複雜性,往往求救於「原則」來判案。微主認為,在確實沒有具體規則可以適用時,法官不得逃避判決的職責,援引作為規則的原則是完全可以的;如同之前北京二中院獨創的網際網路企業之間遵循的另外一個原則——公益不幹預必要性原則)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

相關焦點

  • 匯率報復案下的中美2005:與貿易大戰擦肩而過
    匯率報復案的陰影始終驅之不散。  2005年4月份,美國參議員舒默提出「匯率報復案」,中美之間的貿易大戰一觸即發。面對美國高懸起「實施懲罰性關稅27.5%」的「大棒」,中國政府在事態不確定的情形下,經多次與美國政府談判與協商,最終阻止了最壞結果的出現。
  • 有人利用「爬蟲」技術騙取你的帳號密碼
    對於利用「爬蟲」技術實施的網絡犯罪,法院如何準確認定犯罪性質,對犯罪行為嚴厲打擊的?一起來看吧!小科普:網絡爬蟲(也叫網頁蜘蛛,網絡機器人),是指一種按照一定的規則,自動地抓取全球資訊網信息的程序或者腳本。
  • 瀏覽器大戰另類升級:統計數據相互打架
    但這也從另一個側面反映出瀏覽器大戰正在日漸升溫。 以下為文章全文: 數據爭議 新一輪瀏覽器大戰硝煙再起,這一次,統計數據成了焦點:微軟和谷歌,究竟誰的瀏覽器最受全球用戶歡迎? 在上世紀90年代的第一輪瀏覽器大戰爆發前,監測網際網路流量要容易得多。據納森·紐曼(Nathan Newman)回憶,彼時的IE開始挑戰市場領頭羊網景,並最終獲得成功。紐曼擁有社會學博士學位,目前任職於網際網路消費者團體NetAction,專門 研究瀏覽器市場份額。「上世紀90年代之前,網絡比現在要簡單得多,當時一臺電腦裝一款瀏覽器。」他說,「所以很容易追蹤人們使用什麼瀏覽器。」
  • "杭蕭鋼構案"被稱為"中國牛市內幕交易第一案"-中國法院網
    來源:人民法院報 | 作者:周楊 陳藝尹   案情簡介  2006年11月,浙江杭蕭鋼構股份有限公司(以下簡稱杭蕭鋼構公司)與中國國際基金有限公司
  • 爬蟲最愛扒的50家網站:一份赤裸裸的《中國焦慮圖鑑》
    正好在上周末,一位黑客盆友御風神秘兮兮地給我發來一份《中國爬蟲圖鑑》,這哥們在騰訊雲鼎實驗室主要負責加班,順便和同事們開發了很多黑科技。比如他們搞了一個威脅情報系統,號稱能探測到全世界的「爬蟲」都在做什麼。我吹著口哨打開《圖鑑》,但一分鐘以後,我整個人都不好了。
  • 網絡小爬蟲莫墮落成小扒手
    數日後,公信寶的運營公司杭州存信數據科技有限公司被公安機關查封,聚信立的運營公司上海誠數信息科技有限公司下發暫停爬蟲業務的通知。此輪監管風暴正值2019年國家網絡安全宣傳周9月16日開幕的前夕。中央網信辦官員楊春豔披露,截至目前,已收到8000條針對APP違法違規收集使用個人信息的舉報,其中實名舉報佔到近1/3。
  • Python爬蟲是什麼意思有啥用 python爬蟲原理實例介紹
    據華為中國官方消息,今日,華為中國發文《小白看過來,讓Python爬蟲成為你的好幫手》,文中詳細介紹了Python爬蟲的工作原理,我們來看一下吧。  以下為《小白看過來,讓Python爬蟲成為你的好幫手》全文:  隨著信息化社會的到來,人們對網絡爬蟲這個詞已經不再陌生。
  • 我們要降伏「爬蟲腦」
    為什麼我們要降伏「爬蟲腦」呢?因為「爬蟲腦」控制著人的第一反應。我們只要把第一反應不要讓「爬蟲腦」來控制就成功了。「爬蟲腦」有哪些缺點?一、恐懼「爬蟲腦」的特點就是「恐懼」。很多人常說的一句話就是「沒有安全感」,其實這種心理的來源是「爬蟲腦」。只要切斷「爬蟲腦」的連接和控制。我們的感覺就會馬上好起來。不再情緒化。二、衝動有人說:「衝動是魔鬼」。其實衝動也來源於「爬蟲腦」。很多人在生氣時使用數數的方法,通過從1數到10,或是一直數下去。真正衝動的情緒降下來。不使它產生讓自己後悔的結果。
  • Python爬蟲和反爬蟲的鬥爭
    在抓取對方網站、APP 應用的相關數據時,經常會遇到一系列的方法阻止爬蟲。網站APP們這麼做的原因,一是為了保證服務的質量,降低伺服器負載,二是為了保護數據不被獲取。爬蟲與反爬蟲的鬥爭經久不衰,這裡神龍IP給大家分享一些常見的反爬蟲手段。
  • 網貸領域爬蟲,既非原罪者也非無辜者
    現有的各種網絡報導51信用卡事件時,大量提及非法爬蟲,卻未明確到底什麼是非法爬蟲,非法又體現在何處,讓爬蟲從業者手足無措。本文以51信用卡為例,試圖揭開大眾頻頻提及卻似懂非懂的爬蟲在網貸領域的神秘面紗。下面討論將分為兩個部分:第一部分是在明確爬蟲概念的基礎上,澄清爬蟲背負的莫須有的三大類刑法罪名;第二部分是在我國法律體系下來探討,形式合規的爬蟲自身切實帶來的法律問題。
  • 粉絲無感票房慘澹,全球第一IP星球大戰中國市場失靈
    來源:一財網星球大戰系列又一次在中國折戟。12月20日與北美同步上映的《星球大戰9:天行者崛起》,上映四天票房未能破億,10.4%的排片率位列同檔期第五。對於一部預算在2.5億~3億美元的商業巨製而言,它在全球第二大電影市場的表現著實慘澹。1999年,中國觀眾首次在大銀幕上觀看星球大戰,是前傳三部曲中的第一部《幽靈的威脅》。
  • 3B大戰第一回合:百度小輸當贏,360小贏當輸
    虎嗅請前搜狗網頁搜索效果負責人郭昂來做第一階段的小結與點評。  以下為全文:  360搜索上線已經有了半個月,360和百度雙方在這半個月中已經經歷了數次交手,我也來對這場交鋒做一個小小的總結。  打法篇  百度  百度在這場大戰中,因為是流量損失方,所以針對360搜索進行了強力的反擊,打法頗具有進攻性,主要的戰法包括:  ●通過自有的社區產品(百科、知道、貼吧、文庫等)進行防禦,先是對來自於360的流量全部加上提示,建議使用百度搜索,此後更是直接跳轉至首頁。
  • 爬蟲究竟是合法還是違法的?
    來源:格隆匯作者:純潔的微笑來源:純潔的微笑據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程式設計師因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲究竟是合法還是違法的?
  • Python開發簡單爬蟲【學習資料總結】
    一、簡單爬蟲架構 簡單爬蟲架構 運行流程
  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?網絡爬蟲是一種網際網路機器人,它通過爬取網際網路上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用於自動從Internet上獲取任何信息或數據。機器人掃描並抓取每個所需頁面上的某些信息,直到處理完所有能正常打開的頁面。
  • 「中國公務員色盲歧視第一案」長沙開庭
    湖南公務員考生將省地勘局和省公務員局告上法庭,被稱為「中國公務員色盲歧視第一案」,昨日開庭但未當庭宣判     何朝霞 圖  星辰在線-長沙新聞網4月7日訊(長沙晚報記者 邱釗)2010年,婁底市民劉雲(化名)在全省公務員考試中以綜合第一的成績通過了湖南省地質礦產勘探開發局
  • 擺脫「爬蟲腦」的控制
    也許他不明白,在那一刻他顯然被「爬蟲腦」控制了全部行為。「爬蟲腦」是什麼?其實它還有一個我們都知道的名字——腦幹。之所以叫做「爬蟲腦」,是因為它在大腦進化過程中處於第一階段,早在兩億五千萬年前就停止了進化。因此人類的腦幹和所有爬蟲類的大腦,本質上並無區別。它衝動並帶有強迫性,只負責維持生存的基本功能,像呼吸、心跳、進食、逃命、躲避等本能反應。
  • 玩「爬蟲」可能觸犯的三宗罪
    X公司的一名員工自行開發了一個爬蟲軟體,利用這家快遞公司給的權限密碼登錄後臺系統,抓取了後臺25萬條用戶信息。 這個案件被發現後,開發爬蟲軟體的員工被定為主犯抓捕,公司法人被定為從犯一起抓捕。公司法人沒有參與這件事,不是第一責任人,但仍然是責任關係方。從判刑上來看,主犯是3-7年量刑,從犯是1-2年量刑。可見,數據安全的問題是涉及全行業的,不僅限於金融科技領域。
  • 網絡爬蟲正成為中國私募機構獲取超額收益的下一個來源
    迄今,在以華爾街為中心的全球股票市場中,機構投資者通過網絡爬蟲技術獲取領先數據,進而贏得收益戰爭的現象已越來越普遍。就中國市場而言,通過藥師的走訪調研得知,中國私募機構們運用爬蟲技術的現象亦正日趨增多。其中主力,則多為那些此前率先涉事量化交易的私募機構們。這類爬蟲私募是如何運作的,藥師這就為你揭示。