蟲王Google是如何索引頁面,如何工作的
當談及表單時,讓我們]來看下它是如何影響產品增長的。想像下,如果 Google的創始人在創建其引擎的第一個版本時,包含了個每名網站管理員都需要填寫的表單,要求他們把網站中每一頁的文字都複製粘貼過來。然後,他們]需要接受許可協議,允許G。oge處理、存儲和展示他們的內容,並剔除大部分廣告利潤。你能想像解釋該想法並說服人們參與這一過程所需花費的時間和精力會有多大嗎?即使市場非常渴望一個優秀的搜尋引擎(事實正是如此),這個引擎也不會是Goge,因為它的增長過於緩慢。即使是最複雜的算法,也不能彌補數據的缺失。 Google使用網絡爬蟲技術,在頁面間跳轉連結,填充其龐大的資料庫。網站管理員則不需要做任何事情。實際上,反而還需要一些努力才能阻止Goge索引你的頁面。
雖然 Google使用表單的想法聽起來有些荒謬,但是一個典型的網站需要用戶填寫多少表單呢?登錄表單、新房源表單、結帳表單,等等。這些表單中有多少會阻礙應用增長呢?如果你充分了解你的受眾瘩客戶,很可能已經擁有關於他們通常使用並且很可能已經有帳號的其他網站的線索了。比如,一個開發者很可能擁有 Stack Overflow和 Github的帳號。那麼,在獲得他們允許的情況下,你是否能夠抓取這些站點,只需他們提供給你用戶名,就能自動填充照片、簡介和一小部分近期文章呢?你能否對他們最感興趣的一些文章進行快速文本分析,並根據其調整網站的導航結構,以及建議的產品和服務呢?我希望你能夠看到如何使用自動化數據抓取替代表單,從而更好地服務你的受眾,增長網站規模。
數據分析的核心:發現並融入你的生態系統!
抓取數據自然會讓你發現並考慮與你付出相關的社區的關係。當你抓取一個數據源時,很自然地就會產生一些問題:我是否相信他們的數據?我是否相信獲取數據的公司?我是否需要和他們溝通以獲得更正式的合作?我和他們是競爭關係還是合作關係?從其他源獲得這些數據會花費我多少錢?無論如何,這些商業風險都是存在的,不過抓取過程可以幫助我們儘早意識到這些風險,並制定出緩解策略。
你還會發現自己想知道能夠為這些網站和社區帶來的回饋是什麼。如果你能夠給他們帶來免費的流量,他們應該會很高興。另一方面,如果你的應用不能給你的數據源帶來一些價值,那麼你們的關係可能會很短暫,除非乍你與他們溝通,並找到合作的方式。通過從不同源獲取數據,你需要準備好開發對現有生態系統更友好的產品,充分尊重已有的市場參與者,只有在值得努力時才可以去破壞當前的市場秩序。現有的參與者也可能會幫助你成長得更快,比如你有一個應用,使用兩到三個不同生態系統的數據,每個生態系統有10萬個用戶,你的服務可能最終將這30萬個用戶以一種創造性的方式連接起來,從而使每個生態系統都獲益。例如,你成立了一個初創公司,將搖滾樂與恤印花社區關聯起來,你的公司最終將成為兩種生態系統的融合,你和相應的社區都將從中獲益並得以成長。
請做一個網蟲爬蟲界的一個「好蟲」
當開發爬蟲時,還有一些事情需要清楚。不負責任的網絡爬蟲會令人不悅,甚至在某些情況下是違法的。有兩個非常重要的事情是免類似拒絕服務(DoS)攻擊的行為以及侵犯版權。對於第一種情況,一個典型的訪問者可能每幾秒訪問一個新的頁面。而一個典型的網絡爬蟲則可能每秒下載數十個頁面。這樣就比典型用戶產生的流量多出了10倍以上。這可能會使網站所有者非常不高興。請使用流量限速將你產生的流量減少到可以接受的普通用戶的水平。此外,還應該監控響應時間,如果發現響應時間增加了,就需要降低爬蟲的強度。好消息是 Scrap對於這些功能都提供了開箱即用的實現(後面會慢慢分享到)。
對於版權問題,顯然你需要看一下你抓取的每個網站的版權聲明,並確保你理解其允許做什麼,不允許做什麼。大多數網站都允許你處理其站點的信息,只要不以自己的名義重新發布即可。在你的請求中,有一個很好的 User-Agent欄位,它可以讓網站管理員知道你是誰,你用他們的數據做什麼。 Scrap在製造請求時,默認使用BOT NAME參數作為 User-Agent。如果 User-Agent是一個URL或者能夠指明你的應用名稱,那麼網站管理員可以通過訪問你的站點,更多地了解你是如何使用他們的數據的。另一個非常重要的方面是,請允許任何網站管理員阻止你訪問其網站的指定區域。對於基於Web標準的 robots txt文件(參見Google robots. txt的文件示例), Scrap提供了用於尊重網站管理員設置的功能( Robots txtmiddleware)。最後,最好向網站管理員提供一些方法,讓他們能說明不希望在你的爬蟲中出現的東西。至少網站管理員必須能夠很容易地找到和你交流及表達顧慮的方式。
本文由三秋道果分享,如有不當請聯繫三秋道果,不吝指出,謝謝~