Scrap優勢,為什麼能火
Scrap已經擁有超過5年的歷史了,成熟而又穩定。除了上一篇分享中提到的性能優勢外,還有下面這些能夠讓你愛上 Scrap的理由。Scrap能夠識別殘缺HTML你可以在 Scrap中直接使用 Beautiful Soup或Xm,不過 Scrap還提供了一種在m之上更高級的 XPath(主要)接口— selectors它能夠更高效地處理殘缺的HTM代碼和混亂的編碼。
●社區
Scrap擁有一個充滿活力的社區。只需要看看社區中的上千個問題就可以知道了。大部分問題都能夠在幾分鐘內得到回應更多社區資源可以官方社區中獲取到。社區維護的組織良好的代碼Scrap要求以—一種標準方式組織你的代碼。你只需編寫被稱為爬蟲和管道的少量 Python模塊,並且還會自動從引擎自身獲取到未來的任何改進。如果你在網上搜索,可以發現有相當多專業人士擁有Scrap經驗。也就是說,你可以很容易地找到人來維護或擴展你的代碼。無論是誰加入你的團隊,都不需要漫長的學習曲線,來理解你的自定義爬蟲中的特別之處。
●越來越多的高質量功能
如果你快速瀏覽發布日誌,就會注意到無論是在功能上,還是在穩定性/bug修復上Scrap都在不斷地成長。
我們的分享目標!
在分享的過程中,我們的目標是通過重點示例和真實數據集教你使用Scrap。大部分我們將專注於爬取一個示例的房屋租賃網站。我們選擇這個例子,是因為它能夠代表大多數的網站爬取項目,既能讓我們介紹感興趣的變動,又不失簡單。以該示例為主題,可以幫助我們聚焦於 Scrap,而不會分心。我們將從只運行幾百個頁面的小爬蟲開始,最終在八九月份中使用幾分鐘的時間,將其擴展為能夠處理5萬個頁面的分布式爬蟲。在這個過程中,我們將向你介紹如何將 Scrap與 MySQL、 Redis和Elasticsearch等服務相連接,使用 Google的地理編碼AP找到我們示例屬性中的位置坐標,以及向 Apache Spark提供數據用於預測最影響房價的關鍵詞。
你需要做好反覆閱讀每篇文章的準備。你可能需要從上一講開始,先理解其架構。然後閱讀一到兩講,仔細學習、實驗一段時間,再進入後面的分享。如果你覺得自己已經熟悉了某一部分的內容,那麼跳過這一講也無需擔心。尤其是如果你已經了解HTML和 XPath,那麼就沒有必要花費太多時間在接下來的幾講上面了。不用擔心,對你來說我們後面分享的還有很多需要學習的內容。一些分享,比如7月份,將參考書和教程的元素結合起來,深入編程概念。這就是一個例子,我們可能會閱讀某一篇文章幾次,在這中間允許我們有幾個星期的時間實踐 Scrap。你在繼續閱讀後續的分享,比如以應用為主的分享之前,不需要完美掌握第前面分享的內容。閱讀後續的內容,有助於你理解如何使用編程概念,如果你願意的話,可以回過頭來反覆閱讀幾次為我們的分享既有趣,又對初學者友好。不過我們不會把握重點放在教授 Python。對於這一主題目前已經有了很多優秀的教程,不過我更加建議的是以一種輕鬆的心態來學習。 Python如此流行的一個理由是因為它比較簡單、整潔,並且閱讀起來更近似於英文。 Scrap是一個高級框架,無論是初學者還是專家,都需要學習。你可以將其稱之為" Scrap語言」。因此,我會推薦你通過材料來學習 Python,如果你發覺自己對於 Python的語法比較迷惑,那麼可以通過一些 Python的在線教程。請放心,即使你不是Python專家,也能夠成為一名優秀的 Scrap開發者。
本文由三秋道果分享,如有不當請聯繫三秋道果,不吝指出,謝謝