你是如何用python寫下第一個爬蟲的?

2020-09-05 小笨鳥88

大家好,我是鳥哥,今天不聊技術,主要想給大家分享一下我在第一次python爬蟲之前的學習經歷,因為最近總是有朋友在問我到底怎麼才能快速入門python爬蟲,希望我的經歷能給初學者點啟發。

從接觸python到現在,也有三四年了,雖然算不上大牛,但也大大小小完成了數百個小項目,中間曾走過一些彎路,也曾有過迷茫,不過我感覺這些都是初學者的必經之路,畢竟學習總是痛苦的。

在我看來,python爬蟲入門少不了以下4個階段:

你要記住,沒有哪一門程式語言是輕輕鬆鬆就能學會的,雖然python相對簡單,但是也要下點功夫。

下面根據上圖詳細介紹一下我學習過程的4個階段:

1.初識python基礎

初次聽說python,是在大學的某次講座上,1位學長在講臺上侃侃而談,說他怎麼用python完成微信跳一跳的自動化測試腳本逗女朋友開心。說實話當時我心裡羨慕極了,暗暗下定決心要學習python。

我的第一本學習資料是《python編程:從入門到實踐》

感覺這本書很適合小白學習,它的第一部分從淺入深講解了python的基礎知識,從python的安裝到最終代碼的測試,非常簡單易懂,而且容易上手

作為小白中的小白,我連編輯器是什麼都不知道,就靠python自帶的IDLE敲完了整本書的代碼(真的是一行一行的敲的),耗時1個月,硬啃下python的基礎知識部分


(ps:現在覺得邊學邊敲代碼是很有用的,因為單看書的效果是不太好的,最重要的是動手實踐,只有實踐了,才會發現自己哪裡容易出錯,才會讓自己越學越有底氣)

學完後,已經能夠用python做1些簡單的題目,例如做個猜數字的小遊戲啊、計算少量的數據啊,但是整體還處於迷茫的狀態,不知道下一步還能幹些什麼。

2.鞏固基礎知識

學python的人對下面這張圖都不陌生,這就是經典的python遊戲《飛機大戰》

這是我第一個完成的python項目,也是對著書本一點一點敲的,雖然過程比較懵逼,但是當最後遊戲動起來的時候,內心還是非常興奮的,到處炫耀,開心的像個200斤的胖子。

其實寫這種遊戲項目對鞏固基礎知識是很有用的,雖然你敲代碼的時候很難受,因為有很多不懂的地方,但是這在無形之中提高了你的編程能力,能幫助你系統地鞏固之前學習的基礎知識。

建議剛入門python的朋友可以試一下,當然也可以採取其他方式練手。

3.學習爬蟲的基礎知識

上面3方面知識是你在學習爬蟲之前必須要了解掌握的,並不需要學的很深,如果僅僅為了入門爬蟲,只需了解個大概就行,後續真正搞懂爬蟲原理之後可以再深入學習一下。

學HTTP和HTML5是很有意思的,我當時學著學著差點想轉行。

4.開始第一個爬蟲

學完基礎知識後,我特意在網上找了一個簡單的爬蟲教學視頻,是爬貼吧美女圖片的,老師講的很詳細,主要用到requests和Beatifulsoup庫,然後再加上之前學的爬蟲基礎知識,按照以下步驟,很容易就搞定了:

這是我總結的入門爬蟲基本流程,看起來還是很簡單的,但是裡面還要很多知識要學,不過邁出第一步後面就好辦了。

我覺得爬蟲的精髓在於分析數據接口,這也是爬蟲最難的地方。簡單的爬蟲,例如靜態網頁,只需1個固定的url就可以獲取數據;但是難的爬蟲,它的url由各種加密的參數組成,爬這種網站不僅要學python,還要學習JavaScript逆向分析,因為這些參數都是通過它來加密的,後面更難的還有APP逆向分析,不過這些都是後話了。

好了,今天就先聊到這了,都是個人學習過程中的一些感悟,感覺對你有幫助的,請點個「在看」;若有不當之處,請在後臺留言或者加我溝通交流。​

相關焦點

  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?
  • 小白如何入門 Python 爬蟲?
    本文針對初學者,我會用最簡單的案例告訴你如何入門python爬蟲!想要入門Python 爬蟲首先需要解決四個問題熟悉python編程了解HTML了解網絡爬蟲的基本原理學習使用python爬蟲庫一、你應該知道什麼是爬蟲
  • 零基礎小白如何快速入門python爬蟲?我用這篇文章告訴你
    python爬蟲!學習使用python爬蟲庫一、你應該知道什麼是爬蟲?剛開始入門爬蟲,你甚至不需要去學習python的類、多線程、模塊之類的略難內容。找一個面向初學者的教材或者網絡教程,花個十幾天功夫,就能對python基礎有個三四分的認識了,這時候你可以玩玩爬蟲嘍!
  • 如何開始寫你的第一個python腳本——簡單爬蟲入門!
    好多朋友在入門python的時候都是以爬蟲入手,而網絡爬蟲是近幾年比較流行的概念,特別是在大數據分析熱門起來以後,學習網絡爬蟲的人越來越多,哦對,現在叫數據挖掘了!其實,一般的爬蟲具有2個功能:取數據和存數據!好像說了句廢話。。。
  • Python爬蟲入門,快速抓取大規模數據
    大到各類搜尋引擎,小到日常數據採集,都離不開網絡爬蟲。爬蟲的基本原理很簡單,遍歷網絡中網頁,抓取感興趣的數據內容。這篇文章會從零開始介紹如何編寫一個網絡爬蟲抓取數據,然後會一步步逐漸完善爬蟲的抓取功能。
  • PythonPython100個練手項目|github|瀏覽器|爬蟲|python|斷點_網易...
    新浪微博爬蟲分享(一天可抓取 1300 萬條數據)    12. 新浪微博分布式爬蟲分享    13. python爬蟲教程,帶你從零到一    14. 豆瓣讀書的爬蟲    15. 鏈家網和貝殼網房價爬蟲    16.
  • python爬蟲系列教程,用python爬取全國範圍內的KFC店地址
    每到夜深人靜的時候,小編就開始肚子餓了,這時如果你在不熟悉的城市,想知道附近有沒有KFC店應該怎麼辦呢?下面羽憶教程教你會python爬取全國範圍內的KFC店地址,這是一篇python爬蟲系列的教程,簡單又能讓人填飽肚子。
  • python爬蟲100個入門項目
    11新浪微博爬蟲分享(一天可抓取 1300 萬條數據)12新浪微博分布式爬蟲分享13python爬蟲教程,帶你從零到一14豆瓣讀書的爬蟲15鏈家網和貝殼網房價爬蟲CSV 了解一下68python爬取 20w 表情包之後,從此你就成為了微信鬥圖屆的高手69python爬取你喜歡的公眾號的所有原創文章,然後搞成PDF慢慢看70當 python 遇到你的微信的時候,你才發現原來你的微信好友是這樣的71高考要來了
  • Python爬蟲技術路線?
    原標題:Python爬蟲技術路線?     對於初學者而言,Python爬蟲的技術路線應該怎麼取捨?     首先展示一下如何用python爬蟲requests庫進行爬取,requests庫是python爬蟲最基礎也必須掌握的庫。
  • 一節課教你用 python 搞定圖片爬蟲
    —— 網站上看到了大量好看的圖片再也不用右鍵另存為了針對人群:對 python 感興趣的零基礎的童靴~有一定基礎想深入了解 python 的童靴~>涉及知識:網絡爬蟲的本質http 協議requests 庫收穫:認識網絡爬蟲的本質,掌握爬蟲的基本開發流程,了解網際網路數據傳輸的基本原理。
  • Python爬蟲是如何從入門到入土的。(1)
    我要分享的是我對python爬蟲的方向發展的研究。首先從爬蟲大小來分類:最小的網頁爬蟲:對於我而言這類爬蟲能解決我實際生活中百分之90的問題。爬蟲的爬取的範圍更大。這也是個人能用到的最強的爬蟲了。超級爬蟲:類似於百度搜尋引擎也是大眾印象中的爬蟲。這類爬蟲只能是定製開發多人合作才能成功。相信大家都看見了標題。python爬蟲只是python眾多應用的一小部分。而爬蟲的學習我以網頁爬蟲為例來告訴大家需要學習哪些知識。爬蟲的爬對象的網頁。
  • python 爬蟲如何突破登錄驗證
    我用 python 做爬蟲爬過不少數據,比如在 google play 爬應用信息;在 instragram, 500px 爬圖片;當然爬蟲的作用不止於此,比如定時去某個網站籤到,媽媽再也不用擔心我忘記籤到了這些網站支持遊客訪問,但要訪問特定內容,比如你收藏的圖片,或者要籤到,那前提是要登錄。
  • 師範學院教授教你,用python玩爬蟲的基礎知識,全是乾貨
    用python爬蟲爬取網頁HTML這應該很多人常用的爬取數據的方法,這裡我以爬取壁紙網站為例。玩python爬蟲,首先,你要先確定需要爬取的網站假設要爬取這個網站的壁紙HTML爬取的基礎內容大致就是這麼多,可以結合更多的python爬蟲案例項目操作一下。
  • python爬蟲很強大,在爬蟲裡如何自動操控瀏覽器呢?
    概述:python通過selenium爬取數據是很多突破封鎖的有效途徑。但在使用selenium中會遇到很多問題,本文就通過一問一答的形式來通熟易懂的普及如何通過selenium執行javascript程序,進而獲取動態執行後的網頁。如果你喜歡,歡迎轉發本文。python爬蟲編程:用selenium執行javascript出錯了,該咋改?
  • @Python小白,一文讓你掌握Python爬蟲
    興趣我沒事喜歡逛知乎,有一段時間看到了這個問題:利用爬蟲技術能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx覺得回答的一個個炒雞酷炫就對爬蟲產生了濃厚的興趣,於是就開始了我的一路摸爬滾打
  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • python爬蟲-urllib、urllib2、requests三者關係
    只要人能看到的東西,理論上都是爬蟲可以獲取的。不論靜態頁面還是動態頁面。也不論pc端的頁面還是移動端的app。話有點大,但這就是本系列的目的。爬蟲編程,有很多語言可選,python、php、go、java···甚至是c。這裡我們選擇python作為爬蟲的程式語言,因為它簡單易上手,並且節約生命。
  • Python爬蟲入門(一):三種爬蟲模塊
    本來我是極其想用Java寫這個教程的(多用會,萬一以後就是Java程式設計師呢?),但是IDEA不提錯這毛病已經大半年了,Eclipse被我卸了,MyEclipse到期了,VScode倒是可以,但是它對jar包的引入比較迷……一言以蔽之就是懶,所以最後還是回到了python。
  • 細說小白學python爬蟲過程中常見的反爬措施及解決思路(乾貨)
    最近有很多朋友和我討論python爬蟲遇到的反爬措施及解決辦法,今天我就給大家分享一下自己在爬蟲過程中遇到的坑及解決思路,希望對大家有所幫助。​看不見的反爬措施一是加header頭部信息:什麼是header頭?
  • Python網絡爬蟲
    Python網絡爬蟲第一篇(一):為什麼要學習網絡爬蟲?大數據成為當今時代的熱門話題之一,在數據量爆發增長的網際網路時代,網站與用戶溝通實質為數據的交換。如果大量的數據得以分析,我們能夠對事件的看法,解決方案做出更好的決策。而網絡爬蟲技術,則是大數據分析領域的第一個環節。(二):能從網絡上爬取什麼數據?