不用Python,Excel輕鬆抓取豆瓣TOP250

2021-01-07 Excel函數編程可視化

之前寫了篇Python批量爬取網頁數據的文章,後來發現Excel隨著版本的迭代,已經完全支持多頁面抓取數據了,不用擼代碼,點點滑鼠就能抓取數據,讓我們一起看看吧~

網頁解析

在抓取數據之前,先對網頁進行一下解析,下圖中是豆瓣TOP250初始頁面,拉到最底部可以發現一共有10個頁面,每個頁面25部電影,一共250部電影。

我們依次獲取前三個頁面的網址可以發現它們之間的規律,每個網址除了中間的數字,其它地方都是一樣的,數字從0/25/50,以25遞增(每個頁面的電影數),一共10個頁面。

發現規律之後,我們將10個頁面之間的數字存儲在一張表中備用,下圖A列所示,留存備用。

數據抓取

Excel2016及其以上版本內嵌了從Web批量抓取的功能(「數據」—「新建查詢」—「從其它源」—「從Web」),案例演示的版本未達到,所以我下載了一個Power BI Desktop(Excel延伸產品),免費安裝免費使用,效果同Excel,不用擔心不會使用,會用Excel就會操作。

打開Power BI Desktop或者Excel,點擊【獲取數據】—【Web】(Excel2016及以上版本在「數據」—「新建查詢」—「從其它源」—「從Web」)

界面設置:

點擊高級之後,URL部分,點擊「添加部件」,一共三個框,將豆瓣TOP250首頁網址以數字0為分隔,分成三段,分別放置於三個框內,如下圖所示:

可以發現,在URL預覽框內會自動顯示完整的網址,點擊確定,完成設置。

導航器界面

之後程序會進入抓取數據狀態,稍等會兒,跳出「導航器」界面,左側有一張表「表1」,勾選之後,右側展示表明細數據,可以發現就是豆瓣TOP250的首頁面的25部電影;

一共有抓取了9個欄位,包括序列號、電影名、評分、評價人次、電影簡介等信息,有部分列是不需要的,我們進入Power Query界面進行刪除,點擊底部的「轉換數據」進入Power Query界面。

Power Query數據編輯

進入Power Query界面之後,只保留序號、評分、電影名、評價人次四列,其餘列皆做刪除處理,刪除之後,分別對四列數據進行重命名。動圖展示如下:

設置自定義函數

依次點擊【主頁】—【高級編輯器】,在彈出的界面中,在字母「let」前輸入以下代碼:

(p as number) as table =>

接著將第三行代碼中的數字【「0」】替換為【(Number.ToText(p))】,如下圖所示:

(Number.ToText(p))

完成以上兩步的設置後,點擊「確定」,可以發現原先的表1變成了函數樣式,fx 表1,其中p是函數參數,控制頁碼,如輸入25,即可獲得TOP250第二個頁碼電影列表的數據。

批量調用,批量抓取數據

接著點擊【新建源】—【Excel】,選擇第一步留存備用的Excel表格,導入之後,點擊【添加列】—【調用自定義函數】,下拉功能查詢選擇【表1】,點擊確定。

界面會彈出一個警告框【要求與數據隱私有關的信息】,點擊【繼續】,勾選【忽略此文件的隱私級別檢查。……】,點擊【保存】之後,程序進入頁面抓取階段。

由於抓取頁面較多,程序需要運行一段時間,十幾秒之後,數據抓取完畢,一共十個頁面,存儲在10張表中,點擊欄位【表1】,勾選【展開】,TOP250信息皆展示在表中。

此時數據還在Power Query中,點擊【開始】—【關閉並上載】將數據加載到Excel當中,完成數據爬取。

小結

不會擼代碼的我們,曾對數據爬取望而生畏,隨著ExcelBI工具的豐富,數據抓取也將變得簡單化,快去嘗試下吧~

如果你沒有安裝高版本的Excel,不妨試著安裝下Power BI Desktop,十分方便,不用註冊,打開就可以使用,應用商店Microsoft store搜Power BI Desktop下載即可。

相關焦點

  • 不會 Python 沒關係,手把手教你用 web scraper 抓取豆瓣電影 top 250 和 b 站排行榜
    ,一般使用Python是很方便的,不過如果你還不會推薦使用Chrome擴展 web scraper,下面就分別用Python和 web scraper 抓取豆瓣電影top 250 和b站排行榜的數據。Python 抓取豆瓣電影打開豆瓣電影top 250 主頁 https://movie.douban.com/top250我們需要抓取電影標題,排行,評分,和簡介,python  抓取數據的步驟一般為請求網頁,解析網頁,提取數據和保存數據,下面是一段簡單的Python代碼。
  • Python爬蟲經典案例詳解:爬取豆瓣電影top250寫入Excel表格
    For循環豆瓣頁面上有25部電影,而我們需要抓取每部電影的標題、導演、年份等等信息。就是說我們要循環25次,操作每一部電影。for item in soup.find_all('div',"info"):就是這個意思。首先我們在豆瓣電影頁面任意電影標題【右鍵-檢查】(比如「肖申克的救贖」),打開Elements元素查看器。
  • python爬蟲—豆瓣電影top250及數據可視化!
    豆瓣電影top250榜單想必大家都不陌生,上榜的電影都是經過時間的沉澱留下來比較經典。本次教程就是利用requests庫實現對於top250榜單電影數據爬取,並對爬取的數據繪製圖表進行可視化,做簡單的數據分析。文章將分為兩個部分:top250數據爬蟲和數據可視化。
  • Python爬蟲獲取豆瓣電影並寫入excel
    這篇文章主要介紹了Python爬蟲獲取豆瓣電影並寫入excel ,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值
  • Python爬蟲數據抓取方法匯總!所有方法都在此!
    1、python進行網頁數據抓取有兩種方式:一種是直接依據url連結來拼接使用get方法得到內容,一種是構建post
  • 文職美女上班手動用Excel表格太麻煩,當學會python後easy操作
    通過程序操作excel表格是編程中比較常見的操作,python本身不能直接操作excel,需要安裝第三方的模塊來實現excel的操作。Python中可以操作excel模塊主要有:1、xlrd 模塊實現exlcel表格讀取2、xlwd 模塊實現excel表格創建和寫入3、pandas模塊也可以實現excel常規操作
  • Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP
    SnowNLP是咋們中國人受到了TextBlob的啟發後開發的python類庫,能夠非常方便的處理中文文本內容,劃重點方便處理中文的類庫!!!,類庫中的算法和訓練好的字典都已經準備好了。唯一需要注意的是要使用unicode編碼,所以使用時請自行decode成unicode。知道這個SnowNLP是什麼之後,我們開始設計下實驗方案。
  • 一次性看完【豆瓣電影Top250】
    一部電影或電視劇好不好看,豆瓣評分是個重要的指標。而一部豆瓣評分8分以上的電影,就一定不會太差。
  • 這款Chrome 插件就能幫你完成網頁抓取
    比如抓取各大網站的排行榜、抓取各大購物網站的價格信息等。而我們日常用的搜尋引擎就是一個個『網絡爬蟲』。但畢竟學習一門語言的成本太高了,有什麼辦法可以不學 Python 也能達到目的呢?當然有,藉助 Chrome 瀏覽器的《Web Scraper》插件,讓你在不用寫代碼的情況下,就能快速抓取海量內容。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    想要入門Python 爬蟲首先需要解決四個問題:1.熟悉python編程2.了解HTML3.了解網絡爬蟲的基本原理4.學習使用python爬蟲庫1、熟悉python編程剛開始入門爬蟲,初學者無需學習python的類,多線程,模塊和其他稍微困難的內容。
  • 零基礎學習python GUI編程(PyQt)系列之6:用pandas操作excel
    通過前面的介紹,我們已經了解了對兩個文本文件如何進行比較,今天我們將其換成excel表格文件,對excel文件中的學生成績進行排名。我們都知道,如果直接使用excel表格中的公式對學生的總成績進行排名的話使用的是RANK公式,例如在相應的表格文件中輸入"=RANK(E2,$E$2:$E$1000)「就可以對E列的第二行到第1000行的數據進行排名了。
  • 如何在Visual Studio中創建excel並讀取數據
    >xlrd技術pythondjangoexcel在Visual Studio開發工具中,創建python項目,然後安裝xlwt和xlrd第三方庫,使用xlwt創建excel文件並寫入數據,使用xlrd讀取excel文件中的數據。
  • Python到底是個啥?為什麼這麼多人都要學?
    Python是一種跨平臺的電腦程式設計語言,一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本,具有豐富和強大的庫,Python語言的核心只包含數字、字符串、列表、字典、文件等常見類型和函數,它常被暱稱為膠水語言,能夠把用其他語言製作的各種模塊(尤其是C/C++)很輕鬆地聯結在一起。
  • Python爬蟲學習:抓取電影網站內容的爬蟲
    點擊藍字「python
  • 不用代碼玩轉爬蟲實例(1) - 抓取貓眼電影信息
    有很多朋友在日常的工作生活當中需要抓取網頁上的信息,進行相關的行業分析或者準備資料、報告使用。
  • 如何用Python讀取Excel中圖片?
    地址如下:http://pypi.douban.com/simple/ 豆瓣http://mirrors.aliyun.com/pypi/simple/ 阿里http://pypi.hustunique.com/simple/ 華中理工大學http://pypi.sdutlinux.org
  • 上映26年後,周星馳的《九品芝麻官》終於進入「豆瓣電影top250」
    《九品芝麻官》登上豆瓣top250,經歷了整整26年而今天要跟大家說的這部電影,也是周星馳眾多作品裡最被低估的存在。可是經過26年之後,終於在今年強勢殺入豆瓣top250榜單,它就是《九品芝麻官》。這部影片的內容,其實不用小編過多的介紹,喜歡周星馳電影的小夥伴們一定是看過這部電影的。
  • 會Python的人,在職場將非常搶手
    去年,公司做新品投放測試時,echo用python爬蟲抓取了競品資料和市場數據,分析出不同價格產品的銷售情況、不同產品和市場的關係。用python獲取市場分析表敲幾行代碼電腦就會自動找到產品的數據資料,還能自動繪製成,整個過程5分鐘都不用。
  • 騰訊視頻 Python 爬蟲項目實戰
    需求:經常在騰訊視頻上看電影,在影片庫裡有一個"豆瓣好評"板塊。我一般會在這個條目下面挑電影。但是電影很多,又缺乏索引,只能不停地往下來,讓js加載更多的條目。然而前面的看完了,每次找新的片就要拉很久。所以用爬蟲將"豆瓣好評"裡的電影都爬下來整理到一個表中,方便選片。
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    Python爬蟲是由Python程序開發的網絡爬蟲(webspider,webrobot),是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據,也就是自動抓取數據。為什麼需要用爬蟲?你可以想像一個場景:你在微博上崇拜一個名人,被他的微博迷住了。你要把他這十年微博裡的每一句話都摘抄下來。這個時候你會怎麼做?