不用Python,Excel輕鬆抓取豆瓣TOP250

2021-01-07 Excel函數編程可視化

之前寫了篇Python批量爬取網頁數據的文章，後來發現Excel隨著版本的迭代，已經完全支持多頁面抓取數據了，不用擼代碼，點點滑鼠就能抓取數據，讓我們一起看看吧~

網頁解析

在抓取數據之前，先對網頁進行一下解析，下圖中是豆瓣TOP250初始頁面，拉到最底部可以發現一共有10個頁面，每個頁面25部電影，一共250部電影。

我們依次獲取前三個頁面的網址可以發現它們之間的規律，每個網址除了中間的數字，其它地方都是一樣的，數字從0/25/50，以25遞增（每個頁面的電影數），一共10個頁面。

發現規律之後，我們將10個頁面之間的數字存儲在一張表中備用，下圖A列所示，留存備用。

數據抓取

Excel2016及其以上版本內嵌了從Web批量抓取的功能（「數據」—「新建查詢」—「從其它源」—「從Web」），案例演示的版本未達到，所以我下載了一個Power BI Desktop（Excel延伸產品），免費安裝免費使用，效果同Excel，不用擔心不會使用，會用Excel就會操作。

打開Power BI Desktop或者Excel，點擊【獲取數據】—【Web】（Excel2016及以上版本在「數據」—「新建查詢」—「從其它源」—「從Web」）

界面設置：

點擊高級之後，URL部分，點擊「添加部件」，一共三個框，將豆瓣TOP250首頁網址以數字0為分隔，分成三段，分別放置於三個框內，如下圖所示：

可以發現，在URL預覽框內會自動顯示完整的網址，點擊確定，完成設置。

導航器界面

之後程序會進入抓取數據狀態，稍等會兒，跳出「導航器」界面，左側有一張表「表1」，勾選之後，右側展示表明細數據，可以發現就是豆瓣TOP250的首頁面的25部電影；

一共有抓取了9個欄位，包括序列號、電影名、評分、評價人次、電影簡介等信息，有部分列是不需要的，我們進入Power Query界面進行刪除，點擊底部的「轉換數據」進入Power Query界面。

Power Query數據編輯

進入Power Query界面之後，只保留序號、評分、電影名、評價人次四列，其餘列皆做刪除處理，刪除之後，分別對四列數據進行重命名。動圖展示如下：

設置自定義函數

依次點擊【主頁】—【高級編輯器】，在彈出的界面中，在字母「let」前輸入以下代碼：

(p as number) as table =>

接著將第三行代碼中的數字【「0」】替換為【(Number.ToText(p))】,如下圖所示：

(Number.ToText(p))

完成以上兩步的設置後，點擊「確定」，可以發現原先的表1變成了函數樣式，fx 表1，其中p是函數參數，控制頁碼，如輸入25，即可獲得TOP250第二個頁碼電影列表的數據。

批量調用，批量抓取數據

接著點擊【新建源】—【Excel】，選擇第一步留存備用的Excel表格，導入之後，點擊【添加列】—【調用自定義函數】，下拉功能查詢選擇【表1】，點擊確定。

界面會彈出一個警告框【要求與數據隱私有關的信息】，點擊【繼續】，勾選【忽略此文件的隱私級別檢查。……】，點擊【保存】之後，程序進入頁面抓取階段。

由於抓取頁面較多，程序需要運行一段時間，十幾秒之後，數據抓取完畢，一共十個頁面，存儲在10張表中，點擊欄位【表1】，勾選【展開】，TOP250信息皆展示在表中。

此時數據還在Power Query中，點擊【開始】—【關閉並上載】將數據加載到Excel當中，完成數據爬取。

小結

不會擼代碼的我們，曾對數據爬取望而生畏，隨著ExcelBI工具的豐富，數據抓取也將變得簡單化，快去嘗試下吧~

如果你沒有安裝高版本的Excel，不妨試著安裝下Power BI Desktop，十分方便，不用註冊，打開就可以使用，應用商店Microsoft store搜Power BI Desktop下載即可。

相關焦點

不會 Python 沒關係,手把手教你用 web scraper 抓取豆瓣電影 top 250 和 b 站排行榜

，一般使用Python是很方便的，不過如果你還不會推薦使用Chrome擴展 web scraper，下面就分別用Python和 web scraper 抓取豆瓣電影top 250 和b站排行榜的數據。Python 抓取豆瓣電影打開豆瓣電影top 250 主頁 https://movie.douban.com/top250我們需要抓取電影標題，排行，評分，和簡介，python 抓取數據的步驟一般為請求網頁，解析網頁，提取數據和保存數據，下面是一段簡單的Python代碼。
Python爬蟲經典案例詳解:爬取豆瓣電影top250寫入Excel表格

For循環豆瓣頁面上有25部電影，而我們需要抓取每部電影的標題、導演、年份等等信息。就是說我們要循環25次，操作每一部電影。for item in soup.find_all('div',"info"):就是這個意思。首先我們在豆瓣電影頁面任意電影標題【右鍵-檢查】（比如「肖申克的救贖」），打開Elements元素查看器。
python爬蟲—豆瓣電影top250及數據可視化!

豆瓣電影top250榜單想必大家都不陌生，上榜的電影都是經過時間的沉澱留下來比較經典。本次教程就是利用requests庫實現對於top250榜單電影數據爬取，並對爬取的數據繪製圖表進行可視化，做簡單的數據分析。文章將分為兩個部分：top250數據爬蟲和數據可視化。
Python爬蟲獲取豆瓣電影並寫入excel

這篇文章主要介紹了Python爬蟲獲取豆瓣電影並寫入excel ,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值
Python爬蟲數據抓取方法匯總!所有方法都在此!

1、python進行網頁數據抓取有兩種方式：一種是直接依據url連結來拼接使用get方法得到內容，一種是構建post
文職美女上班手動用Excel表格太麻煩,當學會python後easy操作

通過程序操作excel表格是編程中比較常見的操作，python本身不能直接操作excel，需要安裝第三方的模塊來實現excel的操作。Python中可以操作excel模塊主要有：1、xlrd 模塊實現exlcel表格讀取2、xlwd 模塊實現excel表格創建和寫入3、pandas模塊也可以實現excel常規操作
Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP

SnowNLP是咋們中國人受到了TextBlob的啟發後開發的python類庫，能夠非常方便的處理中文文本內容，劃重點方便處理中文的類庫！！！，類庫中的算法和訓練好的字典都已經準備好了。唯一需要注意的是要使用unicode編碼，所以使用時請自行decode成unicode。知道這個SnowNLP是什麼之後，我們開始設計下實驗方案。
一次性看完【豆瓣電影Top250】

一部電影或電視劇好不好看，豆瓣評分是個重要的指標。而一部豆瓣評分8分以上的電影，就一定不會太差。
這款Chrome 插件就能幫你完成網頁抓取

比如抓取各大網站的排行榜、抓取各大購物網站的價格信息等。而我們日常用的搜尋引擎就是一個個『網絡爬蟲』。但畢竟學習一門語言的成本太高了，有什麼辦法可以不學 Python 也能達到目的呢？當然有，藉助 Chrome 瀏覽器的《Web Scraper》插件，讓你在不用寫代碼的情況下，就能快速抓取海量內容。
初學者如何用「python爬蟲」技術抓取網頁數據?

想要入門Python 爬蟲首先需要解決四個問題：1.熟悉python編程2.了解HTML3.了解網絡爬蟲的基本原理4.學習使用python爬蟲庫1、熟悉python編程剛開始入門爬蟲，初學者無需學習python的類，多線程，模塊和其他稍微困難的內容。
零基礎學習python GUI編程(PyQt)系列之6:用pandas操作excel

通過前面的介紹，我們已經了解了對兩個文本文件如何進行比較，今天我們將其換成excel表格文件，對excel文件中的學生成績進行排名。我們都知道，如果直接使用excel表格中的公式對學生的總成績進行排名的話使用的是RANK公式，例如在相應的表格文件中輸入"=RANK(E2,$E$2:$E$1000)「就可以對E列的第二行到第1000行的數據進行排名了。
如何在Visual Studio中創建excel並讀取數據

>xlrd技術pythondjangoexcel在Visual Studio開發工具中，創建python項目，然後安裝xlwt和xlrd第三方庫，使用xlwt創建excel文件並寫入數據，使用xlrd讀取excel文件中的數據。
Python到底是個啥?為什麼這麼多人都要學?

Python是一種跨平臺的電腦程式設計語言，一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本，具有豐富和強大的庫，Python語言的核心只包含數字、字符串、列表、字典、文件等常見類型和函數，它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊(尤其是C/C++)很輕鬆地聯結在一起。
Python爬蟲學習:抓取電影網站內容的爬蟲

點擊藍字「python
不用代碼玩轉爬蟲實例(1) - 抓取貓眼電影信息

有很多朋友在日常的工作生活當中需要抓取網頁上的信息，進行相關的行業分析或者準備資料、報告使用。
如何用Python讀取Excel中圖片?

地址如下：http://pypi.douban.com/simple/ 豆瓣http://mirrors.aliyun.com/pypi/simple/ 阿里http://pypi.hustunique.com/simple/ 華中理工大學http://pypi.sdutlinux.org
上映26年後,周星馳的《九品芝麻官》終於進入「豆瓣電影top250」

《九品芝麻官》登上豆瓣top250，經歷了整整26年而今天要跟大家說的這部電影，也是周星馳眾多作品裡最被低估的存在。可是經過26年之後，終於在今年強勢殺入豆瓣top250榜單，它就是《九品芝麻官》。這部影片的內容，其實不用小編過多的介紹，喜歡周星馳電影的小夥伴們一定是看過這部電影的。
會Python的人,在職場將非常搶手

去年，公司做新品投放測試時，echo用python爬蟲抓取了競品資料和市場數據，分析出不同價格產品的銷售情況、不同產品和市場的關係。用python獲取市場分析表敲幾行代碼電腦就會自動找到產品的數據資料，還能自動繪製成，整個過程5分鐘都不用。
騰訊視頻 Python 爬蟲項目實戰

需求：經常在騰訊視頻上看電影，在影片庫裡有一個"豆瓣好評"板塊。我一般會在這個條目下面挑電影。但是電影很多，又缺乏索引，只能不停地往下來，讓js加載更多的條目。然而前面的看完了，每次找新的片就要拉很久。所以用爬蟲將"豆瓣好評"裡的電影都爬下來整理到一個表中，方便選片。
開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?

Python爬蟲是由Python程序開發的網絡爬蟲(webspider，webrobot)，是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據，也就是自動抓取數據。為什麼需要用爬蟲？你可以想像一個場景:你在微博上崇拜一個名人，被他的微博迷住了。你要把他這十年微博裡的每一句話都摘抄下來。這個時候你會怎麼做？

不用Python,Excel輕鬆抓取豆瓣TOP250

相關焦點

不會 Python 沒關係,手把手教你用 web scraper 抓取豆瓣電影 top 250 和 b 站排行榜

Python爬蟲經典案例詳解:爬取豆瓣電影top250寫入Excel表格

python爬蟲—豆瓣電影top250及數據可視化!

Python爬蟲獲取豆瓣電影並寫入excel

Python爬蟲數據抓取方法匯總!所有方法都在此!

文職美女上班手動用Excel表格太麻煩,當學會python後easy操作

Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP

一次性看完【豆瓣電影Top250】

這款Chrome 插件就能幫你完成網頁抓取

初學者如何用「python爬蟲」技術抓取網頁數據?

零基礎學習python GUI編程(PyQt)系列之6:用pandas操作excel

如何在Visual Studio中創建excel並讀取數據

Python到底是個啥?為什麼這麼多人都要學?

Python爬蟲學習:抓取電影網站內容的爬蟲

不用代碼玩轉爬蟲實例(1) - 抓取貓眼電影信息

如何用Python讀取Excel中圖片?

上映26年後,周星馳的《九品芝麻官》終於進入「豆瓣電影top250」

會Python的人,在職場將非常搶手

騰訊視頻 Python 爬蟲項目實戰

開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?