利用Power BI批量獲取豆瓣電影數據

2020-12-27 騰訊網

2020年的電影市場沉寂了大半年,隨著國慶檔幾部影片的上映,差不多恢復到了往年的熱度,不過打算看哪部電影不能僅看是否熱門,更靠譜的是參考電影評分,更準確的說,是看豆瓣的評分。

這篇文章就來看看如何用PowerBI批量抓取豆瓣電影的數據。以最近正在上映的電影為例,豆瓣網址為:

https://movie.douban.com/

利用從web獲取數據的功能,將這個網址放進去,就可以輕鬆獲取這些影片的評分:

這種方式抓取的只有一個評分數據,其實在每部電影的詳情頁,有更豐富的數據,比如電影的導演、主演、評分人數、影評條數等。

比如最近最熱門的電影《姜子牙》的豆瓣詳情頁:

如何能批量抓取每一部電影詳情頁中的這些數據呢?下面就來看看操作步驟。

1、批量獲取電影的詳情頁網址。

要想獲得詳情頁的數據,首先就需要先得到每部電影的詳情頁網址,批量獲取網址的方法,之前也介紹過(參考:Power BI如何獲取網頁中的連結?這個方法非常好用)。

先打開前兩部電影的詳情頁並將網址複製下來,然後利用"使用示例添加表"的功能,將前兩行數據粘貼到前兩行,系統就可以自動識別並補全剩餘的信息。

或許是豆瓣電影網頁的數據結構不夠規範,所以提取出來的數據,與網站實際看到的略有出入,將重複的、以及不正確的數據刪除即可。

2、提取某一部電影詳情頁需要的數據。

選擇某一個電影,進入詳情頁,比如提取出《姜子牙》的導演、主演、評分人數等數據,依然"使用示例添加表",將這些數據提取成一行,

然後將這一行數據清洗成規範的數據。

3、利用第2步的查詢建立自定義函數。

右鍵該查詢>創建函數,

命名為movieinfo,並修改前兩行代碼,定義網址為參數:

自定義函數製作完成。

4、調用自定義函數。

在第1步查詢的基礎上,調用創建好的自定義函數:

然後展開數據即可獲得每一部電影的詳細數據:

將抓取到的數據上載到數據模型中就可以進行分析了,

不得不說,之前備受矚目的《花木蘭》評分真的好低,不推薦觀看。

以上就是PowerBI批量抓取連結網頁中數據的步驟,具體細節,可能不同的網站需要不同的處理,但整體思路基本如此。

相關焦點

  • 如何選擇數據分析可視化工具?Excel, Tableau還是Power BI?
    Data Sources 數據源Excel是一種靈活,易於使用的電子表格,通常用於創建數據集。它可以藉助數據連接功能將外部數據源中的數據提取到電子表格中,還可以從Web,Microsoft Query,SharePoint列表,OData Feed,Hadoop文件(HDFS)等來源獲取數據。因此,Excel文件通常用作Power BI和Tableau的數據源。
  • 不用Python,Excel輕鬆抓取豆瓣TOP250
    之前寫了篇Python批量爬取網頁數據的文章,後來發現Excel隨著版本的迭代,已經完全支持多頁面抓取數據了,不用擼代碼,點點滑鼠就能抓取數據,讓我們一起看看吧~網頁解析在抓取數據之前,先對網頁進行一下解析,下圖中是豆瓣TOP250初始頁面,拉到最底部可以發現一共有10個頁面,每個頁面25部電影,一共250部電影。
  • 小叮噹高級爬蟲(二):Scrapy創建項目「五部曲」獲取豆瓣電影信息
    何不看一部電影?放鬆一下我們疲勞已久的神經。那麼,問題來了?有什麼好的電影值得我們去看呢?所幸,豆瓣電影評分機制給予了我們一定的參考,我們可以在百度中搜索「豆瓣電影分類排行榜」來獲得相應的電影信息。例如,我們點擊「豆瓣電影分類排行榜 - 劇情片」進去後,默認的是」好於75%-65%「的推薦。
  • 用EXCEL神器——Power Query,批量合併相同結構數據文件
    今天結合工作來分享一下Power Query的神奇功能——批量合併數據。公司每月工資表中,列出了員工的工資組成和具體數據,經理要求把1-8月份工資表,記錄合併到一個表中。注意:是把記錄合併到一個表中,而不是把數據合併起來。
  • 新功能|如何將表單數據批量生成二維碼
    舉個簡單的例子:例如公司採購一批設備,需要進行辦公設備盤點,方便維護管理,將設備信息錄入到表單中,然後批量生成二維碼分別貼到每臺設備上,這樣後期維護盤點的時候只需要掃一掃二維碼即可查看設備基本信息,快速進行盤點維護。
  • 最硬核觀影指南,豆瓣電影250年度數據報告
    *本文電影上下榜單的數據統計時間為2020年全年,而其他所有數據的統計起止時間為2020年2月17日到2021年1月4日。01 全年榜單變化綜述 全年共有9部電影跌出榜單,也同樣有9部電影進入榜單。 全年榜單內250部電影有26部電影排名不變,125部電影排名下降,99部電影排名上升。
  • 048可視化工具 Power BI 入門
    你好,感謝打開產品Desginer今天是2020年2月8日星期六,農曆正月十五(元宵節)今天,我想與你分享的是:可視化工具 PowerBIPowerBI 是什麼PowerBI是一款微軟公司出品的,數據可視化在線工具
  • 如何利用Excel在CAD批量繪製圓?
    如下圖所示,如果需要在多段線每個角點位置繪製半徑為5的圓,那麼可以利用Excel表達式的功能直接批量繪製圓。具體步驟如下:一、在CAD中利用插件提取多段線交點的坐標。二、將提取的坐標通過Ctrl+C複製,Ctrl+V粘貼到Excel表中,並整理好,如下圖所示(此處利用插件提取的坐標,所以坐標顯示精度與上圖有區別)。
  • 豆瓣電影評分,公不公平?
    為了找尋答案,DT君採集了近5年國內院線電影的評分、票房等信息,嘗試著用數據來解解惑(獲取數據可直接拉至文末)。豆瓣評分足夠客觀真實嗎?最大爭議在於,大家懷疑由於評分機制不合理、受到水軍影響等原因,豆瓣評分很容易高估或者低估了一部電影,不能真正反映群眾的觀影評價。
  • 批量導入工作表到同一個文件
    2 實現批量導入工作表的思路分析為了實現批量導入工作表,我們仍是利用文件夾中文件的遍歷及每一個文件中工作表的遍歷,在實現遍歷的時候要進行的是工作表的複製,然後粘貼到同一個文件中。對於複製和粘貼工作表我們要利用的是工作表複製語句。
  • Excel批量提取數據,快來試試這幾招
    在我們日常工作中,從表格中提取某些數據,也是經常的事。以前分享過利用快捷鍵【Ctrl+E】快速提取數據的方法(教程文末有連結)。這些低版本的怎麼批量提取呢?今天阿鍾老師就分別以快捷鍵、函數公式、功能按鈕為例講解如何快速提取數據。函數公式法新、舊版本通用。01.
  • 批量合併多個Excel工作簿,10秒解決大難題,高效數據整理
    今天跟大家分享一下批量合併多個Excel工作簿技巧,10秒解決大難題,數據整理不加班。 メ大家請看範例圖片,多個Excel工作薄複製粘貼到一個總表中,傳統做法只能手動一張一張表格複製粘貼。メ
  • Power BI設計技巧:切片器的動態篩選
    經常碰到這樣的需求,在報告中設置一個切片器,當用戶打開報告時,默認顯示的是最近一個期間的數據,比如當2020年11月30日打開報告時,顯示的是2020年11月的數據,第二天再打開刷新,自動顯示2020年12月的數據。
  • 影視剪輯一天賺800多,0基礎製作流程,可全自動批量製作
    製作流程相當簡單,並且可以批量製作。基本上是躺著賺錢!相信很多的人在做影視解說時,都是因為查重,搬運,降權,素材,版權等等問題而苦惱,那麼別著急下面由余哥手把手教你做一個原創影視解說帳號。第一步:文案去哪找每部電影,豆瓣上的精品評論基本就能搞定解說的文案了。
  • Power BI+Azure Synapse,打造出色分析體驗!
    、數據倉庫和大數據整合到一個服務中。藉助 Azure Synapse,組織可以顯著簡化數據環境的管理,並讓數據專業人員團隊(包括數據工程師、數據科學家、BI 專業人員和 IT 管理員)進行合作,從而改善協作並提高工作效率。
  • 技術小白的也能獨立完成數據分析,這款BI系統你值得擁有
    是否有很多小白跟我一樣,不會編程代碼,又覺得excel操作太繁瑣了,一直苦苦不知道要怎麼做數據分析。前段時間我使用了一款bi系統,簡直太方便了!拖拉拽就能製作分析圖表、點擊就能應用智能分析功能,如果這不能滿足你又快又好的數據分析報表製作需求,那還有BI報表模板、主題等已預先設計調整,一鍵就能應用的開掛式板塊。如果這還不夠。Smartbi還能搭配提前預設分析模型、BI可視化分析報表模板的Smartbi解決方案。
  • Excel中如何批量取消合併單元格,並自動填充數據
    Excel中如何批量取消合併單元格,並自動填充數據在Excel中合併單元格功能大家肯定都用過,對相同內容的單元格進行合併,使表格看起來整齊美觀。有時候處理數據時又需要取消合併單元格,今天我們就來學習一下批量取消合併單元格,並實現自動填充數據,最終效果圖如下:一、單個取消已合併的單元格並填充數據現在需要將三年級一班學生的班級列都進行展示,即達到圖中右邊的效果。
  • 【三創四建】裕華民警韓亞欣:率先突破轄區「一標三實」批量數據...
    省廳開展「一標三實」工作後,根據市局、分局工作安排,自2020年2月開始,韓亞欣作為建華南大街派出所 「一標三實」工作的聯絡員,工作態度紮實嚴謹,信息數據採集精準,特別是在工作中主動學習、積極探索、克難攻堅,創新突破「一標三實」基礎信息數據的批量錄入方法,並毫無保留地把成型的工作經驗與兄弟單位分享推廣,大大提高了數據錄入的精準率,為提升基層派出所「一標三實」的基礎信息採集錄入工作做出了成績
  • 利用IE法提取網頁數據基礎
    「VBA信息獲取與處理」教程中第八個專題「VBA與HTML文檔」的第七節「HTML DOM的對象事件及關聯」太枯燥了,希望想掌握這方面知識的朋友能參考我的教程學習。我們今天 開始第九個專題的學習「利用IE抓取網絡數據」。
  • 珠海蝦皮批量採集軟體_跨境電商ERP
    珠海蝦皮批量採集軟體,跨境電商ERP,2、用戶量大,退貨率低。珠海蝦皮批量採集軟體, 但是有一點需要注意的是,新開的店鋪因為沒賣家信用評分,所以上傳寶貝的數量十分有限的。