手把手教你用數據分析看美國大選

2020-12-17 騰訊網

數據分析到底是什麼？該怎麼做？數據思維又是什麼？數據分析怎麼應用到日常工作生活？

為了更好的理解數據分析的這些問題，我們來結合美國大選這個具體例子，帶著大家做一場「探索性數據分析」。

第一步：確定分析目的

美國總統大選投票結果已公布，一陣熱鬧過後，是否好奇，想看清這場「鬧劇」是怎麼回事？出於這個目的，我們收集數據，來做一次「探索性數據分析」之旅。

第二步：理解業務

看著選票地圖，很多人想不通的是，為什麼老百姓都參加了投票，但是官方顯示的票數，每個州只有幾票？這些票到底怎麼來的？

這就和美國的選舉規則有關，美國各州人民都參與了投票，但是總統並不是由他們直接選出來的，能投票選總統的是另外一波人「國會議員」：

既然是議員投票選總統，選民還投票幹嘛?

這和另外一個規則有關，雖然議員的票數決定了誰做總統，但是議員不能決定自己想投給誰，而是由選民決定的，也就是說，全體選民投票的結果決定議員的票給誰。比如：阿拉巴馬州有超過50%的選民投票給A，那麼這個州所有議員的票都屬於A，這個規則叫「贏家通吃」。

所以我們看到各州的投票結果顯示 XX : 0 贏的人得到所有選票，輸的人一張也得不到。

總統選舉背景材料（近三屆的候選人和黨派）

第三步：確定研究指標

理解完業務，開始產生以下疑問：

有哪些州？

選舉的州作為指標：需要所有州的名字

每個州可以投多少票？

每個州的投票數：需要所有州對應的投票票數

這些票最後投給了誰？但是每一屆參與選舉的候選人都不一樣，這個「誰」，在不同的選舉年份中怎麼做交叉對比？

想到的欄位：每次選舉的兩個人分別代表兩個黨派，為了做交叉對比，得票的主體用「黨派」

第四步：找原始數據

1、尋找美國州名的數據。

在電腦上搜索到有州名的網頁，上面看到一張州名列表。我們用EXCEL根據以下步驟把這張表提取出來。

2、獲取近三年的選票數據。

在網上找到2016年選票數據，用EXCEL直接獲取下來。(步驟如上略)

但是找2012年選票數據的時候，只找到一個選票地圖

再去找2020年選票，找到最詳細的數據，複製時發現是「圖片格式」！

那我們怎麼獲得圖片裡這些數據，難道要抄下來？

不！我們是「數據分析師」，我們要專業，不能手抄，我們用Python！

Python獲取圖片中信息：

市面上有免費圖片文字識別的開源功能，我們只需要調用相應接口，此處選擇了百度的圖片文字識別。

思路：用Python 調用現成的「圖片文字識別接口」，識別提取兩張圖片中的文字數字信息。

按照教程先安裝「百度接口包」

打開python的shell 如下圖安裝「百度接口包」

再按照教程「新建AipOcr」

打開自己的Python編輯器（此處我用的是PyCharm），把教程上的代碼拷貝到PyCharm

以上步驟是生成一個Client對象，這個對象能調用「百度接口」裡面的各種功能接口。

那麼下一步告訴python，這個對象要去調用哪個接口。如下圖我們之前選擇了「通用文字識別（高精度版）」

在接口說明裡，找到了這個接口的調用方法，按照教程，把需要的部分拷貝下來

獲取完官方標準的教程代碼，現在我們來完善他。去「控制臺」註冊登錄帳號和創建應用。

更新完ID再告訴python是哪張圖片

Python默認去識別同一個項目文件夾下的圖片，所以把之前網絡上找到圖片直接保存在python這個代碼的文件夾下

當然也可以再調用兩個包，做成「截圖，保存，識別文字，三個步驟一體的python小工具」，此處不做展開。

最終修改完成的代碼如下：

from aip import AipOcr # 要先完成 pip install baidu-aip

#""" 你的 APPID AK SK """

APP_ID = '你的APP_ID'

API_KEY = '你的API_KEY'

SECRET_KEY = '你的SECRET_KEY'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

while 1:

#""" 讀取圖片 """

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read()

image = get_file_content('2020vote.jpg')

#""" 調用通用文字識別（高精度版） """

client.basicAccurate(image);

message = client.basicAccurate(image)

message_result = message['words_result']

for i in message_result:

print(i['words'])

break

第五步：數據清洗

此處數據量不大，把獲取的數據放在excel裡面清洗後，得到格式統一的表。

第六步：數據分析

有清洗乾淨的完整數據之後，我們開始探索分析，這裡用一種簡單又低成本的方式：Power BI

為了便於分析，再載入一張年份表和一張黨派表

全部載入後，在Power BI裡面做一個簡單建模

先做個選票地圖看看

看著做完的地圖，似乎發現了些什麼！

首先，氣泡大小代表州的票數，雖然每年根據人口數量相應票數有變化，但是大體基本一致。

其次，這三張圖，看著很相似，顏色的分布變化不大。也就是說，每年都有一些固定支持共和黨或者固定支持民主黨的州。

最後，有少部分州，是每年支持的黨派都不一樣。

這部分的結論是：雖然每次選總統是兩個人競選，但其實支持他們的人，很多是出於這些人所在的黨派。

再去探索一下票數

可以看出每個不同的州，票數相差很遠，有約20%左右的州，佔到總票數一半以上。也就是以下地區可投選票的數量較多

這部分結論是：儘量去爭取上圖的州，獲勝機會大。

第七步：得出結論

最後總結數據分析結論如下：

1、有部分州，每年都一定選擇共和黨或者一定選擇民主黨，剩下小部分州會在兩黨之間搖擺，也就是說，美國總統大選，候選人背後代表的黨派影響力，大於他們個人的影響力。

2、從競選策略上來說，每年可以「不用太關心」一定會投票給自己黨派的州，應該把重點放在「搖擺州」上。而「搖擺州」應該先從上圖中佔票數多的州開始爭取，然後再根據各州的票數佔比，區分輕重緩急依次做競選攻略。

總結

做了一次完整數據分析，讓我們回顧整個步驟：

第一步：確定分析目的

第二步：理解業務

第三步：確定研究指標

第四步：尋找原始數據

第五步：數據清洗

第六步：數據分析

第七步：總結結論

以上就是一次標準又簡潔的數據分析全過程演示。然而，在實際的業務分析中，一般在第七步得到了結論後還會回到第一步分析的目的，去與業務或者運營人員溝通，反饋結論，比如是否有異常、異常原因、下一步動作等事宜，這也就使數據分析形成了「閉環」。然後相關業務人員再次提出疑問去確立新的分析目標，通過如此反覆的迭代優化及分析，可提高營銷活動有效性，提高投資回報率等等數據指標……「閉環」其實就是「揚長避短」，讓數據引導動作到更有價值的地方，實現資源配置最大化，也就是所謂的數據驅動業務。

總而言之，數據分析的有趣之處就是，當你把自己想成福爾摩斯的話，那數據背後一定存在真相。也由此可見，數據分析的應用範圍很廣，在各行各業都可以滲透，為什麼可以滲透？那是因為各行各業都離不開數字，只要有數字的地方，就有數據分析的用武之地；且數據分析的內容也可以很深，從加減乘除算數運算，到建模回歸機器學習，都已經廣泛運用起來了；從上面的分析看，數據分析的工具那更是數不勝數，爬蟲、清洗、可視化、資料庫等，只有你想不到的，沒有市場上滿足不了需求的。數據分析就像一雙翅膀能讓你飛得更遠，希望大家通過這個具體的例子，學會用數據分析賦能到你工作生活的方方面面。

- DataCastle -

相關焦點

如何用Twitter主題搜索與情緒分析來看美國大選?丨城市數據派

、共和黨副總統候選人彭斯與民主黨副總統候選人哈裡斯10月7日在猶他州鹽湖城展開2020年美國總統大選副總統候選人電視辯論。Twitter情緒資料庫與位和GeoAI雲平臺無縫集成，方便用戶對數據進行挖掘分析和展示。用戶可以搜索一個或多個主題，展示推文的地圖分布和推文情緒的變化，對多個主題進行比較，適用於民意調查、市場評估、營銷策略評估等。例如，下面的幾組交互地圖和圖表顯示了最近12周內川普 vs 拜登的Twitter情緒變化。大選結束之前，數據和圖表每日自動更新。
2020微信數據報告二維碼手把手教你2020微信數據報告怎麼查

2020微信數據報告二維碼手把手教你2020微信數據報告怎麼查時間：2021-01-06 21:16 來源：手遊之家責任編輯：沫朵川北在線核心提示：原標題：2020微信數據報告二維碼手把手教你2020微信數據報告怎麼查 2020微信數據報告是很多人想要知道的，畢竟大家在微信上也是度過了一年，那麼這一年和誰聊過天
數據分析|1000萬+,疫情下的大選,讓美國深陷撕裂

雖然從目前的票數上看，拜登已經有270票，但共和黨候選人唐納·川普尚未承認敗選。他的競選團隊已在幾個州提出訴訟，對計票過程提出質疑，但目前尚不清楚這些訴訟會否成功。反轉、不承認、訴訟重審，美國大選為全球貢獻了一部2020年度「最佳劇情片」。
數據周報之美國大選

中美貿易戰徹底撕開，疫情嚴重衝擊經濟，美國多地大規模示威，都增加了許多不確定性。為了幫助更多朋友了解這次選舉，我們準備了這次的專題數據周報，歷時約一個月，整理了超過 100 篇主流媒體報導、學術論文、專家博客，涵蓋信息圖、民調動態、大選綜述、2016 覆盤、網絡分析、文本分析、地圖製作等各方面。
案例實操|手把手教你搭建,RFM客戶價值分析模型

但是如何判別優質客戶呢，評價的數據指標是什麼，大小又如何衡量？通過本文，你能夠理解和學會RFM模型的基礎知識，並且手把手教你用BI工具搭建RFM分析模型。內容大綱1、RFM客戶價值模型的強大之處RFM模型為什麼能成為客戶價值管理裡的「明星模型」？RFM模型能夠解決哪些業務問題？
用他人的錯誤為你的創作鋪路,手把手教你避開200種創作誤區

《作家的靈感寶庫》《經典人物原型45種》……當你看過許多教你寫小說的書後，還真沒有一本會教你寫砸一本小說的。但是《如何寫砸一本小說》就是這樣一本書。該書由美國作家、編輯霍華德·米特爾馬克，和美國作家、創意寫作教師桑德拉·紐曼合著。
2020美國大選公布結果時間美國大選最新計票數據實況播報

據美國有線電視新聞網(CNN)報導，當地時間周四，美國總統大選結果仍懸而未決。截至美東時間6日零時，賓夕法尼亞州、喬治亞州、內華達州、亞利桑那州、北卡羅來納州的投票結果仍在變動。　　此前，包括美聯社在內的多家美國媒體均稱拜登已拿下亞利桑那州，意味著拜登已獲得264張選舉人票，川普獲得214張。
《美國大選》11.4美國大選黃金是跌還是漲?美國大選操作建議

美國大選黃金交易核心觀點：　　　　大家好，今天就是美國大選之日，金融市場期待的美國大選即將來臨，屆時會對黃金產生比較大的影響，金市良臣認為對於我們操作上來講有絕佳的中線布局機會，大選做數據行情的主要優勢：波動幅度大意味著利潤大，有更多多的消息面供參考意味著方向更明朗，有我們專業的分析團隊全程把控及解讀行情，這是我們可以用極小的成本去博取大利潤的機會
大數據分析:川普贏定大選了?

昨天川普和希拉蕊的辯論大家都看了嗎？看這篇就夠了。要說這場辯論賽，確實很有看頭。
《和平精英》雪球槍使用技巧手把手教你雪球槍怎麼用

《和平精英》雪球槍使用技巧手把手教你雪球槍怎麼用時間：2020-12-18 20:15 來源：遊俠網責任編輯：沫朵川北在線核心提示：原標題：《和平精英》雪球槍使用技巧手把手教你雪球槍怎麼用和平精英雪球槍怎麼用？
大數據時代如何領先一步預測未來——美國大選與金融風控

傳統民調、知名學者、大數據AI公司等各逞其能，五花八門的預測分析層出不窮，熱鬧程度不亞於兩位候選人之間的唇槍舌戰。現在塵埃落定，再將那些推論翻出來復盤，才發現誰真正站在高樓上盡收風景，誰只是趴在樓梯上憑欄自語。傳統民調預測錯了大部分搖擺州的結果；「四十年未看走眼」的美國教授，再次證明經驗的力量，成功預測；更多的大數據公司則加入了預測遊戲，證明自家技術實力。
剪映素材庫在哪裡手把手教你剪映素材庫怎麼用

剪映素材庫在哪裡手把手教你剪映素材庫怎麼用時間：2020-07-01 17:09 來源：騰牛網責任編輯：沫朵川北在線核心提示：原標題：剪映素材庫在哪裡手把手教你剪映素材庫怎麼用剪映是非常好用的剪輯工具，現在很多人都愛用，裡面有很多功能，可以製作出很好的視頻。
美國大選最新支持率歷屆美國大選前後股市表現

當地時間周二，美國大選將迎來投票日，這是本周最重磅的風險事件。最大的未知數是選舉結果是否會馬上揭曉。　　從近期的民調來看，共和黨人川普支持率略有提升，上周統計數據是44.5%，當前支持率為45.6%，提升了1.1個百分點;民主黨候選人拜登支持率仍維持在49.9%，兩大候選人支持率差距正在縮小。　　有分析認為，美國大選對A股市場的直接影響有限，單從數據看，美國曆次大選年，A股漲多跌少，在過去的6次大選中，A股有4次上漲。
《香腸派對》換槍攻略手把手教你怎麼換槍

《香腸派對》換槍攻略手把手教你怎麼換槍時間：2019-08-13 17:15 來源：遊俠網責任編輯：沫朵川北在線核心提示：原標題：《香腸派對》換槍攻略手把手教你怎麼換槍香腸派對中換槍可以在關鍵時刻幫助你擊倒對手，而不知道各位腸友換槍技術如何，下面小編將從前中後三個時期為大家分析該怎麼做，希望能對大家有所幫助
《荒野亂鬥》小羅玩法攻略手把手教教你小羅怎麼玩

《荒野亂鬥》小羅玩法攻略手把手教教你小羅怎麼玩時間：2020-12-08 15:42 來源：遊俠網責任編輯：沫朵川北在線核心提示：原標題：《荒野亂鬥》小羅玩法攻略手把手教教你小羅怎麼玩荒野亂鬥小羅怎麼玩？小羅是荒野亂鬥新增的炫彩英雄，在足球模式中小羅的表現尤其亮眼。英雄定位是一個輔助。
美國大選決戰前夜,如何預測史上最撲朔迷離的大選結果?

現在疫情下，大多數美國人都宅在家了，照理說會更有時間看體育賽事。但剛剛結束的 NBA 和 MLB 總決賽，收視人數都斷崖式下跌。其中最主要的原因就是所有人的注意力都在美國大選上面了，贏個體育比賽有個球用？
手把手教你桌上型電腦配置怎麼看

下面就手把手教你桌上型電腦配置怎麼看，還沒檢查過自己電腦配置的朋友不妨學習使用一下吧。方法一1、右鍵單擊「此電腦」，點擊「管理」。2、在計算機管理窗口中，點擊設備管理器，展開設備項目就能查看到具體的硬體信息了。
《大選黃金》11.5美國大選黃金是漲還是跌?對黃金有什麼影響

美國大選對黃金影響走勢解讀：　　　　2020美國總統大選實時票數統計：拜登VS川普雙雙宣布要贏小心民調「翻車」黃金再暴跌；據美聯社和福克斯新聞等多家媒體最新統計數據顯示，截止北京時間周三(11月4日)16:27，2020美國大選實時票數統計：拜登238VS川普213。目前大選陷入了膠著狀態，暫未有媒體宣布獲勝者。
肝功能檢查不會看?醫生手把手教你看懂化驗單

醫生手把手教你看懂化驗單 2020-10-15 11:22 來源：澎湃新聞·澎湃號·湃客
數據分析學習:手把手教你用直方圖、餅圖和條形圖做數據分析...

對於定量數據，要想了解其分布形式是對稱的還是非對稱的、發現某些特大或特小的可疑值，可做出頻率分布表、繪製頻率分布直方圖、繪製莖葉圖進行直觀分析；對於定性數據，可用餅圖和條形圖直觀地顯示其分布情況。

手把手教你用數據分析看美國大選

相關焦點

如何用Twitter主題搜索與情緒分析來看美國大選?丨城市數據派

2020微信數據報告二維碼 手把手教你2020微信數據報告怎麼查

數據分析|1000萬+,疫情下的大選,讓美國深陷撕裂

數據周報之美國大選

案例實操|手把手教你搭建,RFM客戶價值分析模型

用他人的錯誤為你的創作鋪路,手把手教你避開200種創作誤區

2020美國大選公布結果時間 美國大選最新計票數據實況播報

《美國大選》11.4美國大選黃金是跌還是漲?美國大選操作建議

大數據分析:川普贏定大選了?

《和平精英》雪球槍使用技巧 手把手教你雪球槍怎麼用

大數據時代如何領先一步預測未來——美國大選與金融風控

剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用

美國大選最新支持率 歷屆美國大選前後股市表現

《香腸派對》換槍攻略 手把手教你怎麼換槍

《荒野亂鬥》小羅玩法攻略 手把手教教你小羅怎麼玩

美國大選決戰前夜,如何預測史上最撲朔迷離的大選結果?

手把手教你桌上型電腦配置怎麼看

《大選黃金》11.5美國大選黃金是漲還是跌?對黃金有什麼影響

肝功能檢查不會看?醫生手把手教你看懂化驗單

數據分析學習:手把手教你用直方圖、餅圖和條形圖做數據分析...

2020微信數據報告二維碼手把手教你2020微信數據報告怎麼查

2020美國大選公布結果時間美國大選最新計票數據實況播報

《和平精英》雪球槍使用技巧手把手教你雪球槍怎麼用

剪映素材庫在哪裡手把手教你剪映素材庫怎麼用

美國大選最新支持率歷屆美國大選前後股市表現

《香腸派對》換槍攻略手把手教你怎麼換槍

《荒野亂鬥》小羅玩法攻略手把手教教你小羅怎麼玩