手把手教你用數據分析看美國大選

2020-12-17 騰訊網

數據分析到底是什麼?該怎麼做?數據思維又是什麼?數據分析怎麼應用到日常工作生活?

為了更好的理解數據分析的這些問題,我們來結合美國大選這個具體例子,帶著大家做一場「探索性數據分析」。

第一步:確定分析目的

美國總統大選投票結果已公布,一陣熱鬧過後,是否好奇,想看清這場「鬧劇」是怎麼回事?出於這個目的,我們收集數據,來做一次「探索性數據分析」之旅。

第二步:理解業務

看著選票地圖,很多人想不通的是,為什麼老百姓都參加了投票,但是官方顯示的票數,每個州只有幾票?這些票到底怎麼來的?

這就和美國的選舉規則有關,美國各州人民都參與了投票,但是總統並不是由他們直接選出來的,能投票選總統的是另外一波人「國會議員」:

既然是議員投票選總統,選民還投票幹嘛?

這和另外一個規則有關,雖然議員的票數決定了誰做總統,但是議員不能決定自己想投給誰,而是由選民決定的,也就是說,全體選民投票的結果決定議員的票給誰。比如:阿拉巴馬州有超過50%的選民投票給A,那麼這個州所有議員的票都屬於A,這個規則叫「贏家通吃」。

所以我們看到各州的投票結果顯示 XX : 0 贏的人得到所有選票,輸的人一張也得不到。

總統選舉背景材料(近三屆的候選人和黨派)

第三步:確定研究指標

理解完業務,開始產生以下疑問:

有哪些州?

選舉的州作為指標:需要所有州的名字

每個州可以投多少票?

每個州的投票數:需要所有州對應的投票票數

這些票最後投給了誰? 但是每一屆參與選舉的候選人都不一樣,這個「誰」,在不同的選舉年份中怎麼做交叉對比?

想到的欄位:每次選舉的兩個人分別代表兩個黨派,為了做交叉對比,得票的主體用「黨派」

第四步:找原始數據

1、尋找美國州名的數據。

在電腦上搜索到有州名的網頁,上面看到一張州名列表。我們用EXCEL根據以下步驟把這張表提取出來。

2、獲取近三年的選票數據。

在網上找到2016年選票數據,用EXCEL直接獲取下來。(步驟如上略)

但是找2012年選票數據的時候,只找到一個選票地圖

再去找2020年選票,找到最詳細的數據,複製時發現是「圖片格式」!

那我們怎麼獲得圖片裡這些數據,難道要抄下來?

不!我們是「數據分析師」,我們要專業,不能手抄,我們用Python!

Python獲取圖片中信息:

市面上有免費圖片文字識別的開源功能,我們只需要調用相應接口,此處選擇了百度的圖片文字識別。

思路:用Python 調用現成的「圖片文字識別接口」,識別提取兩張圖片中的文字數字信息。

按照教程先安裝「百度接口包」

打開python的shell 如下圖安裝「百度接口包」

再按照教程「新建AipOcr」

打開自己的Python編輯器(此處我用的是PyCharm),把教程上的代碼拷貝到PyCharm

以上步驟是生成一個Client對象,這個對象能調用「百度接口」裡面的各種功能接口。

那麼下一步告訴python,這個對象要去調用哪個接口。如下圖我們之前選擇了「通用文字識別(高精度版)」

在接口說明裡,找到了這個接口的調用方法,按照教程,把需要的部分拷貝下來

獲取完官方標準的教程代碼,現在我們來完善他。去「控制臺」註冊登錄帳號和創建應用。

更新完ID再告訴python是哪張圖片

Python默認去識別同一個項目文件夾下的圖片,所以把之前網絡上找到圖片直接保存在python這個代碼的文件夾下

當然也可以再調用兩個包,做成「截圖,保存,識別文字,三個步驟一體的python小工具」,此處不做展開。

最終修改完成的代碼如下:

from aip import AipOcr # 要先完成 pip install baidu-aip

#""" 你的 APPID AK SK """

APP_ID = '你的APP_ID'

API_KEY = '你的API_KEY'

SECRET_KEY = '你的SECRET_KEY'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

while 1:

#""" 讀取圖片 """

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read()

image = get_file_content('2020vote.jpg')

#""" 調用通用文字識別(高精度版) """

client.basicAccurate(image);

message = client.basicAccurate(image)

message_result = message['words_result']

for i in message_result:

print(i['words'])

break

第五步:數據清洗

此處數據量不大,把獲取的數據放在excel裡面清洗後,得到格式統一的表。

第六步:數據分析

有清洗乾淨的完整數據之後,我們開始探索分析,這裡用一種簡單又低成本的方式:Power BI

為了便於分析,再載入一張年份表和一張黨派表

全部載入後,在Power BI裡面做一個簡單建模

先做個選票地圖看看

看著做完的地圖,似乎發現了些什麼!

首先,氣泡大小代表州的票數,雖然每年根據人口數量相應票數有變化,但是大體基本一致。

其次,這三張圖,看著很相似,顏色的分布變化不大。也就是說,每年都有一些固定支持共和黨或者固定支持民主黨的州。

最後,有少部分州,是每年支持的黨派都不一樣。

這部分的結論是:雖然每次選總統是兩個人競選,但其實支持他們的人,很多是出於這些人所在的黨派。

再去探索一下票數

可以看出每個不同的州,票數相差很遠,有約20%左右的州,佔到總票數一半以上。也就是以下地區可投選票的數量較多

這部分結論是:儘量去爭取上圖的州,獲勝機會大。

第七步:得出結論

最後總結數據分析結論如下:

1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會在兩黨之間搖擺,也就是說,美國總統大選,候選人背後代表的黨派影響力,大於他們個人的影響力。

2、從競選策略上來說,每年可以「不用太關心」一定會投票給自己黨派的州,應該把重點放在「搖擺州」上。而「搖擺州」應該先從上圖中佔票數多的州開始爭取,然後再根據各州的票數佔比,區分輕重緩急依次做競選攻略。

總結

做了一次完整數據分析,讓我們回顧整個步驟:

第一步:確定分析目的

第二步:理解業務

第三步:確定研究指標

第四步:尋找原始數據

第五步:數據清洗

第六步:數據分析

第七步:總結結論

以上就是一次標準又簡潔的數據分析全過程演示。然而,在實際的業務分析中,一般在第七步得到了結論後還會回到第一步分析的目的,去與業務或者運營人員溝通,反饋結論,比如是否有異常、異常原因、下一步動作等事宜,這也就使數據分析形成了「閉環」。然後相關業務人員再次提出疑問去確立新的分析目標,通過如此反覆的迭代優化及分析,可提高營銷活動有效性,提高投資回報率等等數據指標……「閉環」其實就是「揚長避短」,讓數據引導動作到更有價值的地方,實現資源配置最大化,也就是所謂的數據驅動業務。

總而言之,數據分析的有趣之處就是,當你把自己想成福爾摩斯的話,那數據背後一定存在真相。也由此可見,數據分析的應用範圍很廣,在各行各業都可以滲透,為什麼可以滲透?那是因為各行各業都離不開數字,只要有數字的地方,就有數據分析的用武之地;且數據分析的內容也可以很深,從加減乘除算數運算,到建模回歸機器學習,都已經廣泛運用起來了;從上面的分析看,數據分析的工具那更是數不勝數,爬蟲、清洗、可視化、資料庫等,只有你想不到的,沒有市場上滿足不了需求的。數據分析就像一雙翅膀能讓你飛得更遠,希望大家通過這個具體的例子,學會用數據分析賦能到你工作生活的方方面面。

- DataCastle -

相關焦點

  • 如何用Twitter主題搜索與情緒分析來看美國大選?丨城市數據派
    、共和黨副總統候選人彭斯與民主黨副總統候選人哈裡斯10月7日在猶他州鹽湖城展開2020年美國總統大選副總統候選人電視辯論。Twitter情緒資料庫與位和GeoAI雲平臺無縫集成,方便用戶對數據進行挖掘分析和展示。用戶可以搜索一個或多個主題,展示推文的地圖分布和推文情緒的變化,對多個主題進行比較,適用於民意調查、市場評估、營銷策略評估等。 例如,下面的幾組交互地圖和圖表顯示了最近12周內川普 vs 拜登的Twitter情緒變化。大選結束之前,數據和圖表每日自動更新。
  • 2020微信數據報告二維碼 手把手教你2020微信數據報告怎麼查
    2020微信數據報告二維碼 手把手教你2020微信數據報告怎麼查時間:2021-01-06 21:16   來源:手遊之家   責任編輯:沫朵 川北在線核心提示:原標題:2020微信數據報告二維碼 手把手教你2020微信數據報告怎麼查 2020微信數據報告是很多人想要知道的,畢竟大家在微信上也是度過了一年,那麼這一年和誰聊過天
  • 數據分析|1000萬+,疫情下的大選,讓美國深陷撕裂
    雖然從目前的票數上看,拜登已經有270票,但共和黨候選人唐納·川普尚未承認敗選。他的競選團隊已在幾個州提出訴訟,對計票過程提出質疑,但目前尚不清楚這些訴訟會否成功。反轉、不承認、訴訟重審,美國大選為全球貢獻了一部2020年度「最佳劇情片」。
  • 數據周報之美國大選
    中美貿易戰徹底撕開,疫情嚴重衝擊經濟,美國多地大規模示威,都增加了許多不確定性。為了幫助更多朋友了解這次選舉,我們準備了這次的專題數據周報,歷時約一個月,整理了超過 100 篇主流媒體報導、學術論文、專家博客,涵蓋信息圖、民調動態、大選綜述、2016 覆盤、網絡分析、文本分析、地圖製作等各方面。
  • 案例實操|手把手教你搭建,RFM客戶價值分析模型
    但是如何判別優質客戶呢,評價的數據指標是什麼,大小又如何衡量?通過本文,你能夠理解和學會RFM模型的基礎知識,並且手把手教你用BI工具搭建RFM分析模型。內容大綱1、RFM客戶價值模型的強大之處RFM模型為什麼能成為客戶價值管理裡的「明星模型」?RFM模型能夠解決哪些業務問題?
  • 用他人的錯誤為你的創作鋪路,手把手教你避開200種創作誤區
    《作家的靈感寶庫》《經典人物原型45種》……當你看過許多教你寫小說的書後,還真沒有一本會教你寫砸一本小說的。但是《如何寫砸一本小說》就是這樣一本書。該書由美國作家、編輯霍華德·米特爾馬克,和美國作家、創意寫作教師桑德拉·紐曼合著。
  • 2020美國大選公布結果時間 美國大選最新計票數據實況播報
    據美國有線電視新聞網(CNN)報導,當地時間周四,美國總統大選結果仍懸而未決。截至美東時間6日零時,賓夕法尼亞州、喬治亞州、內華達州、亞利桑那州、北卡羅來納州的投票結果仍在變動。  此前,包括美聯社在內的多家美國媒體均稱拜登已拿下亞利桑那州,意味著拜登已獲得264張選舉人票,川普獲得214張。
  • 《美國大選》11.4美國大選黃金是跌還是漲?美國大選操作建議
    美國大選黃金交易核心觀點:    大家好,今天就是美國大選之日,金融市場期待的美國大選即將來臨,屆時會對黃金產生比較大的影響,金市良臣認為對於我們操作上來講有絕佳的中線布局機會,大選做數據行情的主要優勢:波動幅度大意味著利潤大,有更多多的消息面供參考意味著方向更明朗,有我們專業的分析團隊全程把控及解讀行情,這是我們可以用極小的成本去博取大利潤的機會
  • 大數據分析:川普贏定大選了?
    昨天川普和希拉蕊的辯論大家都看了嗎?看這篇就夠了。要說這場辯論賽,確實很有看頭。
  • 《和平精英》雪球槍使用技巧 手把手教你雪球槍怎麼用
    《和平精英》雪球槍使用技巧 手把手教你雪球槍怎麼用時間:2020-12-18 20:15   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《和平精英》雪球槍使用技巧 手把手教你雪球槍怎麼用 和平精英雪球槍怎麼用?
  • 大數據時代如何領先一步預測未來——美國大選與金融風控
    傳統民調、知名學者、大數據AI公司等各逞其能,五花八門的預測分析層出不窮,熱鬧程度不亞於兩位候選人之間的唇槍舌戰。現在塵埃落定,再將那些推論翻出來復盤,才發現誰真正站在高樓上盡收風景,誰只是趴在樓梯上憑欄自語。傳統民調預測錯了大部分搖擺州的結果;「四十年未看走眼」的美國教授,再次證明經驗的力量,成功預測;更多的大數據公司則加入了預測遊戲,證明自家技術實力。
  • 剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用
    剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用時間:2020-07-01 17:09   來源:騰牛網    責任編輯:沫朵 川北在線核心提示:原標題:剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用 剪映是非常好用的剪輯工具,現在很多人都愛用,裡面有很多功能,可以製作出很好的視頻。
  • 美國大選最新支持率 歷屆美國大選前後股市表現
    當地時間周二,美國大選將迎來投票日,這是本周最重磅的風險事件。最大的未知數是選舉結果是否會馬上揭曉。  從近期的民調來看,共和黨人川普支持率略有提升,上周統計數據是44.5%,當前支持率為45.6%,提升了1.1個百分點;民主黨候選人拜登支持率仍維持在49.9%,兩大候選人支持率差距正在縮小。  有分析認為,美國大選對A股市場的直接影響有限,單從數據看,美國曆次大選年,A股漲多跌少,在過去的6次大選中,A股有4次上漲。
  • 《香腸派對》換槍攻略 手把手教你怎麼換槍
    《香腸派對》換槍攻略 手把手教你怎麼換槍時間:2019-08-13 17:15   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《香腸派對》換槍攻略 手把手教你怎麼換槍 香腸派對中換槍可以在關鍵時刻幫助你擊倒對手,而不知道各位腸友換槍技術如何,下面小編將從前中後三個時期為大家分析該怎麼做,希望能對大家有所幫助
  • 《荒野亂鬥》小羅玩法攻略 手把手教教你小羅怎麼玩
    《荒野亂鬥》小羅玩法攻略 手把手教教你小羅怎麼玩時間:2020-12-08 15:42   來源:遊俠網   責任編輯:沫朵 川北在線核心提示:原標題:《荒野亂鬥》小羅玩法攻略 手把手教教你小羅怎麼玩 荒野亂鬥小羅怎麼玩?小羅是荒野亂鬥新增的炫彩英雄,在足球模式中小羅的表現尤其亮眼。英雄定位是一個輔助。
  • 美國大選決戰前夜,如何預測史上最撲朔迷離的大選結果?
    現在疫情下,大多數美國人都宅在家了,照理說會更有時間看體育賽事。但剛剛結束的 NBA 和 MLB 總決賽,收視人數都斷崖式下跌。其中最主要的原因就是所有人的注意力都在美國大選上面了,贏個體育比賽有個球用?
  • 手把手教你桌上型電腦配置怎麼看
    下面就手把手教你桌上型電腦配置怎麼看,還沒檢查過自己電腦配置的朋友不妨學習使用一下吧。方法一1、右鍵單擊「此電腦」,點擊「管理」。2、在計算機管理窗口中,點擊設備管理器,展開設備項目就能查看到具體的硬體信息了。
  • 《大選黃金》11.5美國大選黃金是漲還是跌?對黃金有什麼影響
    美國大選對黃金影響走勢解讀:    2020美國總統大選實時票數統計:拜登VS川普雙雙宣布要贏 小心民調「翻車」黃金再暴跌;據美聯社和福克斯新聞等多家媒體最新統計數據顯示,截止北京時間周三(11月4日)16:27,2020美國大選實時票數統計:拜登238VS川普213。目前大選陷入了膠著狀態,暫未有媒體宣布獲勝者。
  • 肝功能檢查不會看?醫生手把手教你看懂化驗單
    醫生手把手教你看懂化驗單 2020-10-15 11:22 來源:澎湃新聞·澎湃號·湃客
  • 數據分析學習:手把手教你用直方圖、餅圖和條形圖做數據分析...
    對於定量數據,要想了解其分布形式是對稱的還是非對稱的、發現某些特大或特小的可疑值,可做出頻率分布表、繪製頻率分布直方圖、繪製莖葉圖進行直觀分析;對於定性數據,可用餅圖和條形圖直觀地顯示其分布情況。