手把手教你用數據分析看美國大選

2021-01-14 騰訊網

數據分析到底是什麼?該怎麼做?數據思維又是什麼?數據分析怎麼應用到日常工作生活?

為了更好的理解數據分析的這些問題,我們來結合美國大選這個具體例子,帶著大家做一場「探索性數據分析」。

第一步:確定分析目的

美國總統大選投票結果已公布,一陣熱鬧過後,是否好奇,想看清這場「鬧劇」是怎麼回事?出於這個目的,我們收集數據,來做一次「探索性數據分析」之旅。

第二步:理解業務

看著選票地圖,很多人想不通的是,為什麼老百姓都參加了投票,但是官方顯示的票數,每個州只有幾票?這些票到底怎麼來的?

這就和美國的選舉規則有關,美國各州人民都參與了投票,但是總統並不是由他們直接選出來的,能投票選總統的是另外一波人「國會議員」:

既然是議員投票選總統,選民還投票幹嘛?

這和另外一個規則有關,雖然議員的票數決定了誰做總統,但是議員不能決定自己想投給誰,而是由選民決定的,也就是說,全體選民投票的結果決定議員的票給誰。比如:阿拉巴馬州有超過50%的選民投票給A,那麼這個州所有議員的票都屬於A,這個規則叫「贏家通吃」。

所以我們看到各州的投票結果顯示 XX : 0 贏的人得到所有選票,輸的人一張也得不到。

總統選舉背景材料(近三屆的候選人和黨派)

第三步:確定研究指標

理解完業務,開始產生以下疑問:

有哪些州?

選舉的州作為指標:需要所有州的名字

每個州可以投多少票?

每個州的投票數:需要所有州對應的投票票數

這些票最後投給了誰? 但是每一屆參與選舉的候選人都不一樣,這個「誰」,在不同的選舉年份中怎麼做交叉對比?

想到的欄位:每次選舉的兩個人分別代表兩個黨派,為了做交叉對比,得票的主體用「黨派」

第四步:找原始數據

1、尋找美國州名的數據。

在電腦上搜索到有州名的網頁,上面看到一張州名列表。我們用EXCEL根據以下步驟把這張表提取出來。

2、獲取近三年的選票數據。

在網上找到2016年選票數據,用EXCEL直接獲取下來。(步驟如上略)

但是找2012年選票數據的時候,只找到一個選票地圖

再去找2020年選票,找到最詳細的數據,複製時發現是「圖片格式」!

那我們怎麼獲得圖片裡這些數據,難道要抄下來?

不!我們是「數據分析師」,我們要專業,不能手抄,我們用Python!

Python獲取圖片中信息:

市面上有免費圖片文字識別的開源功能,我們只需要調用相應接口,此處選擇了百度的圖片文字識別。

思路:用Python 調用現成的「圖片文字識別接口」,識別提取兩張圖片中的文字數字信息。

按照教程先安裝「百度接口包」

打開python的shell 如下圖安裝「百度接口包」

再按照教程「新建AipOcr」

打開自己的Python編輯器(此處我用的是PyCharm),把教程上的代碼拷貝到PyCharm

以上步驟是生成一個Client對象,這個對象能調用「百度接口」裡面的各種功能接口。

那麼下一步告訴python,這個對象要去調用哪個接口。如下圖我們之前選擇了「通用文字識別(高精度版)」

在接口說明裡,找到了這個接口的調用方法,按照教程,把需要的部分拷貝下來

獲取完官方標準的教程代碼,現在我們來完善他。去「控制臺」註冊登錄帳號和創建應用。

更新完ID再告訴python是哪張圖片

Python默認去識別同一個項目文件夾下的圖片,所以把之前網絡上找到圖片直接保存在python這個代碼的文件夾下

當然也可以再調用兩個包,做成「截圖,保存,識別文字,三個步驟一體的python小工具」,此處不做展開。

最終修改完成的代碼如下:

from aip import AipOcr # 要先完成 pip install baidu-aip

#""" 你的 APPID AK SK """

APP_ID = '你的APP_ID'

API_KEY = '你的API_KEY'

SECRET_KEY = '你的SECRET_KEY'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

while 1:

#""" 讀取圖片 """

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read()

image = get_file_content('2020vote.jpg')

#""" 調用通用文字識別(高精度版) """

client.basicAccurate(image);

message = client.basicAccurate(image)

message_result = message['words_result']

for i in message_result:

print(i['words'])

break

第五步:數據清洗

此處數據量不大,把獲取的數據放在excel裡面清洗後,得到格式統一的表。

第六步:數據分析

有清洗乾淨的完整數據之後,我們開始探索分析,這裡用一種簡單又低成本的方式:Power BI

為了便於分析,再載入一張年份表和一張黨派表

全部載入後,在Power BI裡面做一個簡單建模

先做個選票地圖看看

看著做完的地圖,似乎發現了些什麼!

首先,氣泡大小代表州的票數,雖然每年根據人口數量相應票數有變化,但是大體基本一致。

其次,這三張圖,看著很相似,顏色的分布變化不大。也就是說,每年都有一些固定支持共和黨或者固定支持民主黨的州。

最後,有少部分州,是每年支持的黨派都不一樣。

這部分的結論是:雖然每次選總統是兩個人競選,但其實支持他們的人,很多是出於這些人所在的黨派。

再去探索一下票數

可以看出每個不同的州,票數相差很遠,有約20%左右的州,佔到總票數一半以上。也就是以下地區可投選票的數量較多

這部分結論是:儘量去爭取上圖的州,獲勝機會大。

第七步:得出結論

最後總結數據分析結論如下:

1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會在兩黨之間搖擺,也就是說,美國總統大選,候選人背後代表的黨派影響力,大於他們個人的影響力。

2、從競選策略上來說,每年可以「不用太關心」一定會投票給自己黨派的州,應該把重點放在「搖擺州」上。而「搖擺州」應該先從上圖中佔票數多的州開始爭取,然後再根據各州的票數佔比,區分輕重緩急依次做競選攻略。

總結

做了一次完整數據分析,讓我們回顧整個步驟:

第一步:確定分析目的

第二步:理解業務

第三步:確定研究指標

第四步:尋找原始數據

第五步:數據清洗

第六步:數據分析

第七步:總結結論

以上就是一次標準又簡潔的數據分析全過程演示。然而,在實際的業務分析中,一般在第七步得到了結論後還會回到第一步分析的目的,去與業務或者運營人員溝通,反饋結論,比如是否有異常、異常原因、下一步動作等事宜,這也就使數據分析形成了「閉環」。然後相關業務人員再次提出疑問去確立新的分析目標,通過如此反覆的迭代優化及分析,可提高營銷活動有效性,提高投資回報率等等數據指標……「閉環」其實就是「揚長避短」,讓數據引導動作到更有價值的地方,實現資源配置最大化,也就是所謂的數據驅動業務。

總而言之,數據分析的有趣之處就是,當你把自己想成福爾摩斯的話,那數據背後一定存在真相。也由此可見,數據分析的應用範圍很廣,在各行各業都可以滲透,為什麼可以滲透?那是因為各行各業都離不開數字,只要有數字的地方,就有數據分析的用武之地;且數據分析的內容也可以很深,從加減乘除算數運算,到建模回歸機器學習,都已經廣泛運用起來了;從上面的分析看,數據分析的工具那更是數不勝數,爬蟲、清洗、可視化、資料庫等,只有你想不到的,沒有市場上滿足不了需求的。數據分析就像一雙翅膀能讓你飛得更遠,希望大家通過這個具體的例子,學會用數據分析賦能到你工作生活的方方面面。

- DataCastle -

相關焦點

  • 從美國大選預測分析,聊聊數據分析的7個段位
    2020年美國大選馬上就要揭曉結果了,最近大選預測的文章好多。看了幾篇,發現預測大選的方法和數據分析挺像。總結了幾種預測,差不多是青銅到王者都有,一起看看這些分析都有哪些類型。你回答的是誰當選都一樣。當然,他們這麼寫更多的是給熱血讀者看的。在這個層面上,回答的其實很好。對於數據分析來說,這種直接青銅級,完全答非所問。02 白銀白銀級選手會這麼說:此次美國大選,雙方都有機會。民主黨的拜登為什麼會贏?因為大家都煩川普、民調佔優巴拉巴拉,說一些拜登能當選的原因。
  • 麥克講堂—手把手教你進行吸附熱分析(20200616)
    分析吸附熱數據時有哪些關鍵點呢?本次講堂將手把手教你搞定吸附熱數據。查看「手把手教你進行吸附熱分析」視頻麥克儀器公司成立於1962年,總部位於美國喬治亞州諾克羅斯,在全球擁有400多名員工。公司同時具備豐富的科學知識庫和一流內部生產製造,為石油加工、石化產品和催化劑、食品和製藥等多個行業,以及下一代材料例如石墨烯、MOF材料、納米催化劑和沸石等表徵提供高性能產品。公司設有Particle Testing Authority(PTA)實驗室,可提供商業測試服務。
  • 數據分析|1000萬+,疫情下的大選,讓美國深陷撕裂
    根據美國大選規則,若是最終結果確認有效,拜登將成功當選美國第46任、第59屆總統。 美聯社消息,拜登在競選活動中重點關注應對新型冠狀病毒大流行,並承諾將團結這個嚴重分歧的國家,並且此次大選兩位候選人的得票總數都創出紀錄。 雖然從目前的票數上看,拜登已經有270票,但共和黨候選人唐納·川普尚未承認敗選。
  • win7放大鏡怎麼用? 手把手教你使用win7電腦放大鏡
    win7放大鏡怎麼用? 手把手教你使用win7電腦放大鏡時間:2018-03-27 08:25   來源:系統天堂   責任編輯:沫朵 川北在線核心提示:原標題:win7放大鏡怎麼用? 手把手教你使用win7電腦放大鏡 win7放大鏡怎麼用?
  • 手把手教你用R語言分析歌詞(附代碼)
    原標題:手把手教你用R語言分析歌詞(附代碼) 雷鋒網按一些研究甚至表明在排名第一的熱門歌曲中,使用的詞彙與美國三年級學生的閱讀水平是一致的。是否可以使用文本挖掘、自然語言處理、機器學習或其他的數據科學方法來對這樣的主題進行深入了解? 是否可以根據一首歌曲的被接受程度來確定對社會具有吸引力的主題? 是否可以預測是否一首歌曲會做的很好僅僅依賴於歌詞分析? 在第一個教程中,作為探索性的練習,你將會檢查Prince音樂的歌詞複雜程度。
  • 手把手教你學ELISA、PCR、免疫組化
    1.手把手教你學ELISAELISA的基礎是抗原或抗體的固相化及抗原或抗體的酶標記。結合在固相載體 表面的抗原或抗體仍保持其免疫學活性,酶標記的抗原或抗體既保留其免疫學活性,又保留酶的活性。2.手把手教你學PCR實時螢光定量PCR,簡稱RT-QPCR,屬於Q-PCR的一種,目前該技術已得到廣泛應用,如:擴增特異性分析、基因定量分析、基因分型、SNP分析等。
  • 剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用
    剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用時間:2020-07-01 17:09   來源:騰牛網    責任編輯:沫朵 川北在線核心提示:原標題:剪映素材庫在哪裡 手把手教你剪映素材庫怎麼用 剪映是非常好用的剪輯工具,現在很多人都愛用,裡面有很多功能,可以製作出很好的視頻。
  • SEM技巧:手把手教你做數據分析
    很多人都會覺得做數據分析很難,但是通過不斷地學習與練習,再加上技能和方法的掌握,你一定會發現數據分析其實並不難!很多剛入門SEM的小夥伴都覺得數據分析很難,尤其是看到那一堆密密麻麻的數據時更是無從下手,一臉懵逼。這是每個人都會經歷的困惑,不過只要你不斷地去摸索、學習,會發現其實數據分析也沒想像中的那麼難嘛!但,要注意方法!
  • 手把手教你手機開wifi熱點,共享移動數據給筆記本電腦上網
    有時候家庭寬帶出現故障不能上網時,或回農村老家沒有寬帶時等各種情況,需要用筆記本上網怎麼辦呢?此時可以用手機開wifi熱點,共享移動數據給筆記本電腦上網。下面手把手教你怎麼設置。1、手機打開移動數據。2、打開無線和網絡後,點擊裡面的移動數據,如下圖所示。3、打開移動數據後,點擊移動數據後面的開關,開啟移動數據上網。如下圖所示。4、返回上一步在無線和網絡裡面,點擊移動數據共享後,點擊可攜式WLAN熱點。如下圖所示。5、點擊右側,開啟熱點。
  • 手把手教你用 Origin 做單次測量數據方差分析
    方差分析包括單測量數據方差分析 one(單因素水平)/two(雙因素水平)-way ANOVA和重複測量數據方差分析 one/two-way repeated measures ANOVA。
  • 手把手教你按照孩子體重換算退燒藥的用量
    手把手教你按照孩子體重換算退燒藥的用量 2020-12-27 08:00 來源:澎湃新聞·澎湃號·湃客
  • 手把手教你如何在WPS表格中求標準差
    手把手教你如何在WPS表格中求標準差時間:2017-08-08 14:42   來源:系統天堂   責任編輯:沫朵 川北在線核心提示:原標題:wps如何求標準差? 手把手教你如何在WPS表格中求標準差 wps如何求標準差?怎麼求一系列數據的標準方差呢?對於很多網友來說,這個還是很難的問題,所以今天小編為大家帶來相關介紹。
  • 手把手教你看象限儀座流星雨
    這次,我就手把手教大家如何觀測流星雨這一重大天象。(當然了沒看到的話也別打我…誰讓這次流星雨的觀測條件惡劣呢……)  流星簡介  (如果不想看太多專業的東西請直接跳過看後面)  先給大家簡單介紹一下流星。
  • 血常規結果怎麼看?主要有三個指標,手把手教你
    主要有三個指標,手把手教你 2020-10-10 06:55 來源:澎湃新聞·澎湃號·湃客
  • 手把手教你提交晶體結構數據
    國家微生物科學數據中心接收數據後,當天完成數據審核後當天上線,PDB資料庫在一個月後公布該結構數據,4月9日,國際著名期刊《Cell》正式發表相關文章,目前該數據已經在國家微生物科學數據中心(NMDC)被下載超過一萬次。
  • 手把手教你提交晶體結構數據
    國家微生物科學數據中心接收數據後,當天完成數據審核後當天上線,PDB資料庫在一個月後公布該結構數據,4月9日,國際著名期刊《Cell》正式發表相關文章,目前該數據已經在國家微生物科學數據中心(NMDC)被下載超過一萬次。
  • 「美國大選」用英語怎麼說?
    若群滿,歡迎掃描下方小編微信二維碼,備註:加入讀後續寫研討群,小編會拉你入群交流! 美國大選選情繼續膠著,暫時仍未產生獲勝者。 據報導,當地時間4號,川普競選團隊已考慮針對「搖擺州」的計票問題採取法律行動。同一天,美國民主黨總統候選人、前副總統拜登發表講話,對勝選表示樂觀。
  • 手把手教你看懂視力表和驗光單,10分鐘小白變專家!
    孩子們每年都要檢查視力,作為家長的你,是否能看懂圖表上的1.0和5.0代表什麼意思嗎?今天,小編手把手教你如何看懂視力表和驗光單,10分鐘一、視力表如何看?實際上1.0和5.0這兩個都是標準的視力線,區別是用不同的計數方法來表達視力情況:1.數值在4.0-5.3之間的是五分制視力表,5.0是正常的標準視力線
  • 手把手教你如何使用斐波那契回調線
    原標題:手把手教你如何使用斐波那契回調線 阿薩社區FXMAP 最優秀的外匯投資者,都看這裡「阿薩社區FXMAP」提供最新的外匯類原創、乾貨文章,深度解析外匯金融市場,致力於為廣大外匯交易愛好者提供最純粹的外匯交易體驗。
  • 手把手教你用PyTorch實現圖像分類器(第一部分)
    本文的目標不是提供手把手的指導,而是幫助理解整個過程。如果你正在考慮學習機器學習或人工智慧,你將不得不做類似的項目,並理解本系列文章中介紹的概念。文章主要進行概念上的解釋,不需要知道如何編寫代碼。此外,下面所包含的PyTorch細節是次要的,主要以PyTorch作為示例。