數據分析:賓州資料庫缺失百萬選民投票記錄

2020-12-06 福樂強

2020年11月10日,費城民眾在選舉辦公室外抗議舞弊,手持標語「只計合法選票」 (Mark Makela/Getty Images)

美國各州州政府對待選舉,或多或少都做出擁有透明度的姿態,很多原始數據,官方都願意主動與民眾分享。賓州也不例外,在這個競選舞弊投訴非常多的州,選民的數據資料也是每星期更新一次,每次需付20美元即可下載。

筆者手上拿到四份分別是11月2日、9日、16日,及23日下載的賓州全部選民名單的資料集快照(dataset snapshot),用以對比分析,探尋舞弊投訴是否在數字庫裡有具體的體現。

經過比對發現,截至11月20日,賓州資料庫中記錄參與本次投票的選民人數,與媒體公布的選票總數相差一百多萬。

選民資料庫資料應與選民總數一致

首先介紹一些基本數字:資料庫裡包括九百多萬行登記選民的資料,每個選民的資料包含153項屬性,包括選民編號、人名、地址、黨派、學區、選區、每次選舉分別採用的方式、紀錄更改日等。其中第一個值得注意的是累積投票人總數,這個數據每州的選舉資料庫都應該有,但可能用不同的方式表達。

例如,內華達州選民登記數據集是截止到11月6日晚間,資料庫裡看到一欄屬性是「選舉日」(Election Day),數這一欄有多少個「2020-11-03」就會得到1,394,715個結果,即截至11月6日內華達州已有約139萬選民完成了本次投票。11月15日新聞看到有1,405,376人,內華達州這兩個數字基本算是吻合的。

又例如,華盛頓州允許郵寄投票,筆者所下載的資料庫是截止到11月2日的版本,同樣道理,把「最後一次投票」(LastVoted)那欄裡的「2020-11-03」都加起來得到3,230,733個結果,新聞報導中參與提前投票的選民則為3,545,289人。也就是說,到11月2日為止,華盛頓州資料庫中記載有323萬名選民已經投票,與新聞中說的354萬人也很接近,十分之一的差距可能來自早晚截止時間不同的差距,屬於正常範圍內。

州政府或各新聞機構所報告的參加選舉的選民總數必須和資料庫裡算出總數大致一樣,這是常識,也是以下要談論的重點。

賓州資料庫一直缺少上百萬人投票信息

在賓州的資料庫裡,在153個屬性中,排列#26的屬性 Last Vote Date =』2020-11-03』這一欄擁有類似的內容。如下圖所示:

11月1日,賓州資料庫記錄有240萬人已投票;11月8日,資料庫記錄有372萬人已投票;11月15日,資料庫記錄有447萬人已投票;11月20日,資料庫記錄有585萬人已投票。(數據來源:賓州政府資料庫)

可以看到三星期來累積投票人數是一直在增長,11月1日是2,404,653,11月8日是3,722,445,11月15日是4,472,083,11月20日是5,850,725。

問題來了,以11月15日為例,賓州政府及新聞媒體公布的已投票人數是 6,857,562張選票,其中拜登 3,423,976票,川普 3,354,836票,喬根森(Jo Jorgenson)78,750張。而從資料庫裡只看到4,472,083人已投票,兩份數據相差2,385,479人。如下圖所示:

選舉結束以後,賓州政府資料庫中記錄已投票的人數(黃線)與媒體公布的總票數(藍線)一直有缺口,缺口從11月3日的330萬縮小到了20日的100萬。(數據來源:賓州政府資料庫)

也就是說,到11月15日為止,有238.5萬多張選票來路不明,超過三分之一的選票資料庫裡根本沒有紀錄。這也佐證了川普競選團隊數據和策略總監馬特布雷納德團隊(Matt Braynard)在11月16日所描述的賓州現象:他們在大選後調查了1137人,其中超過三分之一的人寄了選票,卻無法在政府的驗證網頁上查到已投票的紀錄。

到了11月20日,基本應該已經全部檢查完了,這個缺口還是有一百萬左右。

當資料庫裡的總投票數一直嚴重低於真實的投票數時,意味著什麼呢?

重複投票的隱患

這意味著資料庫裡更新投票日期、拒絕重複投票的功能選擇性失效了;或者新聞報導的已投票數據是虛構的,是虛構了上百萬張選票。

在這裡簡單解釋一下這「更新投票日期」功能在資料庫中的重要性:

正常來說,如果甲投票了,系統掃描進去,資料庫更新了他的投票日子。他出去轉了個圈又跑回來,想再投一次票,投票系統一檢查,「哦,他的投票紀錄已更新為『2020-11-03』了,他已投過票了。」他就不能投票了。

如果三分之一的人在資料庫裡的「更新投票日」這一功能失效,他們就能重複多次投票,系統會一直接受!這樣才能解釋:一面是1137人,超過三分之一的人寄了選票,卻在資料庫裡查不到他們自己已投票(投票日期沒有更新),而另一面州政府那裡點票比資料庫裡多出了超過百萬張選票這種怪異的現象。

將某段時間、某個投票地點、某些選民特定為無需「更新投票日」、這在技術設置層面是非常容易做到的,但這是有差別地對待選民,是違反選舉法的。也使得不法選票可以多次掃入,不被系統拒絕!可以說這是不法選票混入合法選票的通道。

當然,筆者是在做資料庫走向和其功能分析,這裡技術失誤是應該被考慮到的。例如,當機、程序故障、操作不當等,一切技術失誤都可能造成數據的錯亂和丟失,這時資料庫高級管理人員應該立即通知選民暫停選舉,維修後再重選。可是我們沒有查到有這樣的通知。我們有理由懷疑這多出的上百萬張選票中有很多是來路不明的。

「郵寄選票數據集」已做篡改

鑑於賓州政府在外媒發表的《賓州選票數據疑點淺析 220歲老人郵寄投票》這篇文章見報後,將該文中公開的「郵寄選票數據集」已做篡改,並且不讓公眾再去下載。再過一兩個星期本文所述的這個數字缺口很可能又會被修補上了。

由此,筆者對賓州政府及其資料庫高級管理人員提出的問題是:你們在大選前後這一個月以來,用什麼機制保證不混入重複選票的?這是個永恆的問題,不是個通過補上數據就能解釋的問題!

假設重新計票,必須用獨立的掃描器記錄所有重新計票的選票上的選民編碼,只要出現重複的選票,就立即作廢。最後若發現合法選票大大少於公布的數據690萬,筆者絕不會吃驚。因為現在賓州資料庫的走勢就是這麼荒誕。

筆者非常鼓勵專業數據人士去研究各選舉問題州的資料庫,發現事實真相找出問題所在。鼓勵下載,留下證據。

相關焦點

  • 美媒更新賓州計票數據,拜登暫時領先川普
    CNN稱,他們正在賓州就民調觀察員和選民身份證明法提起訴訟。(界面新聞)北京時間5日5時56分:民主黨總統候選人拜登拿下密西根州,獲得該州16張選舉人票,至此共獲264張選舉人票。川普目前獲得214張選舉人票。
  • 什麼是資料庫DataBase?資料庫和數據記錄的概念簡單講解
    那麼,我們得出了這樣的結論:①數據不一定是數字②數據是用來描述事物的③數據是可以存儲④上述描述事物的數據的集合就構成了資料庫例如:姓名:張一;性別:男;年齡:55;組織:保衛處 構成了對保衛處某員工張一的描述,這個就是數據,若干這樣的數據組成的集合就構成了某公司人員的資料庫。
  • 賓州法官裁定:州府改郵寄投票法是違憲
    圖為賓夕法尼亞州選民舉牌抗議民主黨選舉舞弊賓夕法尼亞州聯邦法官帕特裡夏.麥卡洛(Patricia McCullough)周五(11月27日)晚間裁定,賓州州府在2019年籤署的郵寄投票77號法案違憲,並暫時進一步禁止賓州認證其大選結果。
  • 【美國大選觀察】賓州決戰前專家細析選情
    此外,初選選民往往被稱為「按心意投票」的選民。由於是黨內選舉,他們並不在乎支持對象在之前各州的戰績如何,也不在乎後果。所以,只要希拉蕊堅持不退,支持者的熱情也不會消減。   阿莫諾斯認為,希拉蕊不甘放棄、強硬、堅忍的精神是很多美國人都欣賞的。只要她能證明自己有獲勝的能力,繼續留在競選隊伍中並不大會招致選民的反感。   而且,從賓州的情況看,希拉蕊在這裡的優勢比較突出。
  • 賓州大選訴訟遭駁回,留給川普的時間不多了
    該訴訟指控賓夕法尼亞州官員允許選民欺詐。地區法官布蘭恩(Matthew Brann)指出,川普團隊企圖利用訴訟來廢除合法選票。此前,川普的私人律師朱利安尼稱,賓州的郵寄選票程序為大規模選民欺詐提供了機會。布蘭恩法官在裁決中寫道,呈給該法庭的法律論據牽強附會、毫無根據,指控具有投機性質。
  • 埃及總統大選投票繼續進行 選民對新總統充滿期待
    國際在線報導(記者 黃元鵬):當地時間27日,埃及總統大選投票工作在埃及各地繼續進行。記者當天走訪了位於開羅地區的多個投票點,絕大多數受訪選民坦言,自己將選票投給了前軍方領導人塞西。退役少將裡茲格雖然腿腳不便,但他還是驅車來到吉薩一處專為老年選民設置的投票點,為塞西投上一票。「這次大選對於埃及的意義,不亞於1973年埃及軍隊越過蘇伊士運河收復西奈半島。
  • 手把手教你用數據分析看美國大選
    數據分析到底是什麼?該怎麼做?數據思維又是什麼?數據分析怎麼應用到日常工作生活? 為了更好的理解數據分析的這些問題,我們來結合美國大選這個具體例子,帶著大家做一場「探索性數據分析」。
  • 關鍵州選情白熱化:川普賓州優勢縮小,喬治亞州投票結果幾乎拉平
    CNN稱,他們正在賓州就民調觀察員和選民身份證明法提起訴訟。(界面新聞)北京時間5日5時56分:民主黨總統候選人拜登拿下密西根州,獲得該州16張選舉人票,至此共獲264張選舉人票。川普目前獲得214張選舉人票。
  • 數據分析|1000萬+,疫情下的大選,讓美國深陷撕裂
    ,大約35%的選民是衝著經濟目標投票的。 所以在這樣的背景下,民眾投票的意願空前高漲,許多民眾選擇前往投票站點進行投票,這增加了人們感染新冠病毒的風險。這一點在川普的支持者中表現的較為明顯。 皮尤研究中心的一項最新民意調查指出,58%的拜登支持者傾向於通過郵寄投票,而只有17%的川普支持者選擇郵寄投票。
  • 多些質疑;看不懂的數據顯示與投巨資地區……
    (圖片來源:Kamil Krzaczynski/Getty Images)美國民間團體「阿米斯塔德項目」(Amistad Project)的負責人菲利普.克萊恩(Phillip Kline)周一(11月30日)表示,美國聯邦調查局(FBI)正在要他們收集的選民欺詐數據,他們的數據顯示,在臉書為大選投入巨資的地區,大量的為川普總統投票的共和黨選民的選票或者沒有被計算在內
  • ...該州48%可能投票的選民支持拜登,47%支持川普,這在誤差範圍內...
    川普與拜登在佛羅裡達州和喬治亞州陷入僵持;①北佛羅裡達大學民意研究實驗室周二發布的民調顯示,該州48%可能投票的選民支持拜登,47%支持川普,這在誤差範圍內,差距比其它近期調查更小。②該民調中心主任Michael Binder表示,「儘管一些民調顯示拜登在佛羅裡達州和其它關鍵州大幅領先,但我們試圖抓住那些不易接觸到的選民的意見,我們的結果顯示11月3日可能是很漫長的一夜。」
  • 區塊鏈投票
    現在我們到了投票日。 在選民投票之前,必須先核實其身份,以確保他們有資格投票並且尚未投票。 在傳統投票中,當選民到達投票站時,分配給展位的選舉官員會驗證選民的ID,並確認選民尚未投票。 區塊鏈將加密技術的功能與透明性相結合,這使其成為在線投票的便捷且安全的選擇。 記錄在區塊鏈上的選票將具有防篡改功能。 人們現在可以在家中方便地進行投票。 他們可以在不損害安全性或隱私的情況下使用計算機或行動裝置進行投票。 此外,他們將能夠核實自己的選票並確保被計票。
  • ...至少有1.598億美國人在2020年總統大選中投票,合格選民當中的...
    文 / TIER2020-11-05 14:19:29來源:FX168 【美大選投票率創1900年以來最高】據美國全國廣播公司(NBC)當地時間11月4日預測,至少有1.598億美國人在2020年總統大選中投票,合格選民當中的投票率達66.8%
  • 美國大選最新進展:喬治亞州州務卿突然開始擔心州外投票的「非法...
    zerohedge報導,喬治亞州州務卿、共和黨人Brad Raffensperger當地時間周一表示,他突然開始擔心進步團體試圖在1月5日的參議院決勝選舉前爭取新選民。參議院決勝選舉可能會扭轉共和黨控制的眾議院的藍色局面。
  • 賓州「停止竊選」集會 民眾:拒絕黑暗 保衛美國共和制
    11月27日,「停止竊選」集會遊行持續在全美各地展開,在關鍵的賓州,選民對記者表達了即使受到威脅騷擾,也要捍衛祖輩傳承下來的偉大美國。記者:我們的位置是在賓州首府哈裡斯堡,這裡我們看到有不同的民眾來到這裡,參加第四周的「停止竊選」活動,我身後這邊是來自日本的朋友,他們是專程從日本坐飛機前來支持川普總統的。雖然這些遠程而來的日本人語言不通,但阻止不了他們表達對川普總統的支持。