來源:AI前線
作者 | Kyle Wiggers
譯者 | Sambodhi
策劃 | 劉燕
預測美國大選,人工智慧會比民調更準確嗎?
本文最初發表於 venturebeat,由 InfoQ 中文站翻譯並分享。
預測美國 2020 年總統大選結果的一些民調似乎並沒有實現準確的猜測。
聚合網站 RealClearPolitics 的數據顯示,前副總統拜登比現任總統川普領先 7 個百分點,而 FiveThirtyEight 的數據顯示,拜登在全國平均至少領先 8 個百分點。實際上,這場大選更加激烈。例如,在佛羅裡達州,FiveThirtyEight 顯示拜登以 2.5 個百分點的領先優勢贏得勝利,但川普卻在邁阿密 - 戴德縣獲得了意想不到的支持。
民意調查並非一門完美的科學。
2016 年大選前的報告顯示,希拉蕊在全國領先,在威斯康星州、密西根州和賓夕法尼亞州等州的競爭更為激烈。但川普最終獲得了贏得大選所需的 270 張選舉人票。一份來自美國民意研究協會(American Association for Public Opinion Research)的報告得出結論,稱州一級的民調「低估了川普在上中西部地區的支持率」,預測人士指出,這些州缺乏高質量的民調數據。
那麼,比起主要依靠電話和網上小組調查的傳統民調,是否有更準確的方法來預測選舉結果呢?
KCore Analytics、Expert.AI 和 Advanced Symbolics 等公司聲稱,算法能夠捕捉到更廣泛的選舉動態,因為它們利用了諸如 Twitter 和 Facebook 消息等這樣的信號。
但是,目前還不清楚在 2020 年大選之後,人工智慧是否比民調更準確。
KCore Analytics 從社交媒體的帖子中預測,拜登將在民眾投票方面擁有很大的優勢,大約為 8、9 個百分點,但在選舉人團投票方面的優勢微乎其微。
總部位於義大利的 Expert.AI 發現,拜登在社交媒體上的情緒方面排名較高,認為民主黨候選人略微領先川普(50.2% 對 47.3%)。
相反,Advanced Symbolics 的 Polly 系統,由渥太華大學的科學家開發,其預測結果完全是錯誤的,該系統的預測結果顯示,拜登獲得了 372 張選舉人團選票,而川普則獲得 166 張,這要歸因於該系統預期拜登在佛羅裡達州、德克薩斯州和俄亥俄州獲勝,而這些州正是川普的票倉。
與民調類似的一點是,由算法驅動的預測中的一些差異也可以歸因於方法上的差異。
Expert.AI 利用一個知識圖譜來標識命名實體(包括人員、公司和地點),並嘗試對它們之間的關係進行建模。該公司表示,其系統將 84 個情感標籤附加到來自 Twitter 和其他網絡的數十萬條帖子上,這使得它能夠半自動地清除社交媒體中的「殭屍」帳戶。
Expert.AI 的算法對標籤進行排名,從 1 到 100(反映其強度),並將其乘以每個候選人出現的次數。與此同時,它將情緒分為「積極的」、「消極的」,並利用這一點來創建一個指數,可以比較這兩個候選人。
相比之下,KCore Analytics 公司聲稱他們已經使用了超過 10 億條經挖掘的推文來指導他們的預測,他們利用端到端的框架來尋找 Twitter 等網絡中的影響力人物和標籤。數據的選擇是基於內容和頻率,表面上看是實時的,但排除了機器人,一個名為 AWS-LSTM 的人工智慧模型對這些數據進行分析,並進行意見分類,據稱正確率高達 89.5%。
至於 Polly,它收集了一個隨機的、可控的美國選民樣本,通過他們在社交媒體上的帖子和對話進行識別。在 11 月 3 日之前,這一總數為 288659 人。
使用人工智慧預測選舉結果的一個挑戰是,必須訓練算法學習與全國預測相吻合的選舉人團的不同模型。另一個問題是,它們需要微調自己,以發現對特定少數群體和地區重要問題。群體越小,就越難以找到。
根據 Advanced Symbolics 的說法,Polly 在這方面徹底失敗了。這個模型預測,佛羅裡達州將把投票給拜登,佔該州總票數的 52.6%,但這只是因為系統沒有對古巴裔美國人進行單獨採樣,而古巴裔美國人通常會投票給共和黨候選人。相反,Polly 將他們與委內瑞拉裔美國人和墨西哥裔美國人一起歸為「西班牙裔」。
Polly 團隊本周在一篇博文中承認:「我們需要在下一次選舉中加入更多的種族和地區『因素』。放大錯誤使它們更容易被發現,通過一個問題一個問題,一個州一個州地找到 Polly 誤入歧途的地方。」
模型還難以解釋美國的農村地區。
這是因為這些地區使用 Twitter 的潛在選民 比例較低,導致模型低估了拜登選民的優勢。此外,Twitter 上的川普潛在選民更少,因為這個社交網絡傾向於 自由派。這意味著川普支持者的推文在基於社交的選擇預測模型中具有更高的權重,但有時候還不夠高,就像 Polly 的情況一樣。
今年大選日,川普獲得了超過 6860 萬張選票,而 2016 年這一數字為 6280 萬張。在像邁哈密 - 戴德縣等預期成為「藍州」的縣中,截止 10 月 30 日,共和黨人的投票比例略高於民主黨人(該縣登記的共和黨人的比例佔 63%,民主黨人的比例佔 56%)。
KCore Analytics 等公司聲稱,他們的人工智慧模型優於傳統民調,因為它們可以擴展到龐大的潛在選民群體,並根據抽樣偏差(例如代表性不足的少數族裔)和其他限制因素進行調整,以預測大選結果。他們正確預測了 2016 年英國將投票脫離歐盟,並正確預測了臺灣 80% 左右議會選舉勝利者,以及接近印度和巴基斯坦的地區選舉。
但它們也並非萬無一失。
正如《財富》(Fortune)雜誌指出的那樣,這些模型都沒有考慮到法律挑戰、失信選民(指選舉人團成員不投票給他們承諾支持的候選人),或者可能影響選舉結果的其它混合因素。
就拿 Polly 來說,這些方法,與傳統民調一樣,它似乎也低估了 2020 年選民對川普的熱情,特別是在黑人和拉丁裔選民,以及 LGBTQ(譯者註:非異性戀者,即男女同性戀、雙性戀、變性人和對自己性別認同感到困惑者)群體中。
哥倫比亞大學統計學和政治學教授 Andrew Gelman 提出了這樣的觀點:與根據民調平均數得出的猜測相比,根據特定選舉年的某些變量調整的民調模型可能更接近實際情況。
「政治學家們已經開發了一些模型,這些模型能夠很好地預測基於所謂的『基本面』的全國投票情況:經濟增長、總統支持率和在任情況等關鍵變量。如果我們採用這些模型中的一種,並根據 2016 年以來各黨派的得票率情況(而不是利用最近的民調數據)進行調整,我們將會預測拜登將以微弱優勢獲勝」,Andrew Gelman 在《連線》(Wired)雜誌的一篇專欄 文章 寫道。
作者介紹:
Kyle Wiggers,技術記者,現居美國紐約市,為 VentureBeat 撰寫有關人工智慧的文章。
原文連結:
1.2020年第11期《單片機與嵌入式系統應用》電子刊新鮮出爐!
2.為什麼要用C語言實現面向對象?
3.27種不同程式語言能耗對比!
4.當所有需求都是第一優先級時,該怎麼辦?
5.這個物聯網作業系統—OneOS,來了解一下!
6.可怕,別人把我MCU固件給反彙編了!