美國東部時間12月14日,美國50個州及華盛頓特區的538位選舉人,分別代表本州選民在各州州府投出選票。民主黨當選總統拜登獲得了預期306張選舉人票,超過獲勝所需的270票。
回顧起來,2020美國大選就像一場跌宕起伏的足球比賽,意外不斷:意想不到的開局、大熱門丟失領先優勢、被逼到懸崖邊上的絕地反擊、終場前的接連反殺、富有爭議的判決、賽後雙方的撕X大戰……
拋開政治因素不談,一場精彩的比賽往往是最好的談資,遠在它正式開場之前,圍繞著「誰是最後勝利者」的話題,便已延伸出各式各樣的解讀版本。傳統民調、知名學者、大數據AI公司等各逞其能,五花八門的預測分析層出不窮,熱鬧程度不亞於兩位候選人之間的唇槍舌戰。
現在塵埃落定,再將那些推論翻出來復盤,才發現誰真正站在高樓上盡收風景,誰只是趴在樓梯上憑欄自語。傳統民調預測錯了大部分搖擺州的結果;「四十年未看走眼」的美國教授,再次證明經驗的力量,成功預測;更多的大數據公司則加入了預測遊戲,證明自家技術實力。
為何民調再次失準?
先說一下比較靠譜的,有一個被譽為「四十年未看走眼」的美國歷史教授艾倫·李奇曼,這哥們曾成功預測九屆美國大選,今年大選之前他表示看好拜登勝出。加上今年這次,連續十次成功命中,艾倫·李奇曼靠的不是運氣,而是使用「13個關鍵指標」的預測模型,涵蓋經濟預期、社會動蕩、外交軍事成就等關鍵數據。
說到預測,很難不提到美國大選民調數據。有人開玩笑說,川普到現在還不承認是輸家,但美國大選的另一個輸家卻是顯而易見——民調。
在愛荷華、佛羅裡達、密西根、德克薩斯等州,大多數民調都低估了川普的實力。拜登並沒有像民調顯示的那樣,壓倒性地贏過川普,多數僅以不到2個百分點的優勢擊敗川普;而在佛羅裡達州,川普以51%比48%的得票率擊敗拜登,更是一度讓選情陷入膠著。
而這並不是民調在美國大選中的第一次失利,2016年在各種民調中遙遙領先的希拉蕊輸給川普,已是人盡皆知。
為什麼民調的表現如此差勁呢?
從統計學上來說,民調使用抽樣概率只能在結果上儘可能貼近真實情況,若是要在95%的置信水平下達到3%的抽樣誤差,每州需要抽選600-2000人不等。並且,抽選的樣本既要有一定的隨機性、又要能夠反映一定的人口特徵,這其中就涉及到了種族、年齡、性別、宗教、受教育情況等。
2016年民調的最大失誤是對受訪者教育程度的忽視。當時的民調以電話和網絡調查的形式為主,使得高等教育人群應答率較高,而該類人群更傾向支持民主黨;受到民調忽視的藍領白人,則更多支持川普。
鑑於2016年的教訓,2020年大選民調大多對教育背景進行了加權處理,為什麼還會出現表現不佳的現象?首要的因素來自未定選民的變數。每次大選前,仍有大量選民還未決定其選票的歸屬,這部分人群的極高不確定性將持續影響民調結果的準確性。
換言之,民調並不能如所有人期待那樣,覆蓋到影響大選的所有因素,而往往一兩個被忽視的因素,就可能成為影響最終結果的變量。
大數據預測脫穎而出
既然民調嚴重失準,那還有什麼辦法可以準確預測美國大選結果呢?從《華爾街日報》報導來看,AI公司有著不錯的「戰績」。
例如,義大利的NLP公司的Expert.ai根據過去選舉的數據和相關的數百萬社交網絡內容,比較準確地預測了拜登贏得 50.2% 的選票,而川普為47.3%。
美國加州的智能公司Unanimous.ai則通過收集不同群體(諸如大宗商品投資者)的預測和決策來做判斷,準確地預測了8個搖擺州的結果,而且預測到了哪些州的競爭更為激烈。
國內也有不少研究機構利用數據建模,對美國大選結果進行預測。例如,復旦大學複雜決策研究中心採用ABM仿真模擬模型(Agent Based Modeling)來預測選舉,其顯著特點是依賴真實數據並運用基於行為主體的決策模型,而非依賴於民調結果和專家的個人判斷。
為什麼通過數據模型進行大數據預測,會比民調來得精準?原則上來說,大數據的數據量會比民意測驗的數據量高几個量級,所能得到結果將更貼近真實情況。好比2016年,多數傳統民調預測希拉蕊將獲勝,但有些數據分析人員根據推特情緒大數據的分析結果,認定最後的贏家將是川普。
當然,大數據也是有局限性,並不是只要通過大數據處理,得到的預測就一定準確,還取決於數據量、數據相關性、數據維度等多種因素,以及所採用的策略和分析方法。
有些研究同樣是通過數據模型進行預測,但跟上述案例不同的是,這些研究基於原始民調數據調整,結合其他因素對各州大選日支持率進行預估,以得到修正後的民調數據,但預測結果與實際情況並不相符。
主要原因在於策略有誤,這些研究沒有充分考慮到2020年「黑天鵝」頻出的時代背景,以及所帶來的衝擊。在利用數據模型進行決策輔助時,大數據、算法和專業判斷缺一不可,專業判斷上出現問題,就算有再好的數據和算法也無濟於事。
具體分析,可借用金融風控原理來解釋。這些研究使用的數據模型更接近於營銷模型,在這種模型下誰更受歡迎,誰獲勝的概率就更高。這類數據模型適用於正常年份下的大選預測,卻不適用於2020年這種非正常年份。在今年的時代背景下,美國大選更像是在選擇一個更不討厭的人,從數據模型角度來看,更接近於一個風控模型,評估誰的潛在風險更低。
這些研究參考其他指標,對數據模型進行調整後認定,民調低估了川普的受歡迎程度,川普的實際得票率將高於民調數據。實際上,若利用風控模型進行預測便會發現,輿情熱度等相關指標並沒有消減川普的失票風險,甚至有加大失票風險的可能性,因此民調不是低估了川普的得票情況,相反有些民調還高估了川普的得票能力。
從這一方面來看,大數據應用就像是一把「利刃」,能不能精準刺中痛點,與「持劍人」自身能力息息相關,畢竟不是每個人都能成為「屠龍的勇士」。
大數據如何解決金融的核心問題
談及金融風控問題,風控一直是金融行業的最為核心和艱難的環節,在實際操作中,為了完成績效,風控專家常常被要求在前端調整風控模型,擴大獲客入口,但這樣又會導致壞帳率提高,貸後管理難度加大,這種現象被稱為「米奇效應」,用以描述風控行業是「風箱裡的老鼠,兩頭受氣」的尷尬狀況。
大數據風控技術的發展在精確度和可控性上讓「米奇效應」得到緩解。舉個最簡單的例子——金融反欺詐。拿常見的信貸行為來說,常見的在線借貸欺詐行為有中介代辦、團夥作案、機器行為、帳戶盜用、身份冒用和串聯交易等。在金融科技快速發展的今天,金融欺詐行為仍未得到有效的控制,反而藉助技術發展不斷滋生出新的欺詐形式,造成金融欺詐風險不斷升級,對金融行業安全構成威脅。
而傳統金融機構的信用風險管理,大多藉助於徵信來判斷,這跟總統選舉使用民調來判斷結果類似,由於所獲取的信息有限,容易導致判斷結果與實際情況存在偏差。前者無法精準識別用戶的信用風險,後者無法準確預見誰是勝利者。
怎麼防範金融欺詐風險呢?可以通過深度學習、遷移學習、知識圖譜、小樣本無監督學習等建模技術,結合嚴格的效果驗證,構建起適用於多類產品及客群的精細化風控模型;同時,依據海量的真實貸後表現特徵,結合拒絕推斷技術及多類金融產品的欺詐風險流程經驗,以有效識別欺詐客群,提高風險的可控性。
簡單來說,你要判斷這個人有沒有欺詐風險,就得採取各種方式從更多維度去了解這個人,最好做到比他自己還了解他自己。這裡面有幾個關鍵點:第一,你要有足夠的信息量以及處理大規模信息量的能力;第二,在信息割裂、小數據場景下,能夠進行基於大樣本建模的基模型遷移學習;第三,有能力確保信息隱私安全,在合規條件下使大數據應用的價值最大化;第四,具備專業判斷能力,能夠精準洞察需求,制定針對性強的策略與解決方案。
前述的預測美國大選也是如此,在精準識別需求、制定有效策略基礎上,能夠獲得更多具有代表性的選民意願信息,具備快速處理這些信息的能力;或者找到不同信息間的關係,能夠將一個場景模型遷移到另一個場景進行使用,所得出的結論準確性便更高。
既然預測美國大選都已經有那麼多具備數據分析背景的專業機構,那麼識別金融欺詐風險上有沒有如此專業的機構,不僅有行業領先的技術,還有豐富的經驗和出色的洞察分析能力,具備「一擊即中」的能力呢?融360|簡普科技旗下的專業數字金融服務平臺——佔融數科便是其中翹楚。
憑藉在金融反欺詐領域深耕多年的服務經驗和產品優勢,佔融數科不僅能幫助金融機構提升精準風控能力,大大提高反欺詐名單的有效識別度,還能對拒絕放貸的每一條維度進行詳細的解釋,有效減少「誤殺」現象的發生。前段時間,佔融數科還因此拿下豐田汽車金融反欺詐項目,成為其合作夥伴。
當然,佔融數科的本事不僅於此。其通過人工智慧、雲計算等技術,為銀行、持牌消費金融公司、保險等金融機構提供行業領先的數字金融服務,貫穿智能營銷、智能信審、貸中監控、貸後管理等全流程業務線條,覆蓋資產對接、流程設計、風險控制、系統實施、運營管理等領域,幫助金融機構持續提升運營能力、加速數位化轉型。
目前,佔融數科已經累計服務數千家金融機構,參與超過億次信貸決策,為千億資金的安全提供有力保障。未來,佔融數科仍將繼續致力於科技創新,幫助金融機構為用戶提供更為健全、安全、便捷的金融服務,實現「讓金融更簡單,成為每個人金融夥伴」的使命與願景。