大數據時代如何領先一步預測未來——美國大選與金融風控

2020-12-26 佔融數科

美國東部時間12月14日,美國50個州及華盛頓特區的538位選舉人,分別代表本州選民在各州州府投出選票。民主黨當選總統拜登獲得了預期306張選舉人票,超過獲勝所需的270票。

回顧起來,2020美國大選就像一場跌宕起伏的足球比賽,意外不斷:意想不到的開局、大熱門丟失領先優勢、被逼到懸崖邊上的絕地反擊、終場前的接連反殺、富有爭議的判決、賽後雙方的撕X大戰……

拋開政治因素不談,一場精彩的比賽往往是最好的談資,遠在它正式開場之前,圍繞著「誰是最後勝利者」的話題,便已延伸出各式各樣的解讀版本。傳統民調、知名學者、大數據AI公司等各逞其能,五花八門的預測分析層出不窮,熱鬧程度不亞於兩位候選人之間的唇槍舌戰。

現在塵埃落定,再將那些推論翻出來復盤,才發現誰真正站在高樓上盡收風景,誰只是趴在樓梯上憑欄自語。傳統民調預測錯了大部分搖擺州的結果;「四十年未看走眼」的美國教授,再次證明經驗的力量,成功預測;更多的大數據公司則加入了預測遊戲,證明自家技術實力。

為何民調再次失準?

先說一下比較靠譜的,有一個被譽為「四十年未看走眼」的美國歷史教授艾倫·李奇曼,這哥們曾成功預測九屆美國大選,今年大選之前他表示看好拜登勝出。加上今年這次,連續十次成功命中,艾倫·李奇曼靠的不是運氣,而是使用「13個關鍵指標」的預測模型,涵蓋經濟預期、社會動蕩、外交軍事成就等關鍵數據。

2016年艾倫·李奇曼成功預測川普當選

說到預測,很難不提到美國大選民調數據。有人開玩笑說,川普到現在還不承認是輸家,但美國大選的另一個輸家卻是顯而易見——民調。

在愛荷華、佛羅裡達、密西根、德克薩斯等州,大多數民調都低估了川普的實力。拜登並沒有像民調顯示的那樣,壓倒性地贏過川普,多數僅以不到2個百分點的優勢擊敗川普;而在佛羅裡達州,川普以51%比48%的得票率擊敗拜登,更是一度讓選情陷入膠著。

而這並不是民調在美國大選中的第一次失利,2016年在各種民調中遙遙領先的希拉蕊輸給川普,已是人盡皆知。

為什麼民調的表現如此差勁呢?

從統計學上來說,民調使用抽樣概率只能在結果上儘可能貼近真實情況,若是要在95%的置信水平下達到3%的抽樣誤差,每州需要抽選600-2000人不等。並且,抽選的樣本既要有一定的隨機性、又要能夠反映一定的人口特徵,這其中就涉及到了種族、年齡、性別、宗教、受教育情況等。

2016年民調的最大失誤是對受訪者教育程度的忽視。當時的民調以電話和網絡調查的形式為主,使得高等教育人群應答率較高,而該類人群更傾向支持民主黨;受到民調忽視的藍領白人,則更多支持川普。

鑑於2016年的教訓,2020年大選民調大多對教育背景進行了加權處理,為什麼還會出現表現不佳的現象?首要的因素來自未定選民的變數。每次大選前,仍有大量選民還未決定其選票的歸屬,這部分人群的極高不確定性將持續影響民調結果的準確性。

換言之,民調並不能如所有人期待那樣,覆蓋到影響大選的所有因素,而往往一兩個被忽視的因素,就可能成為影響最終結果的變量。

大數據預測脫穎而出

既然民調嚴重失準,那還有什麼辦法可以準確預測美國大選結果呢?從《華爾街日報》報導來看,AI公司有著不錯的「戰績」。

例如,義大利的NLP公司的Expert.ai根據過去選舉的數據和相關的數百萬社交網絡內容,比較準確地預測了拜登贏得 50.2% 的選票,而川普為47.3%。

美國加州的智能公司Unanimous.ai則通過收集不同群體(諸如大宗商品投資者)的預測和決策來做判斷,準確地預測了8個搖擺州的結果,而且預測到了哪些州的競爭更為激烈。

國內也有不少研究機構利用數據建模,對美國大選結果進行預測。例如,復旦大學複雜決策研究中心採用ABM仿真模擬模型(Agent Based Modeling)來預測選舉,其顯著特點是依賴真實數據並運用基於行為主體的決策模型,而非依賴於民調結果和專家的個人判斷。

為什麼通過數據模型進行大數據預測,會比民調來得精準?原則上來說,大數據的數據量會比民意測驗的數據量高几個量級,所能得到結果將更貼近真實情況。好比2016年,多數傳統民調預測希拉蕊將獲勝,但有些數據分析人員根據推特情緒大數據的分析結果,認定最後的贏家將是川普。

當然,大數據也是有局限性,並不是只要通過大數據處理,得到的預測就一定準確,還取決於數據量、數據相關性、數據維度等多種因素,以及所採用的策略和分析方法。

有些研究同樣是通過數據模型進行預測,但跟上述案例不同的是,這些研究基於原始民調數據調整,結合其他因素對各州大選日支持率進行預估,以得到修正後的民調數據,但預測結果與實際情況並不相符。

主要原因在於策略有誤,這些研究沒有充分考慮到2020年「黑天鵝」頻出的時代背景,以及所帶來的衝擊。在利用數據模型進行決策輔助時,大數據、算法和專業判斷缺一不可,專業判斷上出現問題,就算有再好的數據和算法也無濟於事。

具體分析,可借用金融風控原理來解釋。這些研究使用的數據模型更接近於營銷模型,在這種模型下誰更受歡迎,誰獲勝的概率就更高。這類數據模型適用於正常年份下的大選預測,卻不適用於2020年這種非正常年份。在今年的時代背景下,美國大選更像是在選擇一個更不討厭的人,從數據模型角度來看,更接近於一個風控模型,評估誰的潛在風險更低。

這些研究參考其他指標,對數據模型進行調整後認定,民調低估了川普的受歡迎程度,川普的實際得票率將高於民調數據。實際上,若利用風控模型進行預測便會發現,輿情熱度等相關指標並沒有消減川普的失票風險,甚至有加大失票風險的可能性,因此民調不是低估了川普的得票情況,相反有些民調還高估了川普的得票能力。

從這一方面來看,大數據應用就像是一把「利刃」,能不能精準刺中痛點,與「持劍人」自身能力息息相關,畢竟不是每個人都能成為「屠龍的勇士」。

大數據如何解決金融的核心問題

談及金融風控問題,風控一直是金融行業的最為核心和艱難的環節,在實際操作中,為了完成績效,風控專家常常被要求在前端調整風控模型,擴大獲客入口,但這樣又會導致壞帳率提高,貸後管理難度加大,這種現象被稱為「米奇效應」,用以描述風控行業是「風箱裡的老鼠,兩頭受氣」的尷尬狀況。

大數據風控技術的發展在精確度和可控性上讓「米奇效應」得到緩解。舉個最簡單的例子——金融反欺詐。拿常見的信貸行為來說,常見的在線借貸欺詐行為有中介代辦、團夥作案、機器行為、帳戶盜用、身份冒用和串聯交易等。在金融科技快速發展的今天,金融欺詐行為仍未得到有效的控制,反而藉助技術發展不斷滋生出新的欺詐形式,造成金融欺詐風險不斷升級,對金融行業安全構成威脅。

而傳統金融機構的信用風險管理,大多藉助於徵信來判斷,這跟總統選舉使用民調來判斷結果類似,由於所獲取的信息有限,容易導致判斷結果與實際情況存在偏差。前者無法精準識別用戶的信用風險,後者無法準確預見誰是勝利者。

怎麼防範金融欺詐風險呢?可以通過深度學習、遷移學習、知識圖譜、小樣本無監督學習等建模技術,結合嚴格的效果驗證,構建起適用於多類產品及客群的精細化風控模型;同時,依據海量的真實貸後表現特徵,結合拒絕推斷技術及多類金融產品的欺詐風險流程經驗,以有效識別欺詐客群,提高風險的可控性。

簡單來說,你要判斷這個人有沒有欺詐風險,就得採取各種方式從更多維度去了解這個人,最好做到比他自己還了解他自己。這裡面有幾個關鍵點:第一,你要有足夠的信息量以及處理大規模信息量的能力;第二,在信息割裂、小數據場景下,能夠進行基於大樣本建模的基模型遷移學習;第三,有能力確保信息隱私安全,在合規條件下使大數據應用的價值最大化;第四,具備專業判斷能力,能夠精準洞察需求,制定針對性強的策略與解決方案。

前述的預測美國大選也是如此,在精準識別需求、制定有效策略基礎上,能夠獲得更多具有代表性的選民意願信息,具備快速處理這些信息的能力;或者找到不同信息間的關係,能夠將一個場景模型遷移到另一個場景進行使用,所得出的結論準確性便更高。

既然預測美國大選都已經有那麼多具備數據分析背景的專業機構,那麼識別金融欺詐風險上有沒有如此專業的機構,不僅有行業領先的技術,還有豐富的經驗和出色的洞察分析能力,具備「一擊即中」的能力呢?融360|簡普科技旗下的專業數字金融服務平臺——佔融數科便是其中翹楚。

憑藉在金融反欺詐領域深耕多年的服務經驗和產品優勢,佔融數科不僅能幫助金融機構提升精準風控能力,大大提高反欺詐名單的有效識別度,還能對拒絕放貸的每一條維度進行詳細的解釋,有效減少「誤殺」現象的發生。前段時間,佔融數科還因此拿下豐田汽車金融反欺詐項目,成為其合作夥伴。

當然,佔融數科的本事不僅於此。其通過人工智慧、雲計算等技術,為銀行、持牌消費金融公司、保險等金融機構提供行業領先的數字金融服務,貫穿智能營銷、智能信審、貸中監控、貸後管理等全流程業務線條,覆蓋資產對接、流程設計、風險控制、系統實施、運營管理等領域,幫助金融機構持續提升運營能力、加速數位化轉型。

目前,佔融數科已經累計服務數千家金融機構,參與超過億次信貸決策,為千億資金的安全提供有力保障。未來,佔融數科仍將繼續致力於科技創新,幫助金融機構為用戶提供更為健全、安全、便捷的金融服務,實現「讓金融更簡單,成為每個人金融夥伴」的使命與願景。

相關焦點

  • 信和大金融:如何藉助機器學習建立大數據風控系統?
    隨著網際網路的發展,網際網路金融已成為當前最熱門的話題,包括支付、理財、眾籌、消費等功能在內的各類網際網路金融產品和平臺如雨後春筍般湧現。網際網路金融是傳統金融行業與網際網路精神相結合的新興領域,是對傳統金融行業的有效補充,因此網際網路金融的健康發展應遵循金融業的基本規律和內在要求,核心仍是風險控制。
  • 大數據時代下,金融數位化勢在必行
    隨著人工智慧、大數據、雲計算等創新技術的發展,數位化建設正在成為金融發展的破局利器。但就目前而言,風險管理仍是金融數位化的核心問題,如何用新的科技降低風險管理成本,提高風險管理效率,成為金融行業未來發展的關鍵。
  • MobTech金融風控專家霍文虎:數據智能風控在金融中的創新實踐
    2021年1月13日,零壹財經零壹智庫 「數字經濟數字科技數字金融——2021零壹財經·零壹智庫峰會」在北京召開。 會上,MobTech金融風控專家霍文虎發表了以「數據智能風控在金融中的創新實踐」為主題的演講。
  • 興業銀行信用卡:大數據賦能 打造風控核心競爭力
    一旦插上「大數據」的翅膀,就能以客戶在多家金融機構及非金融領域的行為信息為依託,並在預測目標、預測變量等數據來源方面進行延伸,可以作為傳統信用評分模型的有效補充,實現對違約風險的精準識別。興業銀行信用卡基於大數據信用評分的風險補充識別效用,著力探尋適合自身業務要求的優質大數據信用評分產品,並逐步嵌入到信用卡業務風險管理的各階段。
  • 支撐金融數位化轉型:法海風控大數據平臺全面升級
    (原標題:支撐金融數位化轉型:法海風控大數據平臺全面升級) 為給客戶提供更好的智能技術服務
  • 時代金融金桔獎榜單揭曉,維信金科斬獲「最佳風控金融機構獎」
    12月29日,由廣東時代傳媒集團主辦的「第五屆時代金融金桔獎」榜單揭曉,維信金科憑藉優秀的金融科技能力與智能風控系統,斬獲「最佳風控金融機構獎」。本次金桔獎以「金融科技賦能新動力」為主題,匯聚各領域專家學者及企業創領者。
  • 真正的大數據風控是什麼樣子的?
    在原有的信用卡、籤帳金融卡、支票系統構建的金融體系裡,由於我們與美國在這一塊發展的時長不同,所以覆蓋的人群、累計的數據厚度有相當大的差距,要趕上美國,需要比較長的時間。但金融科技催生了行動支付技術的成熟,隨著行動支付在我國的普及,我們得以彎道超車。
  • 美國大選決戰前夜,如何預測史上最撲朔迷離的大選結果?
    即使川普民調大幅度落後 8%-10%,因為是所謂的「天選之人」,這次的大選毫不誇張地說是史上最難預測的一次。這是一個數據整合網站,根據不同民調結果的準確率加權通過複雜的數據算法來預測大選結果.因為四年前大選結果和民調在幾個搖擺州相差過大,今年的民調無論在數量上還是流程上都進行了大規模的改進。
  • ...CEO吳海生:緩解小微企融資難,大數據風控是重要抓手 | 金融科技...
    360數科CEO吳海生近日接受《國際金融報》記者專訪時指出,小微企業自身管理制度不健全,缺乏一套完整的中小企業信用評級體系和徵信系統,傳統金融機構服務能力不足,對小微企業授信「事多利薄」等因素都是造成小微企業融資難、融資貴的重要原因。通過創新實踐,360數科發現大數據風控是破解小微企業融資難、融資貴的重要抓手。
  • 打造線上的大數據風控要填好這三個坑 - 專注金融科技與創新 未央網
    另一方面,有很多我在美國的同事在近幾年陸陸續續的回國投身到了金融創新的大潮中,我們有一個微信群,也會經常在群裡面交流,這也成了我了解中國金融現狀的另外一個通道。在回國的這一個多月裡,我跟我現在的同事有過很多的交流。這是一個很能打仗的團隊,他們在一年半的時間內已經基本上完成了將線下風控搬到線上的目標。風控由線下轉到線上是一個大趨勢,對這一點我在之後的文章會探討。
  • 2020美國大選在幾月出結果?美國大選最新民調誰領先?
    美國總統大選前最後一個周末,兩位超過70歲的參選人,仍然奔波在競選拉票的道路上。  美國總統、共和黨參選人唐納德川普出現在賓夕法尼亞州,並連續舉行4場競選集會。而民主黨參選人喬拜登則和前總統歐巴馬出現在密西根州競選集會現場。未來三天,川普還將計劃在多個關鍵搖擺州舉行13場競選機會。
  • 極光開發者大會:曠視科技敖翔談視覺智能如何助力大數據風控升級
    本次大會由國內領先的移動大數據服務平臺——極光大數據舉辦,近千位網際網路公司技術領袖、合作夥伴、開發者齊聚一堂,圍繞大數據、人工智慧、移動開發等廣受關注的熱點話題,共同探討了在移動開發的下半場,如何構建健康的開發者生態。曠視科技副總裁敖翔先生作為重要嘉賓出席本次大會,並發表《視覺智能助力大數據風控升級》的主題演講。
  • 慧科訊業亮相中國金融科技產業峰會構建智能風控成全場焦點
    針對2019年金融風控行業重大風險事件頻發,風控壓力指數級上升的現狀,慧科訊業的金融業務負責人李江維帶來了關於智能風控解決方案和智能政策解決方案的分享。2019年國內風控領域現狀的確不容樂觀,全年共有173支債券違約,合計違約金額達1373.87億元。
  • 百融雲創:AI+大數據賦能 助力金融機構嚴把風控關
    本網12月10日訊 近日,在2020北京國際金融安全論壇上,專家提出要把金融安全放在更加重要和優先的位置上,在做好全面風險管理和安全保障的前提下,穩妥、審慎地推進金融科技創新。「如今,我們要認識到科技發展與安全應是相輔相成的,金融科技正乘著時代的浪潮迅猛地發展,但不可忽視,這種迅速必然會帶來不穩定隱患。
  • 百度智能風控決策解決方案發布,助金融機構風控能力自主可控
    在下午舉行的智能產業分論壇上,百度副總裁李碩、百度智能雲智慧金融事業部產品負責人常琳登臺演講,並發布了最新的針對金融行業的智能風控決策解決方案。此外,招商銀行、宇信科技、艾融軟體、民生銀行、光大銀行、浦發銀行、太保產險、銀聯商務等眾多百度智能雲合作夥伴也蒞臨現場,共話智慧金融發展趨勢。   百度副總裁李碩在致辭中表示,「整個人工智慧時代無論怎樣往前展望,今天都處於大幕剛剛拉開的時代。
  • 井賢棟:新金融的風控是相信人,用數據和科技預判並消除風險
    9月24日,外灘大會正式在上海開幕,螞蟻集團董事長井賢棟在致辭中談到了他對新金融的理解。井賢棟認為,面向未來,新金融帶來服務對象、服務核心和服務方式的三個變化。而現在伴隨金融科技的發展,普惠成為生活日常。井賢棟表示,建設新金融體系必須要以科技和數據為支撐。在他看來,過去的金融最重要的資源是資金,新金融最重要的資產是數據;過去的技術架構是資訊時代的中心化思想,新金融的架構會是數字時代的分布式思想。未來以雲計算、分布式資料庫和區塊鏈為代表的「雲庫鏈」會成為支撐新金融的核心技術。
  • 融之家冠名課程 聚焦「大數據風控與反欺詐」
    近日,由融之家冠名的金融城「消費金融發展基金」暨第三期消費金融課程——「大數據風控與反欺詐」高級研修班在北京開課。來自螞蟻金服微貸金融事業群風險管理部負責人餘泉、中國工商銀行牡丹卡中心專家羅榕、宜人貸首席風險官Tomas Skoumal親臨授課,上百位行業精英從業者到場聆聽,學員反響強烈。
  • 百融雲創:AI提升金融風控效能 讓團夥欺詐無處遁形
    近年來,金融犯罪和欺詐的新手段層出不窮,金融欺詐開始從單兵作戰轉向了有組織、有規模、高密集的團夥化作業。這些欺詐團夥深入研究過金融的申請、調查、評估、審核、授信等業務流程,清楚金融機構風控規則與業務漏洞,從而通過技術手段進行身份信息的偽裝、更替與仿冒來繞過風控系統,在風控領域呈現隱蔽化特徵。
  • 卡爾金融智能風控決策引擎2.0版正式升級上線
    卡爾金融憑藉創新性的大數據分析,自行搭建智能風控決策引擎,並於2020年5月28日完成2.0版本迭代,推出全新升級版「魔鏡」風控系統。隨著移動網際網路、人工智慧、大數據風控技術的日益成熟,以及受眾消費觀念的更新迭代,越來越多的傳統汽車金融依託網際網路技術不斷創新,在產品研發、用戶體驗、金融服務等方面進行了跨越式的變革。但與此同時,汽車金融行業也面臨著欺詐分子的攻擊以及車輛估值不準等風險,傳統的黑白名單、規則系統等風控解決方案往往只能防範歷史性的欺詐活動,已經很難再滿足如今汽車金融機構對於風控的需求了。
  • 碩恩網絡掛牌新三板:金融風控及監管科技「開拓者」
    碩恩網絡成立於2009年,公司致力於金融業海量數據的處理、挖掘、分析與運用,是一家領先的大數據處理與分析解決方案提供商,主要服務銀行和金融監管部門。碩恩網絡由美國西北大學SONIC 實驗室的核心科學家和全球數據分析方法論領先專家組成。公司核心產品是全類別金融消費者模擬資料庫,核心技術是基於社會網絡反欺詐風控技術。