統計學家範劍青:把 AI 學習金融,變為現實

2020-12-08 騰訊網

2020年8月7日-9日,第五屆CCF-GAIR全球人工智慧與機器人峰會,於深圳隆重舉辦。

此次峰會由中國計算機學會主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。

在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。

範劍青是國際數理統計學會創辦70年以來第一位華人主席,也是統計旗艦雜誌《統計年鑑》的第一位華人主編,論文引用數多年位列世界數學家前十名,是素有統計學諾貝爾獎之稱的CPOSS總統獎得主,也是《概率及其相關領域》、《計量經濟》、《商務統計》等五個國際頂尖學術期刊的主編。

在範劍青看來,人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。而大數據賦能AI,從大數據相關的科學挑戰衍生的新興科學即為數據科學,他認為數據科學以應用為背景,其目的是想把大數據解決成智慧數據。

他指出,大數據=系統+分析+應用,機器學習=統計+優化+實現環境。

如今深度學習之所以能如此成功,範劍青認為它是權衡偏差和方差的有效方法,深度網絡使高維函數更加靈活,大數據降低了統計方差,而現在計算技術使大數據深度學習得到有效的實現。

範劍青認為,在經濟金融、生物醫學、管理決策和人文社會中,機器學習有很多挑戰和機遇。由於個體差異大,數據集未知,現在發生的事情與幾年後的變量完全不一樣,難以提取特徵,需要各學科交叉。尤其是在金融行業,數據不平穩,隨著時間而變,多人參與競爭的市場也是對金融的挑戰。

而機器學習本身就是為降低維數和預測而設計的,他認為機器能學習金融,儘管金融非常複雜,但它的形式是可預測的。以股票收益預測為例,可以通過高維線性模型、機器學習模型或是深度學習模型來處理。他強調,成功預測的屬性一是大數據,二是魯棒,三是模型具備市場的重要特徵。

他還詳盡地用幾個例子來說明溢價預測相關的問題,例如通過市場因子來預測債券風險;並介紹了現階段可以使用的兩種因子學習方法,一是傳統主成分方法,二是利用投影主成分來操作。

此外,範劍青也與現場觀眾介紹了文本數據如何協助股票投資決策,他表示現在可以通過對新聞內容的分析,解析文章對股票的褒貶程度。

最後,範劍青總結稱,資產定價本質上是預測問題,機器可以學習金融。他認為機器學習可以幫助處理大數據並從中選擇重要因素和特徵,能很好地應對過度擬合的問題,允許非線性學習極大地改善預測效果,將穩健性和對抗性網絡提煉為定價,智能預測也會帶來很大的經濟收益。

以下是範劍青的大會報告內容,雷鋒網做了不改變原意的編輯與整理:

非常榮幸能夠參加第五屆CCF-GAIR全球人工智慧與機器人峰會。我今天的報告主題是《機器是怎麼學習金融的》。

這次報告的內容,是我們金融工程實驗室多人的工作成果,大綱如下:

大數據與人工智慧

穩健因子學習及其應用

債券風險溢價預測

高頻交易預測

文本數據與資產定價

重新理解大數據與人工智慧

眾所周知,人工智慧是由John McCarthy於1955年首次提出,一年後,他也與多名科學家組織了著名的Dartmouth會議。

何謂人工智慧?

Wikipedia中是這樣介紹的:「人工智慧」指機器模仿人類的「認知」功能所展示的智能,例如「學習」和「解決問題」。現實中的人工智慧是技術能夠訓練機器,將人從重複性、簡單性、危險性的繁瑣事務中解除出來。

Thomas J.Sargent:人工智慧其實是統計學,只不過用了一個華麗辭藻。

我認為人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。目前內容包括圖像識別、語音識別、機器學習、機器人、專家系統、計算機視覺、自然語言處理等。

為什麼現在大家談人工智慧?What powers AI?

大數據

現在大數據無處不在,商業大數據、醫學大數據、網絡大數據、政府大數據等。針對大數據的共性,解決其對大數據系統和分析的科學挑戰所產生的新興科學叫數據科學。

我個人認為數據科學以應用為背景,包括數據的獲取、存儲、數據分析、科學計算。數據科學的目的是想把大數據解決成智慧數據。

我把它總結為:大數據=系統+分析+應用

何謂機器學習?

Arthur L Samuel在1959年的「跳棋遊戲」論文中創造了「機器學習」這個術語:讓機器從數據中學習並做決策,它是可擴展的統計算法,充分融合統計建模思想和計算優化方法。使這些數據分析的思想能在大數據環境下得到有效的實現。

我個人認為機器學習是:統計+優化+實現環境

機器學習最後的產品一定是可操作的代碼(Actionable codes)。

為了有可操作的代碼,我們需有優化的目標(Optimization objects),為了有優化的目標,我們需有統計模型(Statistical Modeling)和經濟效用(Economic Utility)。

現在最常見的是深度學習。

深度學習的概念是很常見的,是數學的函數逼近,它用的是兩種方法,信號源的線性組合,再做非線性的選擇,重複的過程構成很複雜的函數逼近方法。

為何今天深度學習這麼成功?

我認為它是很好的權衡偏差和方差的有效方法。深度網絡使得高維函數逼近更加靈活,即偏差很小。

另外90年代,我們就參與建設了這方面的工作,為什麼學術界和工業界現在才大談深度學習?

主要是因為大數據的到來,大數據的到來大大減少統計的方差,樣本量變大,方差自然變小。

現在計算技術使得大規模優化成為現實,使得我們可以在大數據上實現深度神經網絡逼近函數。

簡而言之是非參數統計思想在高維海量數據環境下的實現。

具體成功案例是圖像識別、機器翻譯、語音處理等等。

這些問題的共同特點是個體差異小,我們說話儘管各有口音,但個體間的差異小,而且信號集已知,你看到的圖像就是你那張圖像。換句話說X是已知的,信噪比大,∈小,學習得比較好。

我們今天要談的主要是機器學習的挑戰。

對於經濟金融、生物醫學、管理決策和人文社會,機器學習有很多挑戰和機遇,第一是個體差異大,第二是數據集未知。

例如上圖是閃電崩盤,這次發生的事情和幾年後發生的事情,可能變量完全不一樣,是什麼引起的我們也不知道,所以難以提取特徵,需要各學科交叉,使得這方面的發展挑戰更大。

對金融來說,金融數據的特點是什麼?

第一信號低,跟物理不一樣,物理信噪比很強。

第二數據不平穩,一直是隨著時間的變化而變化的,整個市場也是隨著時間的變化而變化,很多人參與,這是一個競爭的市場。這是對金融的挑戰。

機器能學習金融嗎?回答是肯定的:

第一,資產定價問題,本質上是預測問題,機器學習本身就是為預測設計的

第二,影響市場的因子變量很多,這些變量往往是相關的。機器學習本身就是為降低維度和變量選擇設計的

第三,定價的公式,不像物理是推導出來的、有很多假設的。資產定價非常複雜、形式未知。機器學習正是為高維複雜的非線性組合而設計

基於這三個原因,我認為機器從某種程度上講是能夠學習金融。

如果我有一個黑盒子可以預測金融下一刻的回報,我們應該如何投資?

假設有1000隻股票,有這1000隻股票的額外收益數據,還有風險因子和公司本身變量數據,我們要預測每一隻股票的額外收益或者投在每一隻股票上的權重。

如果你預測第i只股票,你肯定要建一個形式,一個是宏觀變量(macro-factors),一個是公司的變量(firm characteristics)。

我們對每一隻股票進行預測,常用回歸來做,,可以是高維線性模型、機器學習模型或者深度學習模型。

舉例來說,我要預測下一個時刻的股票回報,我要用現在時刻市場因子,加上每個預測的參數肯定跟第i只股票和時刻t有關係。這既依賴第i只股票,也依賴第t天。

我們把做成線性回歸的形式,把寫在一起,我們很容易得到1000個變量甚至更多。

有了預測後,我們一般怎麼投?1000隻股票裡,在我預測裡的top 10%做多,bottom 10%做空。

首先這應該是Risk-neutral的投資。市場漲時,top 10%漲,bottom 10%降;市場降時,top 10%降,bottom 10%漲。

第二是這樣的投資組合足夠多樣性(diversified)。第三充分體現你的預測信息,哪些股票是top 10%,哪些股票是bottom 10%。

還有一種方法比較好,是6月份剛寫完放在網上的一篇文章。關鍵詞是「Principal Portfolios」,用你估計到的信號和做一個主成分投資組合。

第三種很傳統,用資產定價理論,在時刻t構造一個Portfolio,使得最小化。神經對抗網絡可以解決這種條件預測問題。

以上是資產定價常見的三種方法。

大家自然會問預測成功的因素是什麼?一是大數據;二是魯棒性;三是你的模型捕獲能力。

什麼是大數據的典型特徵?

相依性和厚尾性:我們很多變量都是衡量市場的經濟狀況,必然相關

異樣性、內生性、假相關等

數據缺失,測量誤差

倖存者偏差,採樣偏差

這些特徵對金融和宏觀經濟學尤其明顯。

今天我們主要講如何處理相依性和厚尾性一些方法。

接下來我用一個學術上常用的例子預測債券風險溢價來說明。

我要預測的變量是美國債券,債券有2、3、4等年期,可以對每一個債券進行預測。是131個宏觀經濟系列的月度數據。除此之外我們還有8個國內生產總值,居民消費價格指數等匯總宏觀經濟系列。這131個變量都是衡量經濟的健康狀況,所以他們是相關的。

我們對每一個時間序列算峰度(kurtosis),分布如圖所示。有大概三分之一左右峰度大於,它們應該是厚尾分布。我們自然而然會問:如何處理厚尾?我們從131個變量學習決定市場的因子之外,我們還有8個宏觀經濟時間序列,我們如何使用這8個信息更好地提取市場因子?

穩健因子學習及其應用

如果大家要看論文,可以看看這一篇綜述:Fan, J., Wang, K., Zhong, Y., and Zhu, Z. (2020).Robust high dimensional factor models with applications to statistical machine learning. Statistical Science, to appear.

如果更詳盡大家可以看看我們新著的《Statistical Foundations of Data Science》這本書,有三章會講這方面內容。

什麼是因子模型?假設我有1000隻股票,有5個影響這1000隻股票漲幅的市場因子,不同的股票對不同因子的依賴程度不一樣,因此有一個載荷矩陣 B。

再加上每一隻股票自己的特質因素(idiosyncratic components),很多時候我們把這兩個部分稱為。這種衡量1000隻股票的相關性,在股票市場上有很多應用,同樣對其它方面也有很多應用。比如根據1000個基因的表達共同性,找出潛在的因子。

我們主要的信息是什麼?我們學習了因子後,我們把因子共性的部分完全學習好,把它減掉,則整個信噪比增加。

舉一個簡單的例子。設想我用131個宏觀經濟序列來預測債券風險溢價。這131個變量具有高相關性,機器學習裡常用的變量選擇方法,正則性會不滿足。

如果把131個變量分成不同因子:共性+個性,然後把代到裡,我們變成兩部分:共性和個性。假設影響這些宏觀變量的共同因子是5個,共性的參數是5個,個性的參數是131個,最後得到136維空間的變量。

這136維空間中變量的相關性很弱,因為相關的部分已經取出來。如果把現在的作為你新的變量,我們平時採用的高維方法就能工作。這就是我們提出的因子調整的模型(FARMselect)方法。簡而言之是先學習共同的因子,然後用和作為預測變量。

如果你把學好了,求出來之後解一解就可以了。整個思想是把原來131個變量變成136個變量,空間變得大了,變量變得弱相關。用共性+個性,和原來的是等價的,這個過程其實是用因子增進預測能力。

舉一個模擬的例子。這是線性模型,前10個變量對Y有影響,後面的變量沒有影響。X如果是有共同的相關性,假設有250個變量,做100次模擬,每一個時間序列長度是100。

如果我們用原始Lasso來做變量選擇,只有在完全不相關時,Lasso工作得還好。只要相關係數增加一點點,Lasso就不能完全選出這10個變量。

另一方面,如果我把這250個個性,加上每一個共同的因子拿出來作為第251個變量,就可以達到100%的正確模型選擇。如果說不知道是不是251個,而用255個可以嗎?可以,也可以得到這樣的效果。

如果Σ設成像標普500隻成分股那樣的協方差,最後的結果是一樣的,我們可以百分百把重要的變量選出來,其他的方法做不到。

同樣的話,我們可以把這個方法拿來做統計推斷。比如我們自然而然會問到底有多少共同基金有技能(positive alpha)?設想我有1000個共同基金,我們把分成共性+個性。

以前最簡單的做法是把每一個共同基金的額外收益平均作為統計量,這樣的統計量肯定是相關的,有共同因子,且噪音比較大。我們所說的因子調整是學習共同的因子並減去,這樣得到的統計量是弱相關,且減少噪音。

我們有相關的模擬試驗來證明,我只是做一個簡單的介紹。想像我們有500隻股票,為了圖像方便理解,25%的基金有技能,為0.6, 75%沒有。假設觀測100天,只是做500隻基金平均回報的直方圖,基本分不出哪部分有技能,哪些沒有。

如果我們把共同因子先學習一下然後減掉,就比較容易區分

相關焦點

  • 統計學家範劍青:把 AI 學習金融,變為現實 | 萬字長文
    在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。
  • 統計學家範劍青:把 AI 學習金融,變為現實 萬字長文
    在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。
  • 範劍青:統計學+金融界的傳奇人物
    學生們把這位學術大牛列入了統計學必讀,說「任何一篇涉及高維降維的論文,都不可能不引用Fan的文章」——從2001年第一次排名以來,範劍青的論文引用次數就一直位列世界數學家排名榜的前十名。「什麼叫fundamental的貢獻?這就是。」一位統計學學生感慨道。讓理論照進現實應用,是範劍青的學術生涯離不開的兩個字。
  • 範劍青摘取統計學桂冠 獨創精確統計法「非參數建模」
    經濟學家和統計學家認為,可以用它來檢驗一些經濟理論。企業用它能更有效地評估承受金融風險的能力和蒙受損失的上限,從而作出正確的投資決定。這種方法尤其適用於科技與商業發達的社會。     對於自己研究的領域,範劍青充滿自信。他認為統計學是資訊世紀不可或缺的工具。他說,「在過去的10年,對人類影響至巨的,毫無疑問是網際網路的發展和資訊科技的革命。這使我們可以更快、更容易地搜集大量的資料。
  • 生物統計學家:臨床研究的幕後高手
    而在現實中,生物統計學家卻是一個熟悉而又陌生的名字。熟悉是因為統計的「必要性」,陌生往往是因為統計的「高深莫測」。 本文作者Daniel Sargent教授和Qian Shi教授作為梅奧腫瘤研究中心的「掌門人」,將跟大家「揭露」生物統計學家在腫瘤臨床試驗中所扮演的角色。
  • 強化學習的10個現實應用
    本文我們將會聚焦於強化學習在現實生活中的實際應用。無人駕駛中的應用很多論文都提到了深度強化學習在自動駕駛領域中的應用。Wayve.ai已經成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習算法來處理車道跟隨任務的問題。他們的網絡結構是一個有4個卷積層和3個全連接層的深層神經網絡。例子如圖。中間的圖像表示駕駛員視角。
  • 自動化是當前與深度學習及人工智慧等的不可分割的關係
    自動化是當前與深度學習及人工智慧等的不可分割的關係,也同樣是當前的熱門主題。自動化機器學習在自動化,人工智慧,無人機等科技領域有廣泛的應用。自動化機器學習可以模擬生物學過程,比如分類,和識別。分類。分類就是識別。
  • 盤點金融領域裡常用的深度學習模型
    作者 | Sonam Srivastava ,譯者 | sambodhi ,編輯 | Vincent ,AI前線出品| ID:ai-front在今天我們發布的這篇文章中,作者 Sonam Srivastava 介紹了金融中的三種深度學習用例及這些模型優劣的證據。
  • 漢斯·羅斯林——最接近影帝的統計學家
    當我們把個人情緒拋開,就只專於分析現在的世界,我們可以做到更多——漢斯·羅斯林今天的文章致敬不久前剛過世的數據可視化及教育專家:漢斯羅斯林(Hans Rosling)火箭君非常認同一句出自英國早期的首相班傑明·迪斯雷利(Benjamin Disraeli)的話:這個世界上有三種謊言:謊言,該死的謊言,以及統計數據然而,作為一名耿直的統計學家
  • 全球三十大最佳 AI 創業公司公布
    4、Drive.ai(GGV紀源資本被投企業) Drive.ai 成立於 2015 年,是一家位於矽谷的自動駕駛公司,其主要成員來自史丹福大學人工智慧實驗室。公司專注研究深度學習在自動駕駛中的應用,致力於通過工具包將普通汽車變為無人車。
  • 李祥林:如何在投資中使用機器學習?|洞見
    他認為,金融科技改變的不僅僅是二級市場的投資,而是整個金融行業生態。那些在基礎設施、科技和人才方面提前布局、進行大量投資的機構,將在未來幾年內佔得先機。非常感謝大家,今天我給大家講一些故事,和大家分享一下我過去兩年在學習金融科技的過程中的一些體會。01今天想稍微講一講金融科技這個概念,我對它的理解仍然是對金融業提供服務的科技方法和手段。
  • 解碼古籍:浪漫暢想變為現實
    滄海桑田,我們驀然回首,竟發現有的暢想已變為現實…… 2004年,中國正式開展月球探測工程,並命名為「嫦娥工程」,取自中國古代傳說嫦娥奔月。2020年12月17日,嫦娥五號攜月壤成功返回地球。雲間明月不再迢迢不可得。
  • 美國領跑AI創新?福布斯全球AI 創企Top 50
    34.X.AIx.ai是人工智慧個人助理,可以為你安排會議。 無需登錄、密碼、下載。 所有你做的是CC amy@x.ai進入你的電子郵件對話,接管了繁瑣的電子郵件安排會議。他們的投資者包括,IA Ventures,Firstmark,Two Sigma Ventures,SoftBank Capital,DCM和普利茲克集團。
  • 一文讀懂深度學習中的矩陣微積分,fast.ai創始人&ANTLR之父出品
    這位ANTLR之父和fast.ai創始人Jeremy Howard一起推出了一篇免費教程,旨在幫你快速入門深度學習中的矩陣微積分。簡明,易懂。DeepMind研究科學家Andrew Trask評價說:如果你想跳過不相干的內容,一文看盡深度學習中所需的數學知識,那麼就是這份資源沒錯了。只需一點關於微積分和神經網絡的基礎知識,就能單刀直入,開始以下的學習啦。
  • 機器之心「AI00」十一月最新榜單:兩家國內公司新上榜
    目前大象聲科涉及的領域有會議轉錄、通訊、機器人、智能家居、虛擬實境、增強現實和混合現實等。在技術層面,大象聲科通過聲源分離、聲音增強、聲紋識別和麥克風陣列等技術的應用大幅度實現了單聲道語音增強和錯字率的降低。
  • AI和ML(NLP、計算機視覺、強化學習)技術總結和19年趨勢(上)
    遷移學習(能夠將預訓練模型應用於數據的藝術)成功應用於NLP任務,為無限可能的應用打開了大門。讓我們更詳細地看一下這些關鍵技術的發展。ULMFiTULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard設計,它是第一個在今年啟動的NLP遷移學習框架。對於沒有經驗的人來說,它代表通用語言的微調模型。
  • 統計學家與edX創始人獲第二屆一丹獎,單項獎金3000萬港元
    統計學家與edX創始人獲第二屆一丹獎,單項獎金3000萬港元 作者:子航 發布時間: 2018-12-10 17:48