2020年8月7日-9日,第五屆CCF-GAIR全球人工智慧與機器人峰會,於深圳隆重舉辦。
此次峰會由中國計算機學會主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。
在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。
範劍青是國際數理統計學會創辦70年以來第一位華人主席,也是統計旗艦雜誌《統計年鑑》的第一位華人主編,論文引用數多年位列世界數學家前十名,是素有統計學諾貝爾獎之稱的CPOSS總統獎得主,也是《概率及其相關領域》、《計量經濟》、《商務統計》等五個國際頂尖學術期刊的主編。
在範劍青看來,人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。而大數據賦能AI,從大數據相關的科學挑戰衍生的新興科學即為數據科學,他認為數據科學以應用為背景,其目的是想把大數據解決成智慧數據。
他指出,大數據=系統+分析+應用,機器學習=統計+優化+實現環境。
如今深度學習之所以能如此成功,範劍青認為它是權衡偏差和方差的有效方法,深度網絡使高維函數更加靈活,大數據降低了統計方差,而現在計算技術使大數據深度學習得到有效的實現。
範劍青認為,在經濟金融、生物醫學、管理決策和人文社會中,機器學習有很多挑戰和機遇。由於個體差異大,數據集未知,現在發生的事情與幾年後的變量完全不一樣,難以提取特徵,需要各學科交叉。尤其是在金融行業,數據不平穩,隨著時間而變,多人參與競爭的市場也是對金融的挑戰。
而機器學習本身就是為降低維數和預測而設計的,他認為機器能學習金融,儘管金融非常複雜,但它的形式是可預測的。以股票收益預測為例,可以通過高維線性模型、機器學習模型或是深度學習模型來處理。他強調,成功預測的屬性一是大數據,二是魯棒,三是模型具備市場的重要特徵。
他還詳盡地用幾個例子來說明溢價預測相關的問題,例如通過市場因子來預測債券風險;並介紹了現階段可以使用的兩種因子學習方法,一是傳統主成分方法,二是利用投影主成分來操作。
此外,範劍青也與現場觀眾介紹了文本數據如何協助股票投資決策,他表示現在可以通過對新聞內容的分析,解析文章對股票的褒貶程度。
最後,範劍青總結稱,資產定價本質上是預測問題,機器可以學習金融。他認為機器學習可以幫助處理大數據並從中選擇重要因素和特徵,能很好地應對過度擬合的問題,允許非線性學習極大地改善預測效果,將穩健性和對抗性網絡提煉為定價,智能預測也會帶來很大的經濟收益。
以下是範劍青的大會報告內容,雷鋒網做了不改變原意的編輯與整理:
非常榮幸能夠參加第五屆CCF-GAIR全球人工智慧與機器人峰會。我今天的報告主題是《機器是怎麼學習金融的》。
這次報告的內容,是我們金融工程實驗室多人的工作成果,大綱如下:
大數據與人工智慧
穩健因子學習及其應用
債券風險溢價預測
高頻交易預測
文本數據與資產定價
重新理解大數據與人工智慧
眾所周知,人工智慧是由John McCarthy於1955年首次提出,一年後,他也與多名科學家組織了著名的Dartmouth會議。
何謂人工智慧?
Wikipedia中是這樣介紹的:「人工智慧」指機器模仿人類的「認知」功能所展示的智能,例如「學習」和「解決問題」。現實中的人工智慧是技術能夠訓練機器,將人從重複性、簡單性、危險性的繁瑣事務中解除出來。
Thomas J.Sargent:人工智慧其實是統計學,只不過用了一個華麗辭藻。
我認為人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。目前內容包括圖像識別、語音識別、機器學習、機器人、專家系統、計算機視覺、自然語言處理等。
為什麼現在大家談人工智慧?What powers AI?
是大數據。
現在大數據無處不在,商業大數據、醫學大數據、網絡大數據、政府大數據等。針對大數據的共性,解決其對大數據系統和分析的科學挑戰所產生的新興科學叫數據科學。
我個人認為數據科學以應用為背景,包括數據的獲取、存儲、數據分析、科學計算。數據科學的目的是想把大數據解決成智慧數據。
我把它總結為:大數據=系統+分析+應用。
何謂機器學習?
Arthur L Samuel在1959年的「跳棋遊戲」論文中創造了「機器學習」這個術語:讓機器從數據中學習並做決策,它是可擴展的統計算法,充分融合統計建模思想和計算優化方法。使這些數據分析的思想能在大數據環境下得到有效的實現。
我個人認為機器學習是:統計+優化+實現環境。
機器學習最後的產品一定是可操作的代碼(Actionable codes)。
為了有可操作的代碼,我們需有優化的目標(Optimization objects),為了有優化的目標,我們需有統計模型(Statistical Modeling)和經濟效用(Economic Utility)。
現在最常見的是深度學習。
深度學習的概念是很常見的,是數學的函數逼近,它用的是兩種方法,信號源的線性組合,再做非線性的選擇,重複的過程構成很複雜的函數逼近方法。
為何今天深度學習這麼成功?
我認為它是很好的權衡偏差和方差的有效方法。深度網絡使得高維函數逼近更加靈活,即偏差很小。
另外90年代,我們就參與建設了這方面的工作,為什麼學術界和工業界現在才大談深度學習?
主要是因為大數據的到來,大數據的到來大大減少統計的方差,樣本量變大,方差自然變小。
現在計算技術使得大規模優化成為現實,使得我們可以在大數據上實現深度神經網絡逼近函數。
簡而言之是非參數統計思想在高維海量數據環境下的實現。
具體成功案例是圖像識別、機器翻譯、語音處理等等。
這些問題的共同特點是個體差異小,我們說話儘管各有口音,但個體間的差異小,而且信號集已知,你看到的圖像就是你那張圖像。換句話說X是已知的,信噪比大,∈小,學習得比較好。
我們今天要談的主要是機器學習的挑戰。
對於經濟金融、生物醫學、管理決策和人文社會,機器學習有很多挑戰和機遇,第一是個體差異大,第二是數據集未知。
例如上圖是閃電崩盤,這次發生的事情和幾年後發生的事情,可能變量完全不一樣,是什麼引起的我們也不知道,所以難以提取特徵,需要各學科交叉,使得這方面的發展挑戰更大。
對金融來說,金融數據的特點是什麼?
第一信號低,跟物理不一樣,物理信噪比很強。
第二數據不平穩,一直是隨著時間的變化而變化的,整個市場也是隨著時間的變化而變化,很多人參與,這是一個競爭的市場。這是對金融的挑戰。
機器能學習金融嗎?回答是肯定的:
第一,資產定價問題,本質上是預測問題,機器學習本身就是為預測設計的。
第二,影響市場的因子變量很多,這些變量往往是相關的。機器學習本身就是為降低維度和變量選擇設計的。
第三,定價的公式,不像物理是推導出來的、有很多假設的。資產定價非常複雜、形式未知。機器學習正是為高維複雜的非線性組合而設計。
基於這三個原因,我認為機器從某種程度上講是能夠學習金融。
如果我有一個黑盒子可以預測金融下一刻的回報,我們應該如何投資?
假設有1000隻股票,有這1000隻股票的額外收益數據,還有風險因子和公司本身變量數據,我們要預測每一隻股票的額外收益或者投在每一隻股票上的權重。
如果你預測第i只股票,你肯定要建一個形式,一個是宏觀變量(macro-factors),一個是公司的變量(firm characteristics)。
我們對每一隻股票進行預測,常用回歸來做,,可以是高維線性模型、機器學習模型或者深度學習模型。
舉例來說,我要預測下一個時刻的股票回報,我要用現在時刻市場因子,加上每個預測的參數肯定跟第i只股票和時刻t有關係。這既依賴第i只股票,也依賴第t天。
我們把做成線性回歸的形式,把寫在一起,我們很容易得到1000個變量甚至更多。
有了預測後,我們一般怎麼投?1000隻股票裡,在我預測裡的top 10%做多,bottom 10%做空。
首先這應該是Risk-neutral的投資。市場漲時,top 10%漲,bottom 10%降;市場降時,top 10%降,bottom 10%漲。
第二是這樣的投資組合足夠多樣性(diversified)。第三充分體現你的預測信息,哪些股票是top 10%,哪些股票是bottom 10%。
還有一種方法比較好,是6月份剛寫完放在網上的一篇文章。關鍵詞是「Principal Portfolios」,用你估計到的信號和做一個主成分投資組合。
第三種很傳統,用資產定價理論,在時刻t構造一個Portfolio,使得最小化。神經對抗網絡可以解決這種條件預測問題。
以上是資產定價常見的三種方法。
大家自然會問預測成功的因素是什麼?一是大數據;二是魯棒性;三是你的模型捕獲能力。
什麼是大數據的典型特徵?
相依性和厚尾性:我們很多變量都是衡量市場的經濟狀況,必然相關
異樣性、內生性、假相關等
數據缺失,測量誤差
倖存者偏差,採樣偏差
這些特徵對金融和宏觀經濟學尤其明顯。
今天我們主要講如何處理相依性和厚尾性一些方法。
接下來我用一個學術上常用的例子預測債券風險溢價來說明。
我要預測的變量是美國債券,債券有2、3、4等年期,可以對每一個債券進行預測。是131個宏觀經濟系列的月度數據。除此之外我們還有8個國內生產總值,居民消費價格指數等匯總宏觀經濟系列。這131個變量都是衡量經濟的健康狀況,所以他們是相關的。
我們對每一個時間序列算峰度(kurtosis),分布如圖所示。有大概三分之一左右峰度大於,它們應該是厚尾分布。我們自然而然會問:如何處理厚尾?我們從131個變量學習決定市場的因子之外,我們還有8個宏觀經濟時間序列,我們如何使用這8個信息更好地提取市場因子?
穩健因子學習及其應用
如果大家要看論文,可以看看這一篇綜述:Fan, J., Wang, K., Zhong, Y., and Zhu, Z. (2020).Robust high dimensional factor models with applications to statistical machine learning. Statistical Science, to appear.
如果更詳盡大家可以看看我們新著的《Statistical Foundations of Data Science》這本書,有三章會講這方面內容。
什麼是因子模型?假設我有1000隻股票,有5個影響這1000隻股票漲幅的市場因子,不同的股票對不同因子的依賴程度不一樣,因此有一個載荷矩陣 B。
再加上每一隻股票自己的特質因素(idiosyncratic components),很多時候我們把這兩個部分稱為。這種衡量1000隻股票的相關性,在股票市場上有很多應用,同樣對其它方面也有很多應用。比如根據1000個基因的表達共同性,找出潛在的因子。
我們主要的信息是什麼?我們學習了因子後,我們把因子共性的部分完全學習好,把它減掉,則整個信噪比增加。
舉一個簡單的例子。設想我用131個宏觀經濟序列來預測債券風險溢價。這131個變量具有高相關性,機器學習裡常用的變量選擇方法,正則性會不滿足。
如果把131個變量分成不同因子:共性+個性,然後把代到裡,我們變成兩部分:共性和個性。假設影響這些宏觀變量的共同因子是5個,共性的參數是5個,個性的參數是131個,最後得到136維空間的變量。
這136維空間中變量的相關性很弱,因為相關的部分已經取出來。如果把現在的作為你新的變量,我們平時採用的高維方法就能工作。這就是我們提出的因子調整的模型(FARMselect)方法。簡而言之是先學習共同的因子,然後用和作為預測變量。
如果你把學好了,求出來之後解一解就可以了。整個思想是把原來131個變量變成136個變量,空間變得大了,變量變得弱相關。用共性+個性,和原來的是等價的,這個過程其實是用因子增進預測能力。
舉一個模擬的例子。這是線性模型,前10個變量對Y有影響,後面的變量沒有影響。X如果是有共同的相關性,假設有250個變量,做100次模擬,每一個時間序列長度是100。
如果我們用原始Lasso來做變量選擇,只有在完全不相關時,Lasso工作得還好。只要相關係數增加一點點,Lasso就不能完全選出這10個變量。
另一方面,如果我把這250個個性,加上每一個共同的因子拿出來作為第251個變量,就可以達到100%的正確模型選擇。如果說不知道是不是251個,而用255個可以嗎?可以,也可以得到這樣的效果。
如果Σ設成像標普500隻成分股那樣的協方差,最後的結果是一樣的,我們可以百分百把重要的變量選出來,其他的方法做不到。
同樣的話,我們可以把這個方法拿來做統計推斷。比如我們自然而然會問到底有多少共同基金有技能(positive alpha)?設想我有1000個共同基金,我們把分成共性+個性。
以前最簡單的做法是把每一個共同基金的額外收益平均作為統計量,這樣的統計量肯定是相關的,有共同因子,且噪音比較大。我們所說的因子調整是學習共同的因子並減去,這樣得到的統計量是弱相關,且減少噪音。
我們有相關的模擬試驗來證明,我只是做一個簡單的介紹。想像我們有500隻股票,為了圖像方便理解,25%的基金有技能,為0.6, 75%沒有。假設觀測100天,只是做500隻基金平均回報的直方圖,基本分不出哪部分有技能,哪些沒有。
如果我們把共同因子先學習一下然後減掉,就比較容易區分