統計學家範劍青:機器是怎麼學習金融的?

2021-03-06 量化投資與機器學習

 

範劍青是國際數理統計學會創辦70年以來第一位華人主席,也是統計旗艦雜誌《統計年鑑》的第一位華人主編,論文引用數多年位列世界數學家前十名,是素有統計學諾貝爾獎之稱的CPOSS總統獎得主,也是《概率及其相關領域》、《計量經濟》、《商務統計》等五個國際頂尖學術期刊的主編。 

在範劍青看來,人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。而大數據賦能AI,從大數據相關的科學挑戰衍生的新興科學即為數據科學,他認為數據科學以應用為背景,其目的是想把大數據解決成智慧數據。 

他指出,大數據=系統+分析+應用,機器學習=統計+優化+實現環境。 

如今深度學習之所以能如此成功,範劍青認為它是權衡偏差和方差的有效方法,深度網絡使高維函數更加靈活,大數據降低了統計方差,而現在計算技術使大數據深度學習得到有效的實現。 

範劍青認為,在經濟金融、生物醫學、管理決策和人文社會中,機器學習有很多挑戰和機遇。由於個體差異大,數據集未知,現在發生的事情與幾年後的變量完全不一樣,難以提取特徵,需要各學科交叉。尤其是在金融行業,數據不平穩,隨著時間而變,多人參與競爭的市場也是對金融的挑戰。 

而機器學習本身就是為降低維數和預測而設計的,他認為機器能學習金融,儘管金融非常複雜,但它的形式是可預測的。以股票收益預測為例,可以通過高維線性模型、機器學習模型或是深度學習模型來處理。他強調,成功預測的屬性一是大數據,二是魯棒,三是模型具備市場的重要特徵。 

他還詳盡地用幾個例子來說明溢價預測相關的問題,例如通過市場因子來預測債券風險;並介紹了現階段可以使用的兩種因子學習方法,一是傳統主成分方法,二是利用投影主成分來操作。 

此外,範劍青也與現場觀眾介紹了文本數據如何協助股票投資決策,他表示現在可以通過對新聞內容的分析,解析文章對股票的褒貶程度。 

最後,範劍青總結稱,資產定價本質上是預測問題,機器可以學習金融。他認為機器學習可以幫助處理大數據並從中選擇重要因素和特徵,能很好地應對過度擬合的問題,允許非線性學習極大地改善預測效果,將穩健性和對抗性網絡提煉為定價,智能預測也會帶來很大的經濟收益。 

以下是範劍青的大會報告內容,雷鋒網《AI金融評論》做了不改變原意的編輯與整理:

非常榮幸能夠參加第五屆CCF-GAIR全球人工智慧與機器人峰會。我今天的報告主題是《機器是怎麼學習金融的》。

這次報告的內容,是我們金融工程實驗室多人的工作成果,大綱如下:

大數據與人工智慧

穩健因子學習及其應用

債券風險溢價預測

高頻交易預測

文本數據與資產定價

重新理解大數據與人工智慧

眾所周知,人工智慧是由John McCarthy於1955年首次提出,一年後,他也與多名科學家組織了著名的Dartmouth會議。

何謂人工智慧?

Wikipedia中是這樣介紹的:「人工智慧」指機器模仿人類的「認知」功能所展示的智能,例如「學習」和「解決問題」。現實中的人工智慧是技術能夠訓練機器,將人從重複性、簡單性、危險性的繁瑣事務中解除出來。

Thomas J.Sargent:人工智慧其實是統計學,只不過用了一個華麗辭藻。

我認為人工智慧是機器學習的平方,讓機器自動學習機器算法、是機器學習的理想境界。目前內容包括圖像識別、語音識別、機器學習、機器人、專家系統、計算機視覺、自然語言處理等。

為什麼現在大家談人工智慧?What powers AI?

是大數據。

現在大數據無處不在,商業大數據、醫學大數據、網絡大數據、政府大數據等。針對大數據的共性,解決其對大數據系統和分析的科學挑戰所產生的新興科學叫數據科學。

我個人認為數據科學以應用為背景,包括數據的獲取、存儲、數據分析、科學計算。數據科學的目的是想把大數據解決成智慧數據。

我把它總結為:大數據=系統+分析+應用。

何謂機器學習?

Arthur L Samuel在1959年的「跳棋遊戲」論文中創造了「機器學習」這個術語:讓機器從數據中學習並做決策,它是可擴展的統計算法,充分融合統計建模思想和計算優化方法。使這些數據分析的思想能在大數據環境下得到有效的實現。

我個人認為機器學習是:統計+優化+實現環境。

機器學習最後的產品一定是可操作的代碼(Actionable codes)。

為了有可操作的代碼,我們需有優化的目標(Optimization objects),為了有優化的目標,我們需有統計模型(Statistical Modeling)和經濟效用(Economic Utility)。

現在最常見的是深度學習。

深度學習的概念是很常見的,是數學的函數逼近,它用的是兩種方法,信號源的線性組合,再做非線性的選擇,重複的過程構成很複雜的函數逼近方法。

為何今天深度學習這麼成功?

我認為它是很好的權衡偏差和方差的有效方法。深度網絡使得高維函數逼近更加靈活,即偏差很小。

另外90年代,我們就參與建設了這方面的工作,為什麼學術界和工業界現在才大談深度學習?

主要是因為大數據的到來,大數據的到來大大減少統計的方差,樣本量變大,方差自然變小。

現在計算技術使得大規模優化成為現實,使得我們可以在大數據上實現深度神經網絡逼近函數。

簡而言之是非參數統計思想在高維海量數據環境下的實現。

具體成功案例是圖像識別、機器翻譯、語音處理等等。

這些問題的共同特點是個體差異小,我們說話儘管各有口音,但個體間的差異小,而且信號集已知,你看到的圖像就是你那張圖像。換句話說X是已知的,信噪比大,∈小,學習得比較好。

我們今天要談的主要是機器學習的挑戰。

對於經濟金融、生物醫學、管理決策和人文社會,機器學習有很多挑戰和機遇,第一是個體差異大,第二是數據集未知。

例如上圖是閃電崩盤,這次發生的事情和幾年後發生的事情,可能變量完全不一樣,是什麼引起的我們也不知道,所以難以提取特徵,需要各學科交叉,使得這方面的發展挑戰更大。

對金融來說,金融數據的特點是什麼?

第一信號低,跟物理不一樣,物理信噪比很強。

第二數據不平穩,一直是隨著時間的變化而變化的,整個市場也是隨著時間的變化而變化,很多人參與,這是一個競爭的市場。這是對金融的挑戰。

機器能學習金融嗎?回答是肯定的:

第一,資產定價問題,本質上是預測問題,機器學習本身就是為預測設計的。

第二,影響市場的因子變量很多,這些變量往往是相關的。機器學習本身就是為降低維度和變量選擇設計的。

第三,定價的公式,不像物理是推導出來的、有很多假設的。資產定價非常複雜、形式未知。機器學習正是為高維複雜的非線性組合而設計。

基於這三個原因,我認為機器從某種程度上講是能夠學習金融。

大家自然會問預測成功的因素是什麼?一是大數據;二是魯棒性;三是你的模型捕獲能力。

什麼是大數據的典型特徵?

這些特徵對金融和宏觀經濟學尤其明顯。

今天我們主要講如何處理相依性和厚尾性一些方法。

接下來我用一個學術上常用的例子預測債券風險溢價來說明。

我要預測的變量是美國債券,債券有2、3、4等年期,可以對每一個債券進行預測。是131個宏觀經濟系列的月度數據。除此之外我們還有8個國內生產總值,居民消費價格指數等匯總宏觀經濟系列。這131個變量都是衡量經濟的健康狀況,所以他們是相關的。

我們對每一個時間序列算峰度(kurtosis),分布如圖所示。有大概三分之一左右峰度大於,它們應該是厚尾分布。我們自然而然會問:如何處理厚尾?我們從131個變量學習決定市場的因子之外,我們還有8個宏觀經濟時間序列,我們如何使用這8個信息更好地提取市場因子?

穩健因子學習及其應用

舉一個模擬的例子。這是線性模型,前10個變量對Y有影響,後面的變量沒有影響。X如果是有共同的相關性,假設有250個變量,做100次模擬,每一個時間序列長度是100。

如果我們用原始Lasso來做變量選擇,只有在完全不相關時,Lasso工作得還好。只要相關係數增加一點點,Lasso就不能完全選出這10個變量。

另一方面,如果我把這250個個性,加上每一個共同的因子拿出來作為第251個變量,就可以達到100%的正確模型選擇。如果說不知道是不是251個,而用255個可以嗎?可以,也可以得到這樣的效果。

如果Σ設成像標普500隻成分股那樣的協方差,最後的結果是一樣的,我們可以百分百把重要的變量選出來,其他的方法做不到。

同樣地,因子學習後,我們也可以做預測。從131個宏觀變量裡,我可以學到5個潛在因子,有8個匯總宏觀變量,加起來有13個變量。最簡單的是用這13個變量做線性回歸來預測債券風險溢價。

另外一種是構建預測指標,整個模型看起來像神經網絡。我們認為有一些共同的因子影響這些宏觀變量,所以從131個宏觀變量中學習共同因子後,構造預測指標,最後預測債券風險溢價。

因子模型還有其他的應用。比如金融風險建模,對高頻金融裡流動性強和差的股票之間的協方差矩陣的估計,用矩陣填補的方法可以獲得。你也可以用相關性來學習社區增強自回歸模型之類,其關鍵是降維。

因子模型的目的是處理相關性,接下來我講幾分鐘我們如何處理穩健性。假設你給我們的數據不一定是正態分布的,也可能是t分布的,有均值及方差。

我們平時對數據最簡單的處理是剪裁或截斷,如把數據在-3到3個標準差之間就保留,其餘就截掉,這樣做好處是肯定產生偏差。如果τ選擇的足夠大的話,這種偏差是可以忽略的:裁剪的數據的樣本平均跟原來的母體平均的差別就像數據是來自高斯分布一樣。

換句話說,如果τ足夠大,那麼裁剪樣本平均與母體平均之間的區別跟正態的樣本平均與母體平均之間區別是一樣的,最後的分布是具有高斯的尾部性質。

說寬泛一點的話,裁剪樣本平均表現像高斯分布,而沒有裁剪樣本平均表現像柯西分布。為什麼我們以前不太強調裁剪?因為我們在低維傳統統計中做樣本平均不多,在高維統計中會做很多樣本平均。所以高斯濃縮(Gaussian concentration) 是高維統計的核心。

舉一個例子。如果你給我1000隻股票,我要做投資,我要估計這1000乘1000個協方差矩陣,應該有50萬個參數左右。所以要算樣本均值50萬個。

如果數據是厚尾的,最後的協方差矩陣就不魯棒。如果用了裁剪,當數據僅具有4階距,就能實現與高斯數據的樣本協方差矩陣相同的估計精度。

做回歸時,如果我們用裁剪數據不是很方便,這時候我們會用Huber 損失函數。為什麼說是自適應Huber 損失,是因為是跟你的樣本量有關係。基本在裡面是一個二次型,外面是一個線性的。

我們這裡畫了這麼多圖,是因為我們用了很多不同的。這顯然對回歸更方便,就像前面說的高斯濃縮性質任然成立,這是兩個魯棒方法的主要思想。

簡單做個小結:

我們用因子模型來解決觀測到股票相關的問題。我們是用裁剪數據來解決魯棒問題,對回歸問題我們用裁剪損失函數,即Huber損失函數,來得到魯棒性質的。我們說過預測的好特徵必須是魯棒。

債券風險溢價預測

高頻交易預測

接下來簡單介紹高頻交易的預測。高頻交易在過去10年裡是高速增長的,帶來了金融大數據。到2015年,高頻交易在美國股票市場佔比超過50%,約55%左右,在歐洲大概佔40%左右,日本大概是30%左右。其他的亞洲國家是5%左右,高頻交易是在其他亞洲國家出現得比較少。

從2012年10月到2014年十月,在外匯交易中,80%的交易量是算法交易,其中多半是高頻交易。所以高頻交易顯然是把大數據帶到金融世界裡。

我們自然而然會問機器學習的方法是不是能夠幫助我們做預測或者做高頻交易?這個環境顯然是大數據環境。我們總的目的是要用過去預測未來。

那麼,自然而然需要問,什麼是可以預測,Momentums可以預測還是Durations可以預測?那麼,什麼是有用的預測因素呢?我們要往後看多久?現在機器學習的方法有沒有任何優勢?

關於TAQ數據這個我們就不多講了。

我們說的Momentum是這樣定義的。如圖紅點(出價)和綠點(要價),它們未來或往上走或往下走。

第一次,這兩個點同時往上或往下走1-tick,對這個例子來說正好是負的,我們就定義。如果我們繼續等待這兩個點同時往上或往下走2-tick時,這兩個點同時往上走,是正的,也就是

簡單來說,我們的Momentum是站在現在的時刻(也即是t),+1表示往上, -1表示往下。在中間的交易量,t到t'之間稱為duration。1-tick的Duration表示的是當前時刻t到下一個同時往上或者往下走1-tick的時刻t'之間的交易量,用表示,Duration同理。

首先嘗試微軟的Momentum能否預測?我們最後的結論是可預測的。我們對微軟的數據用過去50個最佳報價,每一個包含bid和ask,所以一共100個變量。我們用過去10天的數據訓練,5天的數據做測試。

如果你只是做最佳隨機預測(BRG),基本正確率是50%左右。如果你做邏輯回歸(LR),大概是在55%左右。如果做EN,大概也是55%左右。如果用隨機森林(RF),你可以達到59%左右。GBT和FNN都差不多是59%左右。換句話說,機器學習的確有優勢。

怎樣的變量是重要的?用綠線表示所有7個變量的結果,紅線表示選擇的一個子集(quote size和trade direction)的結果,紅線比隨機預測多預測8%。用該子集預測的效果跟用所有的變量預測幾乎差不多。如果往後看,這是,大概有900個變量。這時候過度擬合就可以看出來。但是如果用GBT或者FNN,過度擬合就不存在。

如果用專家設計的變量,例如OBL,不管你用哪個機器學習的方法來做,沒有超過8%左右。如果你用OFI來做,效果更差。

第一幅柱狀圖是我們用原始數據來做的,第二幅是原始數據+專家構造的變量來預測,最後的效果幾乎差不多,說明機器完全學習了專家的變量。

第三幅是用瞬時的原始數據做的,第四幅是瞬時的原始數據+專家構造的變量。加專家構造的變量幾乎沒多少改進,說明專家建立的變量已經被機器學習的變量所涵蓋。

如果是0.5個tick,預測結果就會高很多。如果是2個tick,效果幾乎是差不多的。

對duration,我們也可做類似的研究。這時duration是有多少交易量,它是一個連續的變量,所以我們做的是線性回歸,用Out-of-sample R²來衡量。

由於時間關係,我不再贅述。這個圖是說加專家構造的變量可能對預測duration有一點點幫助,但幫助可能不那麼大。

對我們剛才高頻數據一個簡單的總結如下圖:

文本數據與資產定價

由於時間不多,我簡單介紹文本數據以及資產定價。這是我以前的學生,他用我們的篩選方法來做,我把他們的結果快速介紹一下。目的是學習文件和新聞的褒貶度,用它預測選擇股票。傳統一般用基於Dictionary的方法。

這是一個IBM的短文為例。詞典中總共有38,862個單詞,其中只有160個出現在短文中。

下面就是讓計算機學習詞義,比如我們有100萬條新聞和200個單詞,就是100w × 200大小的矩陣,這是單詞出現的次數或者出現的頻率。

按我們剛才的模型,出現的概率等於出現在百分百是正的文章概率是多少,以及出現在百分百是負的文章概率是多少的加權平均,這是常用的主題建模(topic modeling)。寫成矩陣P大小為100萬乘2,以及θ為2乘200。如果你給我每篇文章的情緒或者褒貶程度P,我就能夠把θ求出來,即把詞義學習出來。

這個P如何學習?這個學習直接跟股票回報連在一塊。因為我們有100萬篇文章,每一篇文章都有那天的回報,所以你很容易看第i個文章回報的排名是多少。

這篇文章回報的排名就變成這篇文章情緒的排名。有了,我們就可以學習情緒θ,學習了情緒後,對未來新的文章就很容易給出一個分數。已經知道未來文章的200個詞的詞義,唯一不知道的是這篇文章能打幾分。因為我們有Multinomial Model,所以就很容易把用極大似然法求出來。把它求出來,這篇文章就有新的分數。

總結一下,先用相關性篩選法把與情感相關的詞彙選出來;然後對過去100萬個文章,按他們回報的高低來給他們情緒打分;有了情緒打分P之後,就可以把詞義學習出來;對未來新的文章就可以用Multinomial統計學習得到它相應的分數。

以下是具體的應用,數據來自Dow Jones Newswires 1989-2017年,有650萬條新聞。我們用前15年的數據作為學習,其中10年數據作為訓練集,5年數據作為驗證集,選擇最優參數。2004-2017年數據做為測試,使用第t天的情緒來預測第t + 1天的收益。

交易策略是什麼?對每天每個新聞打分。我們買最高、最好的新聞的股票50隻,做空分數最低的50隻股票。我們投資策略是Equal-Weighted或是Value-Weighted。最後是Zero net investment construction。

投資的效果是什麼?黑線是我們剛剛畫的long-short equal-weighted表現。黃線是SP500,要低很多。仔細看L-S的return,Sharpe ratios (SR)是4.29,average return大概是33%,用Fama-French 5個因子加上momentum factor(FF5+MOM)的風險調整後的alphas大概是32,而且匯報與這些風險因子幾乎無關。

比較Dictionary方法與RavenPack,我們的方法更有效。

下圖是Speed of News Assimilation,如果你投得太晚,新聞的價值很快就沒有了。

總結如下:

現場提問環節

IEEE Fellow王強:在深度學習裡使用監督或者半監督的模型,我也可以看到lowest數據或是非lowest數據,您覺得PCA方式跟深度學習的方式,哪個更好用?

範劍青:這個提問很好。PCA本身是線性的因子學習。做PCA的目的是想將相關的變量的共性跟特性分開。對於很相關的變量,例如剛才把131個變量直接放在機器學習裡,可能會包含太大的相關。

我們主要想講的是PCA將共性和個性分開,可以把136個變量放到深度學習裡。深度學習可以作為很好的預測方式,但是如果變量很大相關的話,可能預測效果並不好。PCA要學習的東西跟深度學習要學習的不完全一樣,可以互補。

量化投資與機器學習微信公眾號,是業內垂直於Quant、Fintech、AI、ML等領域的量化類主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險、資管等眾多圈內18W+關注者。每日發布行業前沿研究成果和最新量化資訊。

相關焦點

  • 統計學家範劍青:把 AI 學習金融,變為現實
    在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。
  • 統計學家範劍青:把 AI 學習金融,變為現實 | 萬字長文
    在大會第三日的「AI金融專場」中,著名統計學家、普林斯頓大學金融講座教授範劍青,從大數據與人工智慧、穩健因子學習及其應用、債券風險溢價預測、高頻交易預測、文本分析與金融投資,這五大板塊,向與會者報告近些年他的研究團隊的部分工作成果。
  • 大佬即將空降上海 統計學家範劍青受邀出席2018世界人工智慧大會...
    9月17日-19日,「2018世界人工智慧大會」將於上海召開,享譽世界的統計學家和金融工程學家範劍青教授將受邀參加由匯付天下有限公司(01806.HK,以下簡稱「匯付天下」)承辦的智能金融主題論壇。
  • 普林斯頓範劍青教授:AI=機器學習²,我們在去往²的路上
    原標題:普林斯頓範劍青教授:AI=機器學習²,我們在去往²的路上 雷鋒網報導,在9月18日「2018世界人工智慧大會」智能金融主題論壇上,中國網際網路金融協會會長李東榮,加州大學伯克利分校麥可·歐文·喬丹(Michael I. Jordan)教授,復旦大學大數據學院院長、普林斯頓大學教授範劍青、匯付天下董事長兼CEO周曄帶來了主題演講。
  • 第12屆金融計量國際年會在復旦大學舉行
    Linton、Eric Ghysels、Tim Bollerslev、範劍青、洪永淼等國際著名經濟學家、統計學家出席並作精彩的主旨演講。來自北美、歐洲、新加坡等國家和地區,以及全國各地知名高校120多位海內外經濟學者參會,共同交流和研討世界金融計量領域尤其人工智慧、金融科技、大數據與金融計量交叉領域的最前沿研究成果。
  • AI=機器學習²,我們在去往²的路上 | 普林斯頓範劍青教授
    Jordan)教授,復旦大學大數據學院院長、普林斯頓大學教授範劍青、匯付天下董事長兼CEO周曄帶來了主題演講。其中,範劍青教授分享了《數據智能與金融創新》。他主要介紹了人工智慧的興起,以及數據智能如何增強市場效率,加速產業發展、引領高科技的發展的。「人工智慧的目的與價值,就是把大數據加工成智慧數據,為經濟發展提供新能源,為科技創新提供新依據,為管理決策提供新信息。」
  • 小微金融與個人徵信專場 | 首屆中國青年統計學家論壇
    協會旨在促進中國青年統計學家的交流,定期舉辦中國青年統計學家年會論壇。協會成立大會暨中國青年統計學家年會論壇已定於2019年4月19日在上海財經大學舉辦,會議邀請了數位在學術界和業界的優秀青年統計學家作為主旨演講嘉賓,同時也歡迎社會各界的統計學家報名演講或參會。本次首屆會議的主題為:青年統計學家與數據產業。
  • 李祥林:如何在投資中使用機器學習?|洞見
    整個華爾街都覺得很奇怪,但是這家公司從來不招學金融和經濟的人,也從來不從華爾街招人。他們招的人全部是學科學、學技術的教授和研究員。最近他才公開講,實際上文藝復興十幾年前就開始在投資中用機器學習的方法了。去年,全球的股票收益可能大部分國家是負的,美國是負的5%左右的收益,中國可能是負的百分之二十幾。
  • 專訪國際統計學最高榮譽考普斯「總統獎」得主範劍青
    中新社香港八月二十六日電題:「個人的幸運國人的榮譽」——訪國際統計學最高榮譽考普斯「總統獎」得主範劍青  中新社記者盧峰  三十八歲的範劍青剛獲得二000年國際統計學最高榮譽考普斯「總統獎」。「是個人的幸運,也是中國人的榮譽」範劍青說,能夠以中國人的身份獲獎而感到自豪,也讓世界再次認識中國人在學術領域的成就。
  • 聚焦數字金融 首屆金融數學與金融科技國際論壇成功舉辦
    範劍青 美國普林斯頓大學Moore金融學講席教授,COPSS獎獲得者,臺灣中院院士在主題報告環節,美國普林斯頓大學Moore金融學講席教授,COPSS獎獲得者,臺灣中院院士範劍青做了題為《Statistical machine learning for financial prediction and inference
  • 關於機器學習的領悟與反思
    計算機學家認為那些統計理論沒有用,不解決問題,而統計學家則認為計算機學家只是在「重新發明輪子」,沒有新意。然而,他認為現在情況改變了,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。所以,沃塞曼寫了這本書,可以說這是一本為統計學者寫的計算機領域的書,為計算機學者寫的統計領域的書。
  • 【新書推薦】陳強《機器學習及R應用》
    編者薦語:  三年磨一劍,期待已久陳強老師的《機器學習及R應用》終於上市啦!本書對於機器學習的核心方法,進行了深入而詳細的介紹,並特別關注各學科常用的算法,無論是看似複雜的機器學習原理,還是分享機器學習匠心獨運,均為讀者帶來愉悅的閱讀體驗。  以下文章來源於計量經濟學及Stata應用,作者愛計量。
  • (範劍青)文化教研組優秀教師風採展示
    範劍青運城市文化藝術學校語文高級講師中共黨員 畢業於山西師範大學漢語語言專業本科學歷文學學士。撰寫論文:《試論蘇軾詩詞風格形成的原因》《淺談語文學習興趣的培養》《談語文教學愛國主義教育的滲透》初心不改 使命常存作為語文老師
  • 深入剖析機器學習中的統計思想
    當你進行機器學習時,你想知道用什麼樣的變量,以及預測未來會是什麼樣子。以統計思想的視角,了解數據分布、評估各種結果的概率、理解數據生成過程、模型解釋性是關注的重點,而機器學習更多的關注的是預測的準確性,我們知道,模型的實際應用光有準確性是不夠的,人類到現在還沒有一個非常成功的機器(系統),工作的好卻不能解釋。
  • 利用機器學習進行實證資產定價, 金融投資的前沿科學技術!
    7.前沿: 機器學習在金融和能源經濟領域的應用分類總結,8.機器學習方法出現在AER, JPE, QJE等頂刊上了!9.機器學習第一書, 數據挖掘, 推理和預測,10.從線性回歸到機器學習, 一張圖幫你文獻綜述,11.11種與機器學習相關的多元變量分析方法匯總,12.機器學習和大數據計量經濟學, 你必須閱讀一下這篇,13.機器學習與Econometrics的書籍推薦, 值得擁有的經典,14.機器學習在微觀計量的應用最新趨勢: 大數據和因果推斷,15.R語言函數最全總結, 機器學習從這裡出發,16.機器學習在微觀計量的應用最新趨勢
  • 生物統計學家:臨床研究的幕後高手
    日前,Chinese Clinical Oncology雜誌邀請到來自梅奧統計部門的Daniel Sargent教授和Qian Shi教授組建「Statistics in Oncology Clinical Trials」統計學專欄,希望通過組織腫瘤臨床試驗領域頗有貢獻的著名統計學家來撰寫相關文獻,提高人們對生物統計學家重要作用的認識,增強腫瘤學家和統計學家間的交流,刺激更多臨床試驗設計方面的創新研究
  • 著名統計學家Donald B. Rubin:機器是否可以思考甚至具有意識?
    Rubin在本次演講中,深入淺出、觸類旁通地為我們介紹了他最近正在研究的一個非常有趣的課題「機器受訓後是否可以進行思考(thinking) 甚至具有意識(conscious)?」,他認為thinking 和conscious是有區別的,並在講座中為我們詳細介紹了兩者的區別。
  • 分析師和統計學家可以和諧相處嗎?
    如果你在數據饑荒的黑暗時代接受了數據科學訓練,你可能會有一種令人討厭的刻板印象,這種印象源於你未能理解分析師和統計學家扮演著不同的角色。無論你身處哪個陣營,你可能會認為另一個陣營在試圖做你的工作,而且他們做得很糟糕。雙方印象統計學家對分析師的看法一句話:馬虎。
  • 想讓機器學習與商業結合,最重要的是什麼?
    除了培養機器學習模型,我們還能做什麼?如何準備數據?如何擴大數據集?為什麼特徵工程如此關鍵?如何將模型運用到生產實踐,成為完全可行的系統呢中?如果能從開源軟體中獲取所有的數據科學工具,數據科學平臺還有存在的意義嗎?本文將回答以上部分問題,並揭示目前機器學習遇到的挑戰和困難,進一步通過具體行業案例提出最佳解決方案。