科學領域的可複製性危機
造成如此結果的部分是因為P-hacking!
我們在統計時經常用到P值,一般認為P≦0.05有統計學意義。但是現在很多統計學家並不是這樣認為,對於P值的濫用和誤用進行了苛刻的批評。因此出現了一個新詞:P-hacking。
P-hacking 最早應該是美國賓夕法尼亞大學的Simmons和他的團隊提出來的,Simmons等人也對P-hacking進行了定義:
P-hacking refers to the practice of reanalyzing data in many different ways to yield a target result. They, and more recently Motulsky, have described the variations on P-hacking, and the hazards, notably the likelihood of false positives—findings that statistics suggest are meaningful when they are no.
P-hacking 按照字面的意思來看是「P值黑客],但是實際上的意思科研動力認為是「P值篡改」或者「P值操縱」。P-hacking是科研人員不斷的嘗試統計計算直到p<0.05,當然有時這可能是無意識的。
有一些可重現性危機,一些科學家無法複製一些關鍵實驗:
《科學》雜誌發表了一項名為「可複製性項目」(re - bility Project)的計劃的成果。該計劃是由非營利組織開放科學中心(Center for Open Science)協調的合作項目。參與者試圖複製100個與實驗相關的心理學研究,這些研究已經在三家著名的心理學雜誌上發表。媒體廣泛報導的結果令人深思,只有39項研究被成功複製。
大部分原因是研究人員在發表具有統計學意義的結果之前進行了大量的試驗。或者在試驗過程中改變不同的參數。這就是所謂的The garden of forking paths,並不總是經過深思熟慮的。
金融領域的可複製性危機
在過去的幾年裡,一些金融數學領域的一些學者已經注意到困擾大家的回測過擬合問題。例如,下面這篇在2016年發表的論文闡述了這個問題:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2731886
為什麼在理論上看起來不錯的策略往往在實踐中表現不佳,是因為回測中那些看起來牛逼轟轟的表現往往不會在實際應用中繼續重現。
沿著這條線,在下面這篇論文中:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2739335
論文表明:基於回測,可以很容易地實現任何預期的目標。比如10年或更長時間內每月增長1%。然而,當呈現新的數據時,它們總是被證明是禁不住考驗的。至少,完全不能複製當初所宣稱的目標。
如今,隨著算力與程序化技術的興起,情況更加惡化了!
為一個策略生成千上萬、數百萬甚至數十億的組合權重或參數已經變得越來越簡單。正如這篇論文所提到的:
http://www.ams.org/notices/201405/rnoti-p458.pdf
Marcos Lopez de Prado、Michael Lewis在回顧了上述以及該領域其它的最新發展後,遺憾地得出結論:從業者和學者發現的大多數投資策略都是錯誤的!
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3167017
同樣,Marcos Lopez de Prado在2018年《福布斯》採訪Brett Steenbarger時,也從以下幾個方面討論了這種情況:
假設一家製藥公司開發了1000種藥物,並在1000組志願者身上進行測試。當有幾十種測試證明「顯著性」的機率為0.05時,這些藥物就被當作有效的治療方法開始銷售了。病人們相信這些「科學測試」,紛紛湧向這些新的藥物。結果卻發現,由於藥物並沒有帶來預期的效果,他們的病情反而惡化了。一些消費者病得很厲害,有些人甚至死亡。
顯然,這種欺騙行為會引起公眾的強烈抗議。事實上,這正是我們有一個監管機構和法律來幫助確保藥物在向公眾提供之前經過了適當的測試的原因。但金融消費者卻得不到這樣的保護,使他們容易受到未經驗證投資策略的影響。這些假陽性結果尤其具有誤導性,因為它們是由一群具有專業研究背景的人所推動的,而這些研究人員並沒有使用必要的科學工具來發現這些虛假的結果。
Fama將有效市場定義為:如果資產價格完全反映了可得的信息,則市場有效。而在隨後的研究中,眾多異常收益現象(Anomalies)被發現,即持有具有某種特徵的股票在未來會獲取超額收益。
為了更好地評估金融領域的可複製性狀態,Kewei You、Chen Xue、Lu Zhang發表了一篇關於金融領域異象指標複製的論文:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3275496
在Lu Zhang教授的論文中,基於美國市場數據,對447種異常收益現象進行了研究(考慮到變量定義的唯一性,實際有大約220種異常收益變量)。結果表明,將T值為2作為閾值時,約64%的異常收益組合收益是不顯著的;將閾值提高至3時。約85%的異常收益組合收益是不顯著的。也就是說,儘管已有文獻記錄了眾多樣本期內有效的因子,但當對其進行複製時,該因子有效性或喪失、或減弱。
論文最後指出:投資者必須對研究結果自己動手進行複製與回測,所謂「信任但要驗證」。對任何感興趣的研究成果,都需要在研究團隊反覆獨立測試驗證後才相信,對學術研究結果反覆測試檢驗是很有必要的。科學文獻自我糾正的機制是有限的,一般也只會糾正最重要研究成果的偏差。
大部分基於流動性的變量基本只在微盤股有效,即使用等權重,交易摩擦因子的複製成功率也只有不到40%。因此這個類別因子的有效性值得懷疑。我們並不是說流動性、交易微觀結構和其他交易摩擦變量(例如交易費)在實踐中不重要,而是就驅動股票獲得超額收益的因子而言,交易摩擦遠遠沒有價值、動量、投資和盈利因子重要。
其他一些眾所周知的異象指標,作者無法複製,包括:
the Bhandari (1988) debt-to-market; the Lakonishok-Shleifer-Vishny (1994) five-year sales growth; the La Porta (1996) long-term analysts』 forecasts; several of the Abarbanell-Bushee (1998) fundamental signals; the O-score and Z-score studied in Dichev (1998); the Piotroski (2000) fundamental score; the Diether-Malloy-Scherbina (2002) dispersion in analysts』 forecasts; the Gompers-Ishii-Metrick (2003) corpo- rate governance index; the Francis-LaFond-Olsson-Schipper (2004) earnings attributes, including persistence, smoothness, value relevance, and conservatism; the Francis-LaFond-Olsson-Schipper (2005) accrual quality; the Richardson-Sloan-Soliman-Tuna (2005) total accruals; the Campbell-Hilscher-Szilagyi (2008) failure probability; and the Fama-French (2015) operating profitability.
有人擔心,儘管Kewei You、Chen Xue、Lu Zhang引用了一些多重檢驗統計數據,但考慮到他們的研究範圍,可能沒有完全彌補這一現象。但這意味著,如果有什麼區別的話,那麼他們的研究結果是相對保守的。在他們的研究中,統計上可以複製的指標甚至更少,或者僅在非常有限的統計可信度下才可複製。
更重要的是應該記住,張教授他們的數據只持續到2016年。從那時起,全球市場上基於大數據的程序化交易大幅度增加,這也很可能意味著,一些曾經有重大價值的異象指標不再有效!
發布新結果的壓力
2016年,Harvey、Liu、Zhu的一項研究表明:他們分析了296篇已發表的論文中的異象,發現80至158篇(高達53%)可能是錯誤發現。
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2249314
作者認為,該領域的一種基本結構性結構偏差可能是罪魁禍首:儘管複製研究經常出現在大多數其他科學領域的頂級期刊上,但這類研究很少在金融和經濟領域發表。換句話說,人們普遍傾向於發表新的結果,而不是嚴格地驗證之前的結果。
美國金融協會前任主席Campbell R. Harvey也注意到了這類問題:
https://faculty.fuqua.duke.edu/~charvey/Research/Published_Papers/P131_The_scientific_outlook.pdf
由於複製性研究和其他沒有報告顯著新結果的研究往往產生較少的引用,這類論文不太可能發表。另一方面,Harvey注意到研究人員也會造成發表偏見,摸清了期刊對有重大新結果的論文的套路,作者可能不會提交只有邊緣結果的論文。這種偏見在其他領域被稱為「file drawer effect」。發表偏見也可能是由於作者在期刊提交的論文中精心挑選最重要的結果引起的,這是P-hacking的一種形式。
恢復可複製性
幸運的是,有一些特定的工具可以用來防止這次有害的影響,如回測過擬合和其他形式的多重檢驗偏差。例如,2014年JPM的這篇論文提供了一些可靠的方法來檢測和防止錯誤的發現:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2460551
同時,2017年JCF的這篇論文提供了計算回測過擬合概率的理論框架:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2326253
歸根結底,唯一的長期解決方案是教育!但針對金融領域的研究人員來說,這個問題任重而道遠~
避免P-hacking
最後,在你自己的研究中避免P-hacking的一個好的方法是:從一開始就對自己誠實。仔細考慮並記錄你想要測試的所有內容。如果你想測試20個不同的因子,請在開始測試之前指定這些因子,並在評估指標時考慮所有20個因子。
但最重要的是,想想你自己的模型在做什麼。神經網絡有時被認為是黑箱,從某種意義上說,的確如此,但是你應該批判性地回顧每一步。如果你正在進行圖像識別,請觀察每一層的激活,大致了解該層的激活基於什麼。如果你正在進行強化學習來玩遊戲,看看你是否能夠大致理解邏輯是如何工作的。如果你正在進行自然語言處理,請考慮與同義詞、反義詞和相關單詞有關的詞向量。
如果你在做股票市場分析,問問自己你真正想從模型中得到什麼。為什麼某些因子的第n個延遲是一個預測因子?為什麼以前的收益會影響未來的收益?你為什麼只考慮最近的N次收益?為什麼要預測一個(每天、每小時、每分鐘)的周期?你為什麼要考慮從X到Y這段時間?為什麼驗證到Z?
將股票增量輸入到一個遞歸神經網絡中就可以達到減少損失的目的,但是有了解釋,你也可以將這些值擬合到一個隨機數生成器中。
參考文獻
1、Kewei Hou, Chen Xue, Lu Zhang, 2019, Replicating anomalies, forthcoming, Review of Financial Studies.
2、David H. Bailey, Marcos Lopez de, PradoJournal of Portfolio Management, 40 (5), pp. 94-107. 2014
3、David H. Bailey, Jonathan Borwein, Marcos Lopez de Prado, Qiji Jim Zhu, Journal of Computational Finance (Risk Journals), 2015, Forthcoming
4、東北證券,高建、王琦,2018,Replicating Anomalies A股檢驗
5、新全球資產配置,2019,因子戰國:張櫓教授對q-factor模型的五大討論
量化投資與機器學習微信公眾號,是業內垂直於量化投資、對衝基金、Fintech、人工智慧、大數據等領域的主流自媒體。公眾號擁有來自公募、私募、券商、期貨、銀行、保險、高校等行業20W+關注者,連續2年被騰訊雲+社區評選為「年度最佳作者」