作者 | 南方、小風
數據支持 | 勾股大數據(www.gogudata.com)
美國大選落定,拜登贏了川普。
本以為這事就吃瓜結束,沒想到有人很勤快地用本福特定律對美國大選結果進行了驗證,經統計各候選人在某地所有選區的得票數後發現,川普一切正常,而拜登得票不符合「本福特定律」涉嫌選票舞弊。
這不是本福特定律第一次用於證明大選造假,早在2009年,本福特定律就證明當年伊朗大選存在「欺詐」,而且還被《華盛頓郵報》引用報導「魔鬼存在於數字上」。
1992年,Mark J. Nigrini在其博士論文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)中提出「以它檢查是否有偽帳」。
2009年,西班牙數學家的一項素數發現,提供了本福特定律還能應用於欺騙檢測和股票市場分析等領域的新思路。
有人曾拿該定律驗證在財報中虛報盈利的美國安然公司,因為安然高層改動過財務數據,他們公布的2001-2002年每股盈利數據的確不符合本福特定律。
於是,本福特定律經過口口相傳,得出了一條驚世駭俗,嚇尿審計狗的結論——「不滿足本福特定律的就意味著財務造假,這條定律能幫助偵破「財務造假」。
這個結論突然就讓探雷哥覺得碗裡的飯不香了,如果這個定律這麼牛,探雷哥就真的哪裡涼快哪兒待著去了。
本福特定律
關於本福特定律的介紹網上很多,探雷哥就不再詳細介紹了,我看了很多文章都神化了這個定律「它可以用來檢查各種數據是否有造假」,比如選舉、直播數據造假。
以及,即使是不懂財務知識都可以操作使用,靠數數就能辨別財務造假。
但它的應用是有前提的。
前提是,數據必須雜亂無章,隨機、跨度大、樣本數量多,沒有人為設計成分。在這幾個條件下,如果財報沒經過人為修飾/造假,就會基本符合本福特定律(Benford's law),即樣本和本福特標準的擬合情況就會如下圖所示,基本沒偏差。
更有人提出,美股歷史上被查出財務造假的公司,事後都被發現財報數據嚴重偏離本福特定律,有明顯的有明顯操縱痕跡。
請注意是「事後」。
樣本選取及示例
我們選取的樣本數據來源是聚源的所有A股上市公司。但需要滿足以下幾個條件:
1、取在2009年及以前上市的A股公司,保證所取上市公司上市時間大於10年,這個目的主要是確保樣本數據足夠多;
2、取出上述公司2008年-2019年(共計12年)的資產負債表、利潤表、現金流量表數據;為啥取2019年呢,是因為2019年是退市大年,如果在19年得不出退市結論的,則在之後年份會更少;
3、因為本福特定律適用於自然增長、雜亂無章、隨機產生的數據驗證,所以我們需要將資產負債表、利潤表、現金流量表剔除掉部分行數據,邏輯是這些行數據具有人為成分,不符合自然增長、隨機產生、雜亂無章的特點。比如財務費用項下的包含項(利息費用和利息收入)、借款、投資收益類數據等;
4、將三大報表數據的負數換成絕對值、空行填0;
5、再取各列數據第一位首字母,比如營業收入593456878元,取首字母就是5;
6、統計出三大報表中數字1-9出現的次數,得出結果;
最終,我們篩選出1631家上市公司,57366行、516294個數據。最終的基礎數據表如下圖所示。
在上述數據篩選的過程中,我們曾遇到這樣一個數據問題:
針對同一個「表來源」欄位,同一個「年報日期」,如果報告公告日期出現多個時,則選取原始未修訂數據,理由是修訂後的數據會比原始數據更符合本福特定律。
最後保證資產負債表、利潤表、現金流量表的行數據數量一致,如,本次樣本的資產負債表數據為19122行、利潤表行數據為19122行、現金流量表行數據19122行。
我們以股票代碼為000001的平安銀行舉例說明。年報日期是財報的期末日期,報告公告日期是對應年報披露的日期。從08年到19年,一共12年,3張財務報表對應生成的行數據為12*3=36行。
不區分財報來源(資產負債表、利潤表、現金流量表),對平安銀行上述各列數據進行匯總統計,得出1-9各列的數據合計和概率,如下圖所示。
然後再將其進行圖形化展示,如下圖所示,基本與本福特定律貼合。
怎麼量化這種貼合度呢?我們就需要設置檢驗公式。檢驗樣本實際概率分布與本福特定律的偏差程度,用到卡方檢驗,卡方檢驗又稱最佳擬合度檢驗,具體計算公式如下。
經過計算,平安銀行與本福特定律的偏離度只有0.62%。
按照這個計算邏輯,對上述全部樣本進行全部計算。
樣本統計情況
最終整理出這樣一張結果表,包括股票代碼、股票名稱、頻次、概率和偏離度的全部信息。
得出1631家公司的偏離度範圍是0.1%-46.5%,分布情況如下。
假如1%-5%是容錯率,只關注偏離度較小(偏離度範圍為0.1%-1%)和偏離度較大(偏離度範圍為5%-50%)的部分樣本。
偏離度較小的公司有332家,輔以市值從高到低的順序排列,如下圖所示,前面的畫風還挺正,是大家熟悉的大白馬。
但越往後越看,似乎畫風有點不對勁,3家退市股,286家市值在300億左右的公司都在列,其中有183家只有幾十億市值。
(限於篇幅下圖僅選取部分展示)
我們再看看偏離度較大的個股。通過整理發現,103家公司中,有39家已經退市,49家市值在100億以下,15家的市值在100億-700億之間。
這15家公司中(上述標記顏色的公司),包括探雷哥近期分析過的國軒高科《一個價值300億的"殼"》、《讓子彈再飛一會》中都提到國軒高科的確存在「人為操縱業績的跡象」。
其他幾家,有興趣的讀者可以繼續分析分析。
「異常股」再篩
綜上兩種情況來看,本福特定律在偏離度較大的「退市股」驗證上好像行之有效,但在偏離度較小的「績優股」方面證明好像行不通。
這也就意味著,偏差大大概率是問題股,但偏差小,並不意味著不是問題股。
我們再加入相關財務指標對這些可能錯殺和誤判的股票進行再篩。
於是我們篩選出偏離度較小,市值在500億以下的個股和偏離度較大,市值在100億以上的個股。
藉助格隆匯的診股寶工具進行再次篩查,從這兩份樣本中篩選出來評分較低的公司,驗證本福特定律在證偽方面的準確率和證實方面的誤判率。
診股寶的樣本範圍是3863家上市公司,得分區間是【-9,100】,按照1:1的數量比例去定義及格線, 55.5分較為合適。
我們對偏離度較小的325家公司按照55.5的及格線進行再次篩選,有173家在及格線以下,比例佔53%,按照得分從高到低排列,名單如下圖所示。
(限於篇幅下圖僅選取部分個股展示)
偏離度較小的公司樣本總數一共332家,其中評分低的公司有173家,證明本福特定律在偏離度較小的樣本中的誤判率為52%。
我們再對偏離度較大的,需要再篩的15家上市公司名單按照55.5的及格線進行篩選,有5家在及格線以下。按照得分從高到低排列,名單如下圖所示,國軒高科再次中選。
偏離度較大的公司樣本總數一共103家,評分較低的有93家,在偏離度較大的樣本中出現問題股的概率接近90%。
是否可以得出「用本福特定律篩選出的偏離度較大的公司是「雷股」的準確度高,而篩選出來的偏離度較小的公司沒問題的概率並不高。
是否說明本福特定律具有較強的「後驗性」?
怎麼看待本福特定律?
在此次驗證過程中,探雷哥就發現在樣本選取方面就存在一些阻礙,比如多少數據算大樣本?對具有人為性數據剔除的判斷是否準確?
這是本福特定律應用的大前提,這在一定程度上決定了結論準確與否。
另外,除了探雷哥和技術同事聯合驗證了下本福特定律,探雷哥還找了其他用本福特定律驗證財務造假的案例,就比如德勤。
德勤曾就基於中國債券市場對所有標的公司用本福特定律進行測算,以期發現可能存在財務粉飾的,與本福特定律不符的公司。
探雷哥還特地採訪了該信用風險諮詢項目的當事人,他給我的反饋是「沒什麼用、偽命題」。
以及本福特定律不具備提前警示性。
還有其他曾用本福特定律證明財務造假的同仁,曾發表過其他相關結論:統計越偏離本福特定律,該上市公司的持續盈利能力越低(上述偏差較大的樣本,其市值也普遍偏低,也在一定程度上證明了該結論的適用性)。
另外都曾在文章中表明一條共識——「本福特定律並非萬能,只是參考,是否財務造假還需要專業的財務知識深入分析」(如上述偏差度較小的公司,還需要輔助其他財務指標進行再篩)。
結束語
綜上,本福特定律似乎在一定程度上對績優公司和退市公司有所區分,尤其是在退市公司身上的確出現了大幅偏離本福特分布曲線的現象。但在偏離度較小的公司名單中也發現了少量幾個退市公司和暫停上市公司。
這意味著完全依賴本福特定律幫助發現財務造假不太可能,但偏離度越大,財務造假、盈利能力弱的可能性更大,說明本福特定律對財務造假的後驗性很強。
回到文章開頭的那句「不滿足本福特定律的就意味著財務有可能造假」,結論有可能是對的,但用本福特定律去發現造假的結論則有點武斷。
至於它能不能幫助你提前發現造假,有興趣的讀者可以通過繼續跟蹤下上述「異常名單」去驗證它的有效性,就比如探雷哥已經驗證它對「國軒高科」的判斷是正確的。
另外,深入研究,輔以財務分析手段、常識等專業知識技能去判斷一家公司是否存在財務造假才會減少誤判,這也是研究的價值所在!