我們提出通過從適當構造的轉換概率內核中進行重採樣來對具有相關數據的多模態進行測試,其中包括 Silverman 的具有獨立數據的測試作為特例。 我們將具有獨立且均勻分布的數據的 Silverman 檢驗的一些理論特性擴展到弱相關的數據,並且相對於穩健性討論了 Silverman 測試的獨立性。
一些關鍵詞:
高斯核;馬爾可夫鏈 Silverman 測試;平滑的自回歸引導程序;均勻遍歷
對動力系統的研究激發了我們對多模態的興趣,動力系統可能具有多個平衡點。在隨機環境中,它們可能以多峰概率分布的形式表現出來,反映了系統動力學對分布的混合以及平衡周圍位置的影響。多模態對預測也具有重要意義。 例如,樣本均值實際上可能是不良的長期預測!更一般的說,在隨機動力系統中,固定密度下的模式數量提供了有關基礎動力過程的局部操作模式數量的重要信息。
在獨立數據的密度中進行多模態測試的問題已在文獻中引起了廣泛關注。在本說明中,我們針對具有均質躍遷概率核的平穩 p 階馬爾可夫過程的一維平穩邊際密度中的模態數推廣了 Silverman 的引導測試。注意,有限階馬爾可夫過程的類別相當廣泛,包括所有有限階 order 模型和非線性自回歸模型。雖然可以使用樣本部分自相關來憑經驗檢查諸如有限階自回歸模型之類的特定馬爾科夫假設,但似乎缺乏針對一般馬爾科夫假設的非參數檢驗,需要進一步研究。
在第 2 節中,我們介紹了適用於有限階馬爾可夫過程的平滑自回歸引導程序。該方法包括(i)使用乘積高斯核平滑方案估計真實的過渡概率核,以及(ii)從估計的 Markov 過程生成引導序列。內核平滑方案的帶寬設置為估計的邊際密度允許假設的模式數量的最小帶寬。 Silverman(1981)的結果確保了以 h 表示的這種臨界帶寬的存在。 Bootstrap 系列用於近似計算觀察到的臨界帶寬的 p 值 pr(h≥h obs),該值在與零假設相符的最不理想假設下進行評估。我們表明,此處開發的自舉測試相對於馬爾可夫階是魯棒的。特別是,Silverman 的多模式引導測試在抵禦獨立性假設方面非常有力。我們在§3 中將這些理論特性中的一些擴展到了弱相關的數據。所有證據都收集在附錄中。在第 4 節中,我們用一些模擬的和真實的數據說明了引導測試。最後,我們在第 5 節中作總結性發言
因此,在假設 1-3 下,p 階馬爾可夫平穩條件下的一階性質與獨立數據假設下的一階性質相同。 特別是,擴展的 Silverman 檢驗具有漸進性,並且漸進地具有原始 Silverman 檢驗的一些缺點,例如對異常值的敏感性和保守性(Hall&York,2001)。 但是,假設 1 要求底層的馬爾可夫過程允許指數衰減的混合速率; 如果幾乎違反了此假設,則測試不必過於保守。 的確,如下面的模擬研究所示,該測試對於幾乎非平穩的過程可能變得寬鬆。 研究強烈依賴於模式測試程序屬性的影響是一個有趣的未來問題。
實驗中使用了六個自回歸參數值,即 w =±0·5,±0·9 和 ±0·95。在這裡,真實的邊際密度可以證明是單峰的。因此,我們僅考慮在將馬爾可夫階設置為 0 或 1 的情況下測試密度是否為單峰的情況。回想一下,對於零馬爾可夫階,數據被視為獨立數據,並且該測試成為通常的 Silverman 測試。樣本大小等於 100,並且基於 200 個引導程序計算引導程序 p 值;每個實驗重複 200 次。表 1 列出了名義 5%試驗的經驗拒絕率。請注意,自回歸係數的幅度越接近 1,則過程越接近非平穩性。該實驗的結果表明,Silverman 檢驗及其在此處開發的推廣具有相似的經驗規模,並且通常是保守的。當流程幾乎是不穩定的,從而幾乎違反了假設 1 時,測試將變得自由。在基於平滑自回歸引導程序的測試中,尺寸失真問題似乎沒有在 Silverman 測試中那樣嚴重,這是擴展 Silverman 測試的優點。但是,| w | = 0·95 的情況意味著底層過程在時間上有很強的依賴性。在 −0·9 到 0·9 的範圍內,基於平滑自回歸自舉的新測試的經驗大小與標稱值 5%相當。因此,我們建議使用新測試來測試具有弱相關性的馬爾可夫數據的多模態。我們還對固定的一階,閾值自回歸模型生成的數據進行了實驗,在這種情況下,該測試似乎是保守的,對於檢測多模態具有中等強度。
表 1 從一階自回歸模型生成的時間序列數據密度的單峰性的名義大小為 5%的試驗的經驗拒絕率
接下來,我們用 1969 年 11 月 24 日至 1997 年 11 月 28 日的每日恒生指數來說明該測試。這是一個相當長的時間序列,包含 6909 個香港證券交易所的每日收盤價。原始數據顯示出指數增長模式。為了引起近似平穩,我們考慮對數轉換後的恒生指數的第一個差異;關於時間序列圖,請參見圖 1,其中顯示了三個可能的「異常值」,分別對應於 1987 年 10 月 26 日和 1989 年 6 月 5 日的兩次最大的墜機,以及 1997 年 10 月 29 日的最大的反彈。變換後的恒生系列在如此長的時間範圍內是靜止的,該系列被分為五個時期以供進一步研究;參見表 2。我們採用了 Cheng-Tong(Cheng&Tong,1992)階次確定方法,該方法選擇的階次最小化了第一步預測誤差平方的非參數交叉驗證和。根據這一標準,在整個時間範圍內,對數恒生數據的第一個差異可能是一階過程,零階競爭非常激烈。該結論與以下觀點是一致的,即如果香港股市充分有效,對數轉換後的恒生指數應表現為隨機波動。表 2 總結了在五個時間段內對數轉換後的恒生指數差異密度的眾數測試結果。有趣的是,該測試表明,在前三個時期內,轉換後的恒生指數的密度是單峰的,但在最後兩個時期內可能是三峰的。請注意,這三個「異常值」發生在最後兩個期間。隨後,我們從數據中刪除了這些離群值,並重複了分析;參見表 3。如果沒有第四階段最大的車禍,則密度似乎也是單峰的。當最後階段的最高反彈消失時,密度似乎也是單峰的。該示例對說明 Silverman 的測試和此處開發的擴展名對異常值敏感。
表 2 從 1969 年 11 月 24 日到 1997 年 11 月 28 日的 5 個周期中,對數轉換後的恒生每日指數的第一個方差的多態性檢驗
表 3 從 1969 年 11 月 24 日至 1997 年 11 月 28 日的 5 個期間內,對數轉換後的恒生每日指數的第一個方差的多模態檢驗,並從數據中刪除了三個異常值
因此,我們建議探索這些測試在檢測異常值方面的潛力是值得的。
我們注意到假設 1 提出了一個相當強的假設,即指數衰減的混合速率。 這個假設排除了一些比幾何混合速度慢的馬爾可夫過程(Nummelin&Tuominen,1983; Tuominen&Tweedie,1994)。 令人感興趣的是放鬆該混合速率並將該方法擴展到具有合適的混合速率的非馬爾可夫過程。 密度模式的數量通常是通過檢驗假設序列來確定的。 這種方法需要進行校正以確保固定的總錯誤率。 探索順序測試方法的替代方法很有趣。 另一個問題是評估訂單確定對擴展的 Silverman 檢驗的影響
本文由南京大學軟體學院 2020 級博士虞聖呈翻譯轉述。