使用相關數據測試多模態

2020-09-25 慕測科技


摘要:

我們提出通過從適當構造的轉換概率內核中進行重採樣來對具有相關數據的多模態進行測試,其中包括 Silverman 的具有獨立數據的測試作為特例。 我們將具有獨立且均勻分布的數據的 Silverman 檢驗的一些理論特性擴展到弱相關的數據,並且相對於穩健性討論了 Silverman 測試的獨立性。

一些關鍵詞:

高斯核;馬爾可夫鏈 Silverman 測試;平滑的自回歸引導程序;均勻遍歷

I 簡介

對動力系統的研究激發了我們對多模態的興趣,動力系統可能具有多個平衡點。在隨機環境中,它們可能以多峰概率分布的形式表現出來,反映了系統動力學對分布的混合以及平衡周圍位置的影響。多模態對預測也具有重要意義。 例如,樣本均值實際上可能是不良的長期預測!更一般的說,在隨機動力系統中,固定密度下的模式數量提供了有關基礎動力過程的局部操作模式數量的重要信息。

在獨立數據的密度中進行多模態測試的問題已在文獻中引起了廣泛關注。在本說明中,我們針對具有均質躍遷概率核的平穩 p 階馬爾可夫過程的一維平穩邊際密度中的模態數推廣了 Silverman 的引導測試。注意,有限階馬爾可夫過程的類別相當廣泛,包括所有有限階 order 模型和非線性自回歸模型。雖然可以使用樣本部分自相關來憑經驗檢查諸如有限階自回歸模型之類的特定馬爾科夫假設,但似乎缺乏針對一般馬爾科夫假設的非參數檢驗,需要進一步研究。

在第 2 節中,我們介紹了適用於有限階馬爾可夫過程的平滑自回歸引導程序。該方法包括(i)使用乘積高斯核平滑方案估計真實的過渡概率核,以及(ii)從估計的 Markov 過程生成引導序列。內核平滑方案的帶寬設置為估計的邊際密度允許假設的模式數量的最小帶寬。 Silverman(1981)的結果確保了以 h 表示的這種臨界帶寬的存在。 Bootstrap 系列用於近似計算觀察到的臨界帶寬的 p 值 pr(h≥h obs),該值在與零假設相符的最不理想假設下進行評估。我們表明,此處開發的自舉測試相對於馬爾可夫階是魯棒的。特別是,Silverman 的多模式引導測試在抵禦獨立性假設方面非常有力。我們在§3 中將這些理論特性中的一些擴展到了弱相關的數據。所有證據都收集在附錄中。在第 4 節中,我們用一些模擬的和真實的數據說明了引導測試。最後,我們在第 5 節中作總結性發言

II 多模態測試

III 一些理論性質

因此,在假設 1-3 下,p 階馬爾可夫平穩條件下的一階性質與獨立數據假設下的一階性質相同。 特別是,擴展的 Silverman 檢驗具有漸進性,並且漸進地具有原始 Silverman 檢驗的一些缺點,例如對異常值的敏感性和保守性(Hall&York,2001)。 但是,假設 1 要求底層的馬爾可夫過程允許指數衰減的混合速率; 如果幾乎違反了此假設,則測試不必過於保守。 的確,如下面的模擬研究所示,該測試對於幾乎非平穩的過程可能變得寬鬆。 研究強烈依賴於模式測試程序屬性的影響是一個有趣的未來問題。

IV 模擬與樣例

實驗中使用了六個自回歸參數值,即 w =±0·5,±0·9 和 ±0·95。在這裡,真實的邊際密度可以證明是單峰的。因此,我們僅考慮在將馬爾可夫階設置為 0 或 1 的情況下測試密度是否為單峰的情況。回想一下,對於零馬爾可夫階,數據被視為獨立數據,並且該測試成為通常的 Silverman 測試。樣本大小等於 100,並且基於 200 個引導程序計算引導程序 p 值;每個實驗重複 200 次。表 1 列出了名義 5%試驗的經驗拒絕率。請注意,自回歸係數的幅度越接近 1,則過程越接近非平穩性。該實驗的結果表明,Silverman 檢驗及其在此處開發的推廣具有相似的經驗規模,並且通常是保守的。當流程幾乎是不穩定的,從而幾乎違反了假設 1 時,測試將變得自由。在基於平滑自回歸引導程序的測試中,尺寸失真問題似乎沒有在 Silverman 測試中那樣嚴重,這是擴展 Silverman 測試的優點。但是,| w | = 0·95 的情況意味著底層過程在時間上有很強的依賴性。在 −0·9 到 0·9 的範圍內,基於平滑自回歸自舉的新測試的經驗大小與標稱值 5%相當。因此,我們建議使用新測試來測試具有弱相關性的馬爾可夫數據的多模態。我們還對固定的一階,閾值自回歸模型生成的數據進行了實驗,在這種情況下,該測試似乎是保守的,對於檢測多模態具有中等強度。

表 1 從一階自回歸模型生成的時間序列數據密度的單峰性的名義大小為 5%的試驗的經驗拒絕率

接下來,我們用 1969 年 11 月 24 日至 1997 年 11 月 28 日的每日恒生指數來說明該測試。這是一個相當長的時間序列,包含 6909 個香港證券交易所的每日收盤價。原始數據顯示出指數增長模式。為了引起近似平穩,我們考慮對數轉換後的恒生指數的第一個差異;關於時間序列圖,請參見圖 1,其中顯示了三個可能的「異常值」,分別對應於 1987 年 10 月 26 日和 1989 年 6 月 5 日的兩次最大的墜機,以及 1997 年 10 月 29 日的最大的反彈。變換後的恒生系列在如此長的時間範圍內是靜止的,該系列被分為五個時期以供進一步研究;參見表 2。我們採用了 Cheng-Tong(Cheng&Tong,1992)階次確定方法,該方法選擇的階次最小化了第一步預測誤差平方的非參數交叉驗證和。根據這一標準,在整個時間範圍內,對數恒生數據的第一個差異可能是一階過程,零階競爭非常激烈。該結論與以下觀點是一致的,即如果香港股市充分有效,對數轉換後的恒生指數應表現為隨機波動。表 2 總結了在五個時間段內對數轉換後的恒生指數差異密度的眾數測試結果。有趣的是,該測試表明,在前三個時期內,轉換後的恒生指數的密度是單峰的,但在最後兩個時期內可能是三峰的。請注意,這三個「異常值」發生在最後兩個期間。隨後,我們從數據中刪除了這些離群值,並重複了分析;參見表 3。如果沒有第四階段最大的車禍,則密度似乎也是單峰的。當最後階段的最高反彈消失時,密度似乎也是單峰的。該示例對說明 Silverman 的測試和此處開發的擴展名對異常值敏感。

表 2 從 1969 年 11 月 24 日到 1997 年 11 月 28 日的 5 個周期中,對數轉換後的恒生每日指數的第一個方差的多態性檢驗

表 3 從 1969 年 11 月 24 日至 1997 年 11 月 28 日的 5 個期間內,對數轉換後的恒生每日指數的第一個方差的多模態檢驗,並從數據中刪除了三個異常值

因此,我們建議探索這些測試在檢測異常值方面的潛力是值得的。

V 討論

我們注意到假設 1 提出了一個相當強的假設,即指數衰減的混合速率。 這個假設排除了一些比幾何混合速度慢的馬爾可夫過程(Nummelin&Tuominen,1983; Tuominen&Tweedie,1994)。 令人感興趣的是放鬆該混合速率並將該方法擴展到具有合適的混合速率的非馬爾可夫過程。 密度模式的數量通常是通過檢驗假設序列來確定的。 這種方法需要進行校正以確保固定的總錯誤率。 探索順序測試方法的替代方法很有趣。 另一個問題是評估訂單確定對擴展的 Silverman 檢驗的影響

致謝

本文由南京大學軟體學院 2020 級博士虞聖呈翻譯轉述。

相關焦點

  • 使用深層信任網絡學習多模態數據的表示形式
    該模型定義了多模態輸入空間上的概率分布,並允許從每個數據模態的條件分布中進行採樣。即使缺少某些數據模態,這也使模型可以創建多模態表示。我們對由圖像和文本組成的雙模態數據的實驗結果表明,模態 DBN 可以學習圖像和文本輸入的聯合空間的良好生成模型,該模型對於填充缺失數據非常有用,因此可以將其用於 圖像注釋和圖像檢索。
  • 多模態數據的主題建模:自回歸方法
    我們在 LabelMe 和 UIUC-Sports 數據集上測試了我們的模型,並表明它與其他主題模型,如 LDA 的監督變體和空間匹配金字塔(SPM)方法相比,具有良好的性能。1 介紹多模態數據建模結合了不同來源的信息,在計算機視覺領域越來越受到關注。
  • 面向多模態情感數據分析的智能框架
    為了應對如此多的多模態數據的增長,本文提出了一種新的多模態信息提取代理,它在諸如電子學習、電子健康、自動視頻內容標記和人機互動等環境中,推斷和聚集與用戶生成的多模態數據相關的語義和情感信息。我們所開發的智能代理採用集成特徵提取方法,通過聯合使用三模態(文本、音頻和視頻)特徵來增強多模態信息提取過程。
  • 多模態數據融合挑戰
    我們用 "模態 "一詞來表示每一種這樣的獲取框架。由於自然現象及其發生環境的豐富特徵,單一模態能夠提供有關現象的完整知識是非常罕見的。越來越多的幾種模態同時出現,帶來了新的自由度。本文的目的是在概念層面提出多模態數據融合的各種挑戰,而不是側重於任何具體的模式、方法或應用。
  • 基於深度對抗學習的多模態缺失數據補全
    3 引言許多臨床應用(例如腫瘤檢測和腦疾病診斷)均需要高質量的多模態數據,以獲得良好的診斷結果。雖然近些年提出了許多臨床測試方法來收集多模態數據,但在獲得一些重要的和信息豐富的模態的過程中仍然存在一些實際問題。
  • 多模態數據的非剛性配準算法驗證
    摘要我們描述了對多模態數據的非剛性圖像配準方法的評估方法。黃金標準測試數據的缺乏,使得評估變得困難,因為從一個圖像到另一個圖像的真實轉換是已知的。目前,已使用不同的方法克服這個缺陷,例如,通過使用扭曲的合成數據,通過直接比較配準數據等。
  • 基於深度學習的多模態數據融合研究
    具體來說,本文總結了廣泛使用的代表性架構,這是理解多模態深度學習的基礎;然後總結了當前開創性的多模態數據融合深度學習模型;最後,本文描述了多模態數據融合深度學習模型中的一些挑戰和未來的發展方向。例如,Kettenring 提出了關於線性多式聯運關係和多式模態泛化信息的多模態典型相關分析。Martinez-Montes、Valdes-Sosa、Miwakeichi、Goldman 和 Cohen 提出了關於多個變量的偏最小二乘模型線性關係,並從多源數據集中發現了這些變量。
  • 用於分類和識別的多模態高維數據融合
    模態識別的第一種方法僅使用一個維度,並且不需要融合步驟。模態識別的第二種方法將每個信息源視為一個模態,並且確實需要一個融合步驟。僅使用一個維度的模態識別的第一種方法可能會遭受「維數的詛咒」, 比如導致無效的特徵到語義的映射以及無效的索引編制.。第二種方式識別方法,將每個信息源視為一種方式,可能由於信源之間的相互依賴性而出現不準確的情況。
  • 基於連結獨立成分分析的多模態數據融合
    摘要近些年來,神經影像學研究逐漸使用多種形式的數據,並分別在每種形式中尋找與一些疾病相關的變化。這種方式一個主要的難點在於如何找到系統性的方法,將這些不同的數據類型融合在一起,以自動發現多模態中相關變化模式。
  • 基於互信息的多模態數據融合
    考慮到大多數疾病的放射模式的異質性和複雜性,自動結合電子計算機斷層掃描(Computed Tomography,CT)、磁共振成像(Magnetic Resonance Imaging, MRI)或正電子發射斷層掃描(Positron Emission Tomography,PET)的相關信息的新的多模態成像方法,能夠檢測到單獨考慮每種模態時可能的遺漏點。
  • 移動人群感知中多模態數據融合的兩階段空間映射方法
    同時,多模態數據的異質性使得統一表徵的難度加大。另外,不同模態的數據在表示同一對象時,其數據的差異性很大。例如,對於自行車這個對象,其圖像表示是一系列不規則的像素,對應的標籤是自行車。這些差異使得多模態數據的學習更加困難。對於目前多模態數據的表示,也有一些相關的研究。
  • 多模態情感分析數據集整理
    這裡整理一下平時所用的多模態情感數據集以備之用,後面會不斷地去添加,也希望能夠幫到其他人,歡迎大家補充。answering》--【多模態問答】2017年。論文給出的是經典的MS COCO數據集,現在還在廣泛使用,數據集非常大,大部分設計到純CV方面的數據集,標註一共分為5類:目標點檢測,關鍵點檢測,實例分割,全景分割以及圖片標註,前面四個都是CV領域的,感興趣的同學可以玩一下,簡單的多模態方向只需要最後一個,當然如果你要通過目標檢測輔助多模態分析等等方向前面幾個標註也是有用的。
  • AAAI 2020 | 多模態基準指導的生成式多模態自動文摘
    近年來,隨著計算機視覺以及自然語言處理技術的發展,多模態自動文摘技術逐漸成為學術界和工業界研究的熱點。當前的多模態自動文摘受限於數據集本身的原因只能採用文本模態的負對數似然損失作為目標函數訓練整個網絡,同時利用注意力機制來輔助挑選圖片。這種做法容易帶來模態偏差的問題,即整個網絡會傾向於優化文本生成的質量而忽視了圖片的挑選過程,如圖1所示。
  • 用於理解學習規律性的多模態數據設計可視化學習分析
    對於學習型科學家來說,在研究協作環境下的學習規律時,如何處理、分析和解釋複雜且往往是不可見的多模態數據尤其具有挑戰性,因為這些數據在本質上可以是認知的、社會的和/或情感的,其中許多數據本質上是隱蔽的。本文的目的是提出簡化學習科學家分析和使用豐富的多模態數據的方法。這是通過使主要不可見的調節過程及其伴隨的社會和情境反應變得可見、可測量和最終可解釋來實現的。
  • 基於類別深度典型相關分析的多模態數據下的細粒度場發現
    我們的目標是從異構的社交多模式數據中去發現細粒度的場地。為此,我們提出了一種新穎的深度學習模型,即基於類別的深度典型相關分析(D-CCA)。給定照片作為輸入,此模型執行:1)通過進行精確的場地搜索(查找照片所在的場地)和 2)通過對輸入的照片與場地文字描述進行跨模式相關分組場地搜索(查找與照片具有相同類別的相關場地)。
  • 面向醫學成像應用的基於源分離的多模態數據融合
    在本文中,我們考慮將這兩種模型應用於多模態醫學影像數據的融合,這些數據來自於一組健康對照精神分裂症患者執行聽覺奇怪的任務的 V 磁共振成像(fMRI),結構 MRI(sMRI)和腦電圖(EEG)數據。我們將展示兩種模型如何用於識別一組用於研究中使用的所有方法的組件,這些組件共同報告兩組之間的差異。我們討論了算法和順序選擇的重要性,以及在選擇一種模型時要權衡取捨的問題。
  • 深度耦合自動編碼器用於多模態傳感數據的故障診斷
    在安裝了多種用於進行故障診斷的傳感器之後,關鍵任務之一就是開發可有效處理多模式傳感信號的數據融合策略。大多數傳統方法使用手工製作的統計特徵,然後將這些多峰特徵簡單地組合在一起,只需將它們連接到一個長向量中即可實現數據融合。
  • 一種深度自動回歸的多模態數據主題建模方法
    摘要基於潛在 Dirichlet 分配(LDA)的主題建模已成為處理多模態數據RS 模型後來用於多峰數據建模,其中在深的 Boltzmann 機器(DBM)中共同對圖像和文本注釋對進行建模。這種用於多模態數據生成建模的深度學習方法在 MIR Flickr 數據集上實現了最先進的性能。另一方面,它還與 LDA 及其不同的擴展共享對數據的隨機潛在表示的依賴,在訓練和測試時需要變化近似和 MCMC 採樣。
  • 基於NI PXI平臺的旋轉機械工作模態測試
    ,所以旋轉機械工作模態測試(OMA)一直是一個難題。  解決方案:  使用NI PXI平臺和NI聲音振動工具包,構造了能夠用於旋轉機械的模態測試方案,為旋轉機械的共振監測和動態特性測試提供了新方法  "基於LabVIEW的圖形化開發平臺,我們開發了可用於工作旋轉機械工作模態測試的ModalVIEW-OMA軟體,對測試結果進行處理"  背景介紹
  • 模態分解相關算法介紹——EMD經驗模態分解
    模態分解相關的算法有以下幾類:IMF 固有模態函數EMD經驗模態分解EEMD集合經驗模態分解CEEMD 互補集合經驗(EEMD的標準形式)CEEMDAN自適應噪聲完備集合經驗模態分解VMD 變分模態分解本篇主要介紹EMD算法IMF的定義:將待研究的信號分解為一個個單分量信號,每一個單分量信號只包含一種振蕩模式(即單一的瞬時頻率),這些分解後的分量稱為固有模態函數滿足兩點要求1)極值點和過零點的數目應該相等,或者最多差一個2)局部最大和局部最小的上下包絡線均值為零