融合問題建模的數據表示之探討

2021-01-09 我是天邊飄過一朵雲

在多維信號表示發展的歷史長河中,傅立葉變換曾經長時間佔據信號處理的統治地位,但由於其局部模式分析不足,人們逐步研究出小波分析、多尺度幾何分析(如Ridgelet、 Curvelet變換)等不同形式的固定基函數系統,提供人工解析形式的數據表示或者變換。其典型構造思想在於採取各向異性基提升信號的特徵表達、幾何奇異性捕獲和逼近能力。冗餘與稀疏表示方法曾風靡一時,形態分量分析方法(Morphological Component Analysis,MCA),稀疏子空間聚類(Sparse Subspace Clustering,SSC)等研究延續至今並熱力不減。然而,經典的「稀疏表示」方法通常以度量向量的一階稀疏性為主要手段,其對類似圖像等數據結構信號緊緻表示能力有限。

對於二維圖像信號而言,由於圖像往往是冗餘的,內部存在大量相似性,度量矩陣的低維結構的有效方式是結構化的稀疏性,這表現為矩陣低秩(low rank)性。矩陣的秩是向量稀疏性的高階推廣。向量稀疏性模型往往在矩陣低秩下可以得到推廣,性能更為優異。以矩陣「秩」為度量的低秩表示已經證實是矩陣型結構數據冗餘性,更好地刻畫圖像低維結構,例如低秩去噪可以取得更好的效果。基於矩陣低秩極小化,人們提出矩陣填補、矩陣回歸、魯棒PCA等方法。例如,魯棒PCA就是將一個矩陣分解為一個儘可能低秩的矩陣和一個儘可能稀疏的矩陣。該方法被廣泛應用於視頻背景建模、人臉識別、雨滴去除、舊電影修復等。在高光譜遙感中,稀疏和低秩融合、稀疏子空間聚類、稀疏與低秩表示、監督分類與異常檢測等是目前的研究熱點。

隨著成像硬體的發展,所獲取的多維數據表現為大體量、多樣化的多模多通道矩陣信號。以高光譜遙感數據為例,通常以巨大的分塊矩陣或多路數組(multi-way array)的形式表示,又稱之為張量(tensor)。這些多路數據往往需要進行模式轉換才能在特定的容許時間內高效處理海量數據集(快速性),這促使人們開始重新關注適用於超大數據集的矩陣和張量算法。從多線性代數為基礎的張量分析的視角看,向量是一階張量,矩陣是二階張量,當遇到三維數組或更高階的數據時,高階張量表示因其更為豐富的多路分量分析和代數特徵,具有數據多視角內在結構的捕獲和表達能力。

對於高維數據,直接的方法是表達為高階張量,可以推廣矩陣秩的相關概念,引入張量秩,通過多重線性數據分析挖掘高維數據的內在本質結構,如Turker分解(或稱為高階SVD分解)和典範分解(canonical polyadic,分解為秩-1張量之和)等。在矩陣分析中,矩陣的秩是唯一確定的概念,即矩陣的行秩、列秩和矩陣秩相同。但在張量情形中,秩的概念並不像矩陣秩那樣唯一定義,研究者構造了不同形式的張量秩。例如,一種張量的秩的定義形式是相對於矩陣的行秩和列秩進行描述,其方法是通過高階張量矩陣化,通過張量模n-展開矩陣的秩進行定義。張量分析具有如下優勢:

1. 提供快速且靈活地表示框架,能同時表示結構豐富的數據和複雜的優化。

2. 提供大規模多維數據的壓縮形式,通過張量化和低秩張量分解,將大規模多維數據有效壓縮成低階因子矩陣及核心張量。

3. 具有處理有噪聲和有缺失的數據的能力,能夠利用低秩張量或矩陣逼近算法的數值穩定性和魯棒性處理不完備數據或噪聲數據。

4. 提供自然結合各種多樣性先驗和約束的靈活框架,可以無縫地將標準成分分析(雙路成分分析)方法擴展到多路成分分析;在張量秩最小化的框架下建立低秩張量恢復、基於張量的RPCA、張量壓縮感知等相關理論與方法。

5. 基於張量表示可以建立張量框架下的機器學習模型。由於張量能夠保持關於對象結構的固有信息,張量表示通常有助於減輕鑑別性子空間選擇中出現的小樣本問題。

6. 在實際高維信號處理中,也可以將直接域是低階張量的數據通過張量化操作組織為高階張量然後執行多重線性分析。由於張量是向量和矩陣的自然推廣,因此在張量表示框架下,可以建立張量PCA分解、張量填補(tensor completion)等,發展張量回歸(tensor regression)新型機器學習方法;也可以與深度學習結合,建立張量隊列網絡(tensor train network)等。張量表示框架對於高光譜圖像處理與分析具有天然優勢,大多數稀疏與矩陣低秩分析算法可方便地推廣到張量情形,如張量表示融合超分辨、監督分類,都能獲得更為優異的性能。

隨著深度學習模型的興起,數據驅動式的高維信號表示學習方法在學術界與工業界如火如荼。雖然早期神經網絡學習是受模擬生物學習所啟發,但是深度學習的發展超越了神經科學的觀點,通過學習「多層次複合函數」的更普遍原理,可以產生新的機器學習框架。深度學習通過較簡單的表示來表達複雜表示,解決了表示學習的核心問題。大量深度學習模型應用於高光譜圖像低層反問題(去噪、復源、超分辨)、多源融合等領域,也應用於混合像元分解、地物監督分類、目標檢測識別等領域,並取得了前所未有的性能提升。然而,數據驅動的深度學習方法存在「過擬合現象」、「小樣本學習能力不足」、「黑盒導致的不可解釋性」以及「參數難調」等問題。

相關焦點

  • 深圳大學王偉璽:複雜虛擬城市環境建模與仿真技術探討|CCF-GAIR 2019
    複雜虛擬城市環境構建與仿真技術從整體技術思路出發,我們先看一下地上或者室外的真實三維模型應該如何構建,頁面上左邊講的是傳統單一數據源的建模方式,在現在的技術條件下要做到多數據源的真實三維建模,比如多種影像數據融合建模,多種點雲數據也可以融合建模,傾斜攝影數據和雷射掃描數據都可以融合建模。
  • 數據時代幾何處理與建模的研究進展與趨勢
    然而,關於三維模型的合理性,目前尚未有工作深入探討過,也沒有形成一致認可的定義。一般意義上,由於數據驅動方法是基於樣例/訓練數據的建模方式,我們自然會要求生成模型與輸入樣例具有一定程度的功能一致性和結構相似性。即數據驅動模型生成中所謂的「更多類似(more of the same)」原則。
  • 如何深入淺出理解數據倉庫建模?
    數據血緣追蹤:能夠快速準確地定位到問題,並清楚它的危害範圍。減少重複開發:規範數據分層,開發一些通用的中間層數據,能夠減少極大的重複計算。把複雜問題簡單化:將複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。當數據出現問題之後,不用修復所有的數據,只需要從有問題的步驟開始修復。
  • 傾斜攝影和雷射掃描技術在城市三維建模中的融合應用研究
    摘 要: 基於提高傾斜攝影技術在城市三維建模效果目的,採用了地面雷射掃描技術在傾斜攝影建模基礎上進行匹配融合的方法,通過對某個小區建築物進行無人機傾斜攝影和地面擺站雷射掃描相結合的數據處理實驗,得出了通過兩者技術融合在城市建築三維模型建設中紋理效果有效提升的可行性結論,並在實驗結論中提出了改進意見。
  • Data+2020安徽大數據應用創新與建模大賽圓滿收官
    (原標題:Data+2020安徽大數據應用創新與建模大賽圓滿收官)
  • 基於兆芯CPU的金融數據建模獲選年度隱私計算標杆案例
    CPU的衝量在線「國產化的金融數據建模隱私計算應用實踐」方案是目前業界端到端國產化隱私計算解決方案的成功案例,解決了大數據時代下金融業面臨的數據隱私、安全計算和加密傳輸等多方面問題……   大數據「星河」案例評選活動是由中國信息通信研究院、中國通信標準化協會大數據技術標準推進委員會(CCSA TC601)共同組織並開展的系列活動,旨在推廣大數據領域優秀成果,促進經驗分享,推動大數據與實體經濟的深度融合。CCSA TC601 旨在凝聚產業鏈各個環節,識別和解決大數據發展面臨的重大問題。
  • 淺談數據分析和數據建模
    但是團隊人員商業敏感度低,過度關注技術和架構,重視技術的領先和處理效率,數據商業敏感度低,不重視數據商業化場景,對業務理解程度不夠,支持力度不如前者。科技部門願意搭建一個大數據平臺,讓業務部門自己去尋數據場景,業務部門在數據商業化過程中也會遇到環節不暢通,效率低下的問題。
  • 海洋科學與大數據融合發展戰略研討會暨「海洋數據科學發展戰略...
    海洋科學與大數據融合發展戰略研討會暨   2019年4月3日,由國家自然科學基金委員會主辦、中國海洋大學承辦的海洋科學與大數據融合發展戰略研討會暨國家自然科學基金委員-中國科學院學科發展戰略研究項目「海洋數據科學發展戰略研究」啟動會在青島召開。
  • IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!
    IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!在資訊時代,很多建築和綜合管理系統融合在一起,創造了高效的智能建築綜合解決方案。IBMS更注重管理功能,即如何全面實現優化控制和管理、節能、效率、舒適度、環境安全等目的。也就是說,您可以判斷建築物是否具有智能建築功能,以及IBMS是否具有系統集成。這是一個非常重要的判定條件。另一個重要前提是,在做好這項工程的同時,不要忽視同步建設的信息化工程。
  • 基於空間認知的知識表示和推理探討
    人工編寫邏輯規則的方法難以適應大規模知識推理的需求,存在推理覆蓋度低和推理效率低的問題。知識庫的不完備性也使得從稀疏數據中學習得到的邏輯推理規則準確性不高,尤其是隨著推理規則階數的增加,規則的準確性下降迅速。
  • 對「虛擬實境與數字孿生」三個問題的探討
    他介紹了在現實中如何用手機創建三維曲線、做三維建模,重點剖析了用手機實現三維建模技術目前面臨的挑戰以及操作方法等,深入討論了基於動畫自由度的兩項研究成果。傅紅波指出:「這兩年內,他們探索的就是用AR手機在現實場景當中做一些內容創作,未來將會把這些技術投入到應用開發的研究中」。
  • 未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模
    飛貸金融科技即將在 11 月初上線公測其自動化建模平臺,InfoQ 記者專訪飛貸金融科技副總裁兼首席數據官林慶治,提前揭秘該平臺背後的技術細節。在日常的建模工作中,我們都或多或少會思考一個問題:建模可不可以被自動化?自動建模與機器學習的未來會如何發展?對於從事商業分析、數據分析、數據挖掘、數據工程、算法工程工作的人,可能也會焦慮,自動建模技術能在多大程度上代替現有的一些日常工作?
  • 規範執法和大數據建模國內領先
    這次大賽上,金華交警在規範執法和大數據建模方面表現出色,榮獲交通違法現場查處和阻礙執行職務處置科目第二名,大數據建模科目二等獎。「這是全國交警系統20年來第一次舉辦全國性、全業務的大比武,展現了全國各交警支隊最頂尖的業務水平。」金華市交警支隊政工秘書處副主任洪連軍說,參賽隊員能獲獎得益於他們平時紮實的基層實踐經驗。
  • 專注圖關係數據挖掘,「極驗」發布圖數據建模平臺「疊圖」
    36氪獲悉,7月11日,「極驗」舉行Graph Learning 創新大會暨極驗 2019 圖數據建模平臺發布會,並發布新產品——圖數據建模平臺。36氪曾多次報導極驗。極驗成立於 2012 年,是一家驗證安全技術服務提供商。
  • PM2.5-GNN 圖網絡:複雜系統自動建模在大氣汙染中應用
    然而大氣汙染預報問題具有很大的挑戰性,主要表現在以下幾點:首先,大氣汙染是典型的複雜系統[3],汙染物之間會產生複雜的化學反應,生成二次汙染物,使得整個系統產生整體大於部分之和的效應;在時間和空間維度均存在長程相關性[4];此外,融入氣象與環境專業的領域知識對該問題的研究至關重要[5]。
  • MATLAB數據擬合工具在數學建模中的簡單應用
    1.問題描述下表是由中國國家統計局提供的《50個城市主要食品平均價格變動情況》整理得到的2016年1月到5月豆角價格數據表,請建立數學模型解決下來兩個問題:(1)豆角價格有什麼特點?(2)對6月份豆角價格變化情況進行預測。
  • 微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期
    不管你是青年愛好者、計算機科學工作者,還是社會科學研究人員或者企事業單位的管理人員,對這些問題的探討和學習,都會對你的工作、學習、研究有極大的幫助。12月22日-24日,由中國計算機學會(CCF)主辦的第87期CCF學科前沿講習班(CCF-ADL)將以《社交網絡和數據挖掘》為主題,邀請數位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。
  • 數據建模:個人信用分是如何計算出來的?
    無論是金融、網際網路企業亦或運營商,都在基於多年積累的大數據搭建個人徵信評分體系,不僅用於自身,也在提供給其他徵信機構做為個人信用評估標準。那麼,個人的信用分到底是如何計算出來的呢?三、特徵刪選很多新手喜歡用越多的變量來建模,以為多多益善,其實不然,變量篩選的目在於去除對於模型預測準確提升無效甚至影響模型預測效果的無用變量, 比如兩個相關變量的同時存在往往會導致準確性下降。
  • 乾貨|時間序列預測類問題下的建模方案探索實踐
    作者 | 陸春暉責編 | Carol背景時間序列類問題是數據分析領域中一類常見的問題,人們有時需要通過觀察某種現象一段時間的狀態,來判斷其未來一段時間的狀態。時間序列分析主要針對時間序列類問題的兩個領域,一個是對歷史區間數據的分析,通過對過往數據特徵的提煉總結來進行異常檢測和分類;另一類就是對未來數據的分析,根據過去時間點的數據對未來一個時間點或者幾個時間點的狀態或實際值進行預測。
  • 《數據中臺實戰》:數據中臺的分層建模體系
    設計ADS層的最主要目的就是給數據可視化應用提供最終的數據。後端開發工程師基於ADS層的數據將最終數據結果以接口的形式展示給數據中臺的應用層。數據倉庫為什麼要分層建模呢?我們還是通過實際案例來理解。假設還是要統計某條產品線A當月的交易額,如果沒有採用分層建模,那麼數據統計就是以結果導向的,直接提取業務資料庫中的產品線A的訂單時間、訂單金額,然後篩選時間為當月的訂單,並基於訂單金額做匯總計算,最後通過接口的方式將數據輸出到應用層。