拓撲數據分析與機器學習的相互促進

2021-01-10 CSDN技術社區

【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。

對拓撲數據分析(TDA)不熟悉的人,經常會問及一些類似的問題:「機器學習和TDA兩者之間的區別?」,這種問題的確難以回答,部分原因在於你眼中的機器學習(ML)是什麼。

下面是維基百科關於機器學習的說明:

機器學習研究算法學習和構造,能從數據中進行學習並做出預測。這種算法通過從輸入實例中建立模型,目的是根據數據做出預測或決策,而不是嚴格地遵循靜態程序指令。

大多數人可能會認為TDA是機器學習的一種形式,但我覺得,在這些領域工作的人可能都不會贊成這一說法。

機器學習的具體實例比任何一個TDA的例子更像機器學習。同樣,TDA的實例比任何一個機器學習的例子看起來更像是TDA。

為了解釋TDA和ML兩者的不同,更重要的是證明TDA和ML是如何相互促進以及為何會相互促進,我將給出兩個非常簡單的定義,然後用一個真實的實例進行說明。

定義ML:假定一個數據參數模型,並根據數據來學習模型參數的任意方法。定義TDA:只把數據點間的「相似性」概念用來構建數據模型的任意方法。

在這種觀點中,ML模型更加具體和詳細,而且模型的成功取決於它對未知數據的擬合程度。它的優勢是,當數據能很好的擬合模型時,其結果尤為突出——幾乎能夠完美的理解那些有明顯噪聲的數據。

TDA的優點是它的通用性。

對於TDA,任何相似性概念都可以拿來使用。相反,對於ML,你需要一個(或更多)強化的相似性概念,與其它任何方法一起發揮作用。

例如,給你一長串的名字,你是無法根據它來預測出身高和體重。你需要更多的信息。

主要因素是拓撲算法對小誤差的容忍度很大——即便你的相似性概念在某種程度上存在缺陷,只要它存在「幾分相似」,TDA算法一般就會產生一些有用的東西。

TDA方法的通用性還有另一個優於ML技術的地方,當ML方法擬合效果很好的時候,TDA方法仍然有效——即ML方法經常創建詳細的能生成相似性概念的內部狀態,使TDA和ML能夠更深層次的洞悉數據。

聽起來還不錯,但是這通常會走向極端(或者如果你覺得小誤差的容忍度偏低,或是模糊度不夠),這意味著一切都有可能發生。

那麼,來舉個特例吧。

隨機森林分類器是一個組合學習方法,在訓練過程中,建立大量的決策樹並在這些「森林」(決策樹集合)的基礎上使用「多數規則」對非訓練數據進行分類。

儘管建立樹的過程相當有趣並且也很靈活,但它們沒有相關的細節。對於隨機森林,你只要記住,它通過把一系列決策樹的集合應用到已知數據點上,然後返回一系列的「葉節點」(決策樹中,到輸入"下落"的葉子)。

在正常的操作下,每棵樹的每個葉子節點都有一個相關的類別C,可以解釋為「當一個數據點位於樹的該節點時,在很大程度上它就屬於該類別C」。隨機森林分類器通過從每棵樹上統計「葉節點類別投票總數」來選出勝出者。儘管在大規模的數據類型上高度有效,但該過程會丟掉大量的信息。

如果你關心的是對數據類別的最佳猜測,那麼你不會想看到額外的信息,但有時候你會需要更多的信息。這種「無關的」信息可以轉換成一個距離函數,通過把兩個數據點之間的距離定義為它們各自「葉節點」之間差異的倍數。

兩個數據點的距離函數是一個很好的度量(事實上,是在轉換後的數據集上的漢明距離),而且這樣我們可以把TDA應用到上面。

例如,讓我們來看看從下面連結的樣本中隨機選取的5000個樣本點:https://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis.

該數據集複雜度適中,有48個連續特徵,這些特徵似乎是硬碟驅動中無法解釋的電流信號。數據還包括一個類別列,它有11個可能的取值,描述的是光碟驅動組件不同的狀況(故障模式,也許吧?)。很明顯可以在特徵列上計算歐幾裡得距離,然後通過類來給圖形著色。由於我們對於特徵項一無所知,所以首先要嘗試的事情就是查看鄰近晶狀體情況。其結果是一個普通的斑點。


這讓人有些失望!

接著,使用一些內部的調試功能,我看到鄰近晶狀體的一個散點圖,我知道為什麼如此糟糕了——它看起來像是一顆聖誕樹。


很顯然,在歐氏度量中沒有類的定位。

然而,如果你在數據集上建立一個隨機森林,分類器會有一個非常小的out-of-bag誤差,這強烈的表明了分類器性能的可靠性。

因此,我嘗試使用隨機森林的漢明距離來作圖,這種度量下的鄰近晶狀體如下圖所示:


這看起來很不錯。只要確定我們也看到了鄰近晶狀體的散點圖就行,上圖的結果表明:


很明顯,從線圖和散點圖可以看出,隨機森林「看」複雜結構的能力要低於分類的標準水平,並被TDA給證實了。原因就是RF沒有充分使用「不相關的」數據——而TDA充分的利用了這些數據並且從這些信息中得到了大量的好處。

然而,一些人可能會說,這種結構是虛構的——這也許是我們在系統的某處使用算法人工生成的?在這種數據集下,我們不能真正識別它,因為對於該類別的其它信息我們一無所知。

不過,基於設備老化時收集的數據,我們在消費者數據上使用隨機森林來度量分析成千上萬的複雜設備可能的故障模式。類別是基於設備因為不同的原因(並不是所有的原因都是由故障導致的)而返廠的事後分析完成的。

在這個例子中,我們發現隨機森林度量標準在故障識別層面做的很好,並且我們得到的圖片特徵和上面這些也相似。更重要的是,我們發現在給定的故障模式中的特定組,有時有不同的原因。

在這些情況下得出的結論是:我們在使用TDA和RF時沒有做進一步的空間分解,這些原因可能會更難發現。

我們剛才看到的例子表明,TDA與機器學習可以一起使用,並且得到的效果比使用單個技術更好。

這就是我們所說的ML&TDA:同時使用更好。

原文連結:How TDA and Machine Learning Enhance Each Other(譯者/劉帝偉 審校/劉翔宇、朱正貴、李子健 責編/仲浩)

譯者簡介:劉帝偉,中南大學軟體學院在讀研究生,關注機器學習、數據挖掘及生物信息領域。

本文為CSDN編譯整理,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。從數學理論的角度來理解並提升機器學習方法,這也是近來非常有潛力的研究方向。
  • 拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法
    本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。
  • 中科大潘建偉團隊在光量子處理器上成功實現拓撲數據分析
    Commun. 7, 10138 (2016)],用於計算數據點的貝蒂數(一種拓撲特徵,描述散點圖中各個維度的拓撲洞的總數)。我們利用一個六光子量子處理器實現了這個量子算法的原理性實驗演示驗證,成功地分析了一個包含三個數據點的網絡的貝蒂數拓撲特徵,為量子計算領域的數據分析提供了新的探索思路和研究方法。
  • 淺議概率拓撲與數據分析挖掘的關係
    數據挖掘分析,是一種在非結構化、雜亂無章的數據中,通過一定的數學方 法,挖掘出有用信息的過程。本文旨在通過研究一些常用算法的數學原理,並運 用一系列的數學知識加以解釋,從而闡釋一種數據挖掘分析的新思路。一、拓撲學簡介拓撲學,是一門研究幾何圖形不隨形狀改變而改變的性 質的學科,只考慮物體間的位置關係而不考慮其形狀與大小。
  • Kaggle上線arXiv完整數據集,以促進機器學習領域的發展
    Kaggle 則是全球最大的數據競賽平臺,也是一個主要為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平臺,創建於 2010 年,並於 2017 年被谷歌母公司 Alphabet 收購。在 Kaggle 這個平臺上,不論是企業、某個領域的研究組織、甚至是政府機構,都可以把數據集(dataset)和想要解決的問題丟上去,請平臺上的數據專家來幫忙解答。
  • 深度學習和拓撲數據分析的六大驚人之舉
    將深度學習與拓撲數據分析結合在一起完全能夠達到此目的,並且還綽綽有餘。1、它能在幾分鐘內創建一張數據圖,其中每一個點都是一個數據項或一組類似的數據項。基於數據項的相關性和學習模式,系統將類似的數據項組合在一起。這將使數據有唯一的表示方式,並且會讓你更清晰地洞察數據。可視化圖中的節點由一個或多個數據點構成,而點與點之間的連結則代表數據項之間高相似性。
  • 機器學習助力凝聚態物理研究:實現拓撲量子計算的新希望
    (發現拓撲量子相變的物理學家獲得 2016 年諾獎)。像光子或原子這樣的量子粒子變換物理狀態要相對容易些,但是,拓撲態就比較堅實。這意味著他們或許能被用來搭建量子計算機,比如微軟的量子計算機的存儲器。這項研究不僅僅是為了識別相(phases),而是為了理解變(transitions)。加拿大的研究小組訓練計算機尋找在哪一溫度下相變發生的準確率達到 0.3%。
  • 通過拓撲學分析,科學家探究樹葉形狀的本質
    然後,團隊使用了一種叫做持續同調(persistent homology)的拓撲學算法分析樹葉形狀。根據周圍像素的密度,這一方法把賦予圖片的每一個像素一個值,然後把樹葉分成 16 份並分析這些數值出現的規律。最後,研究人員用這些數據繪製形狀與地理位置在族群間的關係。
  • 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附...
    今天,我想強調下在機器學習中拓撲數據分析(TDA,Topological Data Analysis)的力量,並展示如何配合三個Python庫:Gudhi,Scikit-Learn和Tensorflow進行實踐。拓撲數據分析?首先,讓我們談談TDA。它是數據科學中相對小眾的一個領域,尤其是當與機器學習和深度學習對比的時候。但是它正迅速成長,並引起了數據科學家的注意。
  • 機器學習與數據分析常用術語-基礎篇(一)
    前言 之前在給公司的程式設計師培訓機器學習專題實戰的時候,發現他們聽的認真,也非常想學,但是每當問他們有哪裡不懂的時候,他們總是回答不出哪裡不懂,識懂非懂的狀態,後來我總結了一下原因,1.機器學習領域跟程序開發的區別非常大,機器學習屬於一個交叉學科,即需要數學也需要計算機學,難度相對與單學科要大些,2.機器學習領域有很多專業詞彙與術語,之前程式設計師都沒聽說過和接觸過
  • 機器學習在生物大數據應用的一個例子
    (2)以這些基因易感位點數據作為輸入變量,相關的特徵/疾病/表型為響應變量,訓練機器學習模型。簡單兩步,但卻蘊含著大數據、機器學習、統計學的精粹利用,現在逐一來分析。1. 確定與某個特徵/疾病/表型相關的基因易感位點。這一步如何做?
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。數據科學是從數據中提取有用信息以解決實際問題的過程。機器學習是使機器學習如何通過提供大量數據來解決問題的過程。這兩個域是高度互連的。機器學習是數據科學的一部分,它利用ML算法和其他統計技術來了解數據如何影響和發展業務。
  • 量子機器學習``量子數據''
    可用於量子數據(與經典數據相反),克服了這些應用程式所存在的顯著速度下降,並為「開發量子系統的計算見解提供了沃土」。已經開發出量子算法來增強一系列不同的計算任務;最近,它已經包括量子增強的機器學習。量子機器學習部分是由Skoltech駐地量子信息處理實驗室首創的,該實驗室由本文的研究者Jacob Biamonte領導。他說:「機器學習技術已經成為查找數據模式的強大工具。量子系統產生的非典型模式被認為無法有效地產生於經典系統,因此在計算機學習任務上量子計算機的性能要優於傳統計算機也就不足為奇了。」
  • 【喜報】機電工程系「大數據分析、機器學習」研究小組在SCI、EI雙...
    近年來,物聯網、雲數據中心、智能電網以及可穿戴健康設備等新應用的快速發展產生了海量的時間序列數據。在此大環境下,機電工程系成立了「大數據分析、機器學習」研究小組,近期在機器學習方面取得重要進展,成果發表在國際SCI、EI雙檢索期刊《Cluster Computing》上。
  • 數據科學和機器學習面試問題集錦
    在過去的幾個月裡,我面試了許多公司涉及數據科學和機器學習的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最後幾個月就研究生畢業,我的碩士是機器學習和計算機視覺,我之前的大部分經驗是研究/學術,但在一個早期創業公司待過8個月(與機器學習無關)。這些角色包括數據科學、通用機器學習和專精自然語言處理及計算機視覺。
  • 機器學習揭示食品-藥品和輔料-藥品相互作用
    他們的模型可以預測常見食用化學物質的生物學效應,並闡明了其對食品-藥品和輔料-藥品相互作用以及功能性藥物製劑的開發產生的影響。01簡介由FDA收錄的公認的安全化學藥品(GRAS)和非活性成分(IIG)常被認為可作為藥品和食品中的安全添加劑。現在,越來越多的研究和臨床報告對它們的生物學惰性提出了質疑,但目前不管是有害還是有益的生物效應都未被重視。
  • 機器學習數據降維方法:PCA主成分分析
    PCA在機器學習中很常用,是一種無參數的數據降維方法。PCA的推導PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特徵分量,常用於高維數據的降維。我們知道PCA是一種數據降維的方法,在降低維度的過程中,我們當然想要保留更多的特徵,PCA就是經過數學推導,保留最多特徵同時降維的方法。
  • 2020年 Top 20 機器學習和數據科學網站
    每天我都能看到瘋狂的信息流,不幸的是,有很多虛假或毫無價值的東西,尤其是在數據科學和ML上。哪裡可以找到所有相關和有用的材料?-這就是問題所在。和大家分享我整理的機器學習和數據科學網站。#11 DataRobot Blog這是一家令人興奮的公司,它正在進行數據機器人轉換,並通過自動機器學習加速預測分析。最棒的是,這家公司不僅做了出色的工作,而且還提供了自動化機器學習和數據科學領域的最新進展。
  • 數據科學家應該知道的頂級機器學習算法
    因為它迫使您考慮輸入數據的角色和模型準備過程。另外,選擇最適合您的問題的方法以獲得最佳結果。讓我們看一下機器學習算法中的三種不同的學習風格:監督學習基本上,在此監督式機器學習中,輸入數據稱為訓練數據,並且一次具有已知標籤或結果,例如垃圾郵件/非垃圾郵件或股票價格。在此,通過訓練過程準備了模型。另外,在此需要做出預測。並在這些預測錯誤時進行糾正。