拓撲數據分析與機器學習的相互促進

2020-12-11 CSDN技術社區

【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。

對拓撲數據分析(TDA)不熟悉的人,經常會問及一些類似的問題:「機器學習和TDA兩者之間的區別?」,這種問題的確難以回答,部分原因在於你眼中的機器學習(ML)是什麼。

下面是維基百科關於機器學習的說明:

機器學習研究算法學習和構造,能從數據中進行學習並做出預測。這種算法通過從輸入實例中建立模型,目的是根據數據做出預測或決策,而不是嚴格地遵循靜態程序指令。

大多數人可能會認為TDA是機器學習的一種形式,但我覺得,在這些領域工作的人可能都不會贊成這一說法。

機器學習的具體實例比任何一個TDA的例子更像機器學習。同樣,TDA的實例比任何一個機器學習的例子看起來更像是TDA。

為了解釋TDA和ML兩者的不同,更重要的是證明TDA和ML是如何相互促進以及為何會相互促進,我將給出兩個非常簡單的定義,然後用一個真實的實例進行說明。

  • 定義ML:假定一個數據參數模型,並根據數據來學習模型參數的任意方法。
  • 定義TDA:只把數據點間的「相似性」概念用來構建數據模型的任意方法。

在這種觀點中,ML模型更加具體和詳細,而且模型的成功取決於它對未知數據的擬合程度。它的優勢是,當數據能很好的擬合模型時,其結果尤為突出——幾乎能夠完美的理解那些有明顯噪聲的數據。

TDA的優點是它的通用性。

對於TDA,任何相似性概念都可以拿來使用。相反,對於ML,你需要一個(或更多)強化的相似性概念,與其它任何方法一起發揮作用。

例如,給你一長串的名字,你是無法根據它來預測出身高和體重。你需要更多的信息。

主要因素是拓撲算法對小誤差的容忍度很大——即便你的相似性概念在某種程度上存在缺陷,只要它存在「幾分相似」,TDA算法一般就會產生一些有用的東西。

TDA方法的通用性還有另一個優於ML技術的地方,當ML方法擬合效果很好的時候,TDA方法仍然有效——即ML方法經常創建詳細的能生成相似性概念的內部狀態,使TDA和ML能夠更深層次的洞悉數據

聽起來還不錯,但是這通常會走向極端(或者如果你覺得小誤差的容忍度偏低,或是模糊度不夠),這意味著一切都有可能發生。

那麼,來舉個特例吧。

隨機森林分類器是一個組合學習方法,在訓練過程中,建立大量的決策樹並在這些「森林」(決策樹集合)的基礎上使用「多數規則」對非訓練數據進行分類。

儘管建立樹的過程相當有趣並且也很靈活,但它們沒有相關的細節。對於隨機森林,你只要記住,它通過把一系列決策樹的集合應用到已知數據點上,然後返回一系列的「葉節點」(決策樹中,到輸入"下落"的葉子)。

在正常的操作下,每棵樹的每個葉子節點都有一個相關的類別C,可以解釋為「當一個數據點位於樹的該節點時,在很大程度上它就屬於該類別C」。隨機森林分類器通過從每棵樹上統計「葉節點類別投票總數」來選出勝出者。儘管在大規模的數據類型上高度有效,但該過程會丟掉大量的信息。

如果你關心的是對數據類別的最佳猜測,那麼你不會想看到額外的信息,但有時候你會需要更多的信息。這種「無關的」信息可以轉換成一個距離函數,通過把兩個數據點之間的距離定義為它們各自「葉節點」之間差異的倍數。

兩個數據點的距離函數是一個很好的度量(事實上,是在轉換後的數據集上的漢明距離),而且這樣我們可以把TDA應用到上面。

例如,讓我們來看看從下面連結的樣本中隨機選取的5000個樣本點:https://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis.

該數據集複雜度適中,有48個連續特徵,這些特徵似乎是硬碟驅動中無法解釋的電流信號。數據還包括一個類別列,它有11個可能的取值,描述的是光碟驅動組件不同的狀況(故障模式,也許吧?)。很明顯可以在特徵列上計算歐幾裡得距離,然後通過類來給圖形著色。由於我們對於特徵項一無所知,所以首先要嘗試的事情就是查看鄰近晶狀體情況。其結果是一個普通的斑點。


這讓人有些失望!

接著,使用一些內部的調試功能,我看到鄰近晶狀體的一個散點圖,我知道為什麼如此糟糕了——它看起來像是一顆聖誕樹。


很顯然,在歐氏度量中沒有類的定位。

然而,如果你在數據集上建立一個隨機森林,分類器會有一個非常小的out-of-bag誤差,這強烈的表明了分類器性能的可靠性。

因此,我嘗試使用隨機森林的漢明距離來作圖,這種度量下的鄰近晶狀體如下圖所示:


這看起來很不錯。只要確定我們也看到了鄰近晶狀體的散點圖就行,上圖的結果表明:


很明顯,從線圖和散點圖可以看出,隨機森林「看」複雜結構的能力要低於分類的標準水平,並被TDA給證實了。原因就是RF沒有充分使用「不相關的」數據——而TDA充分的利用了這些數據並且從這些信息中得到了大量的好處

然而,一些人可能會說,這種結構是虛構的——這也許是我們在系統的某處使用算法人工生成的?在這種數據集下,我們不能真正識別它,因為對於該類別的其它信息我們一無所知。

不過,基於設備老化時收集的數據,我們在消費者數據上使用隨機森林來度量分析成千上萬的複雜設備可能的故障模式。類別是基於設備因為不同的原因(並不是所有的原因都是由故障導致的)而返廠的事後分析完成的。

在這個例子中,我們發現隨機森林度量標準在故障識別層面做的很好,並且我們得到的圖片特徵和上面這些也相似。更重要的是,我們發現在給定的故障模式中的特定組,有時有不同的原因。

在這些情況下得出的結論是:我們在使用TDA和RF時沒有做進一步的空間分解,這些原因可能會更難發現。

我們剛才看到的例子表明,TDA與機器學習可以一起使用,並且得到的效果比使用單個技術更好。

這就是我們所說的ML&TDA:同時使用更好

原文連結:How TDA and Machine Learning Enhance Each Other(譯者/劉帝偉 審校/劉翔宇、朱正貴、李子健 責編/仲浩)

譯者簡介:劉帝偉,中南大學軟體學院在讀研究生,關注機器學習、數據挖掘及生物信息領域。

本文為CSDN編譯整理,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。從數學理論的角度來理解並提升機器學習方法,這也是近來非常有潛力的研究方向。
  • 拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法
    本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。
  • 機器學習助力凝聚態物理研究:實現拓撲量子計算的新希望
    (發現拓撲量子相變的物理學家獲得 2016 年諾獎)。像光子或原子這樣的量子粒子變換物理狀態要相對容易些,但是,拓撲態就比較堅實。這意味著他們或許能被用來搭建量子計算機,比如微軟的量子計算機的存儲器。這項研究不僅僅是為了識別相(phases),而是為了理解變(transitions)。加拿大的研究小組訓練計算機尋找在哪一溫度下相變發生的準確率達到 0.3%。
  • 大數據分析與機器學習有什麼區別
    如果從更大的角度看,人工智慧也將成為每個增長業務的一部分,越來越多的人熟悉大數據,大數據分析和機器學習等技術術語,並使用它們來解決複雜的分析問題。 通過處理足夠的數據,公司可以使用大數據分析技術來發現,理解和分析資料庫中複雜的原始數據。機器學習是大數據分析的一部分,它使用算法和統計信息來理解提取的數據。
  • 通過拓撲學分析,科學家探究樹葉形狀的本質
    然後,團隊使用了一種叫做持續同調(persistent homology)的拓撲學算法分析樹葉形狀。根據周圍像素的密度,這一方法把賦予圖片的每一個像素一個值,然後把樹葉分成 16 份並分析這些數值出現的規律。最後,研究人員用這些數據繪製形狀與地理位置在族群間的關係。
  • 十大案例分析,機器學習的十種網絡攻擊
    人工智慧準備好了接受機器學習推動的攻擊嗎?總的來說,人工智慧是否做好了使用的準備?無論你對於機器學習是否會成為網絡安全救世主的看法如何,有兩件事情卻是真實的:一是分析在安全領域佔有一席之地,二是機器學習在一些具體的使用案例中代表了我們今天所能給出的最好答案。
  • 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附...
    今天,我想強調下在機器學習中拓撲數據分析(TDA,Topological Data Analysis)的力量,並展示如何配合三個Python庫:Gudhi,Scikit-Learn和Tensorflow進行實踐。拓撲數據分析?首先,讓我們談談TDA。
  • Kaggle上線arXiv完整數據集,以促進機器學習領域的發展
    Kaggle 則是全球最大的數據競賽平臺,也是一個主要為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平臺,創建於 2010 年,並於 2017 年被谷歌母公司 Alphabet 收購。在 Kaggle 這個平臺上,不論是企業、某個領域的研究組織、甚至是政府機構,都可以把數據集(dataset)和想要解決的問題丟上去,請平臺上的數據專家來幫忙解答。
  • 機器學習數據分析極簡思路及sklearn算法實踐小試
    機器學習數據分析極簡思路機器學習擁有龐大的知識體系,這裡對機器學習的數據分析的整個思路和流程作最最簡單的歸納。
  • Python vs R : 在機器學習和數據分析領域中的對比
    為了鼓勵新工具的出現,機器學習和數據分析領域似乎已經成了 「開源」 的天下。Python 和 R 語言都具有健全的生態系統,其中包括了很多開源工具和資源庫,從而能夠幫助任何水平層級的數據科學家展示其分析工作。
  • 機器學習與數據分析常用術語-基礎篇(一)
    前言 之前在給公司的程式設計師培訓機器學習專題實戰的時候,發現他們聽的認真,也非常想學,但是每當問他們有哪裡不懂的時候,他們總是回答不出哪裡不懂,識懂非懂的狀態,後來我總結了一下原因,1.機器學習領域跟程序開發的區別非常大,機器學習屬於一個交叉學科,即需要數學也需要計算機學,難度相對與單學科要大些,2.機器學習領域有很多專業詞彙與術語
  • 獨家 | 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附連結&代碼)
    作者:Mathieu Carrière翻譯:孫韜淳校對:和中華本文簡要介紹了機器學習中拓撲數據分析的力量並展示如何配合三個
  • 機器學習的第一個難點,是數據探索性分析
    當我們在進行機器學習領域的學習和研究時,遇到的第一個難點就是數據探索性分析(Exploratory Data Analysis)。雖然從各種文獻中不難了解到數據探索性分析的重要性和一般的步驟流程,但是在面對實際問題時,往往會有不知道從哪兒下手以及不知道怎麼根據分析結果來優化算法的困境。本文通過對真實業務場景數據的探索性分析及建模與優化,嘗試對其進行解構,揭示其真實的意圖和作用,希望能對同行有所啟示。
  • 深度學習與機器學習:了解差異
    降維算法包括刪除具有許多缺失值的變量,刪除具有低方差的變量,決策樹,隨機森林,刪除或組合具有高相關性的變量,後向特徵消除,前向特徵選擇,因子分析和PCA(主成分分析)。優化方法訓練和評估可以通過優化監督算法的參數權重,找到最適合數據真實性的一組值,從而將監督學習算法轉變為模型。
  • Cloudera成立基金會,運用數據分析與機器學習改善人們的生活
    2017年10月9日,北京 –為雲計算優化的機器學習和分析平臺供應商Cloudera近期宣布旗下慈善組織——Cloudera基金會(the Cloudera Foundation)正式成立,進一步強調其在運用大數據為社會公益服務方面所做出的承諾。
  • 拓撲排序的原理及其實現
    我想任何看過數據結構相關書籍的同學都知道它吧。假設我非常想學習一門機器學習的課程,但是在修這麼課程之前,我們必須要學習一些基礎課程,比如計算機科學概論,C語言程序設計,數據結構,算法等等。那麼這個制定選修課程順序的過程,實際上就是一個拓撲排序的過程,每門課程相當於有向圖中的一個頂點,而連接頂點之間的有向邊就是課程學習的先後關係。只不過這個過程不是那麼複雜,從而很自然的在我們的大腦中完成了。
  • 網絡拓撲描述了網絡中不同節點如何相互連接和通信
    網絡拓撲描述了網絡中不同節點如何相互連接和通信。 簡單的網絡拓撲 業界存在許多種網絡拓撲,每種拓撲都具有不同的優點和缺點。 最簡單的網絡是點對點的。這是兩個節點之間的單一網絡連接。實際上,除了某些關鍵或特殊應用之外,現在很少需要僅僅連接兩個節點。
  • 數據分析技術:決策樹分析;機器學習入門模型
    屬性變量是什麼類型的數據?在數據分析領域,最終的數據分析方式就是將數據分成定類、定序和定距數據。判別分析適合定距數據,決策樹和邏輯回歸分析適合定類和定序數據。當然,這裡的適合併不意味著決策樹和邏輯回歸分析就不能用於定距數據的分析。草堂君建議大家在充分掌握每種分析方法的分析原理以後,再結合實際的數據分析環境選擇合適的分析方法。
  • 智能運維場景解析:基於AIOps的智能根因分析實踐
    然而,依賴運維經驗和手工操作的傳統故障排查方式效率低下,無法應對如今大規模、分布式、異構IT系統的運維挑戰,必須利用基於大數據和機器學習等智能運維技術的根因分析(Root Cause Analysis,RCA),才能在最短時間內定位故障根因,全面提升MTTR(平均故障修復時間)這兩個數位化運維的關鍵指標。
  • 機器學習經典書籍
    以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。《Programming Collective Intelligence》(《集體智慧編程》)PDF作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《數據之美:解密優雅數據解決方案背後的故事》)的作者。