拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法

2020-12-20 機器之心Pro

本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。

機器學習和人工智慧都是「黑箱」技術——這是使用機器學習、人工智慧進行數據研究遭受的批評之一。雖然它們能自動提供有用的答案,但是卻不能給人類提供可解讀的輸出。因此,我們往往不能了解它們在做什麼,又是如何做到的。

Ayasdi 對這個問題提出了解決方法,其中利用了該公司的核心技術——拓撲數據分析(TDA)。該方法能夠提供強有力的、具有詳細解釋的輸出。然而,在這篇文章中,我們將把工作擴展到目前 TDA 的「比較」方法之外。當前的方法使用的拓撲網絡由數據集的數據點(行)構建。在這項新的工作中,Ayasdi 將特徵(列)也融合在網絡當中,據此展示了一個改進的、易解釋的結果。

首先介紹一下該解釋方法的工作原理。

假設我們有一個數據集,並且在其中已經辨別出了一些子組。這些子組可能是數據的一個組成部分(例如,某種疾病有許多不同的形式,比如炎症性腸病,或該數據含有一個倖存者/非倖存者的信息),或者說,這些子組是由行集合的某拓撲模型通過分割或熱點分析創建的。

如果選擇其中的兩個子組,Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特徵列表。每個特徵有兩個分布——每個子組各有一個分布。KS 分數衡量兩個子組之間的差異。與本結構相關的也就是標準統計意義上的 P 值。

其解釋是,排列在第一位的變量是最能區分兩個子組的變量,而其餘的特徵是按其區分能力排列的。因此,解釋機制的輸出是一個有序的特徵表。通常,通過查看列表能獲得有用的解釋,即,是何因素導致了不同子組之間的區別。

該列表解釋起來往往很複雜。就像 Google 搜索後會得到一長串回復一樣,人們很可能會發現列表頂部分布不成比例,較低的響應又不為人們所關注。我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?

重要的是,要記住,Ayasdi 構造的拓撲模型假定給出了一個數據矩陣,以及數據集行的差異性或距離函數。通常,該距離函數是歐幾裡得距離,但是也可以選擇其他距離函數,例如相關距離、各種角度距離等。獲得數據矩陣 M 後,人們可以將它轉置為一個新的矩陣 M^T。其中,初始矩陣的列是轉置矩陣的行,反之亦然,如下圖所示。

在完成這個操作之後,可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構建拓撲模型。在集合中,人們可以選擇不同的距離函數。我們不會深入討論這一點,但總而言之,對任何數據矩陣行的通用可選項對於這個新矩陣也適用。

現在,假設我們有一個數據矩陣 M,以及在上述數據集中的一個子組 G。該子組可能通過先驗信息得來,也可能通過在 M 矩陣中行的拓撲模型分割得來。對於矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行),我們現在可以計算子組 G 中每一行的均值,即 c_i 的平均值

我們將把它記為 fi,G。當這個數字包含 i 時,我們在 M^T 的行集合上獲得一個函數。因此,再次重申,M 矩陣中的行的一個子組將在 M^T 的行集合上產生一個函數。Ayasdi 拓撲模型的功能之一是,通過對應於節點的行,能夠利用數據矩陣的行函數的平均值對拓撲模型的節點進行著色。這對於了解數據屬性而言是一個非常有用的方法。尤其地,我們現在可以利用 M^T 矩陣的行集合中子組 G 的著色情況,查看該組的特徵。

請看下例。

荷蘭癌症研究所(NKI)構建了一個數據集,其中包括來自 272 名乳腺癌患者採樣的微陣列分析。本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水平。從這些基因中,我們選擇了 1500 個表達水平最高的基因。我們得到一個 272 x 1500 的矩陣,其中 1500 列對應於數據集中具有最大方差的 1500 個基因,272 行對應於樣本總量。對於這個數據集,數據矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

我們的拓撲模型展示如下。

上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在數據集中,存在一個名為 eventdeath 的二進位變量。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變量 eventdeath 的平均值進行著色。其結果如下所示。

我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變量值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看數據中的哪些特徵與「小枝」的產生有關,從而了解變量 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。

如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。

在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):

我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。了解這些基因組需要使用各種基於網絡的生物學通路分析的工具。

總而言之,我們已經展示了如何對數據集中的特徵空間使用拓撲建模,而不是利用行集合直接從數據集尋找洞察。具有超過 4 個特徵的數據集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的數據集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學數據的分析中存在。

參考文獻

[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013)

相關焦點

  • 人工智慧時代的算法裁判及其規制
    [20]目前全國其他地方法院人工智慧和算法裁判的運用正在不斷推進中。  我國目前正在大力發展和建設的智慧法院即是算法裁判在司法實踐中的具體體現。在智慧法庭領域, 智慧法庭的建設和應用需要依託於智能大數據分析、語音識別、圖像視頻分析等多項人工智慧技術的支撐, 從而實現案情要素的分析、庭審語音識別自動轉寫、庭審行為視頻分析、庭審視頻流媒體轉發與調度等功能。
  • 數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題
    得益於底層編譯級的能力,該平臺通過實現「算子盤」和「數據流圖」兩大功能,具備三大性能優勢:(1)訓練速度實現30倍以上提升:在加密算法方面應用全同態技術,打破半同態技術功能與性能上的桎梏,性能提升2-3
  • 數據結構與算法之拓撲排序
    例如,圖形的頂點可以表示要執行的任務(Activity),並且邊可以表示一個任務必須在另一個任務之前執行的約束;在這個應用中,拓撲排序只是一個有效的任務順序。若且唯若圖中沒有定向環時(即有向無環圖),才有可能進行拓撲排序。任何有向無環圖至少有一個拓撲排序。已知有算法可以在線性時間內,構建任何有向無環圖的拓撲排序。
  • 人工智慧教育應用的算法風險
    摘要教育已逐漸進入人工智慧時代。人工智慧技術在改變教育的同時,也在給教育帶來不可預知的風險。本研究旨在分析人工智慧教育應用中使用算法及計算模型對教育進行量化和計算所造成的潛在風險,並分析其產生根源,提出風險管控建議。
  • 人工智慧時代的算法權力:邏輯、風險及規制
    大數據是人工智慧技術發展的基石;機器學習能對數據進行分析、決策和預測,是實現智能的方法;深度學習是使用包括複雜結構在內的多個處理層,對數據進行高維抽象的算法[1]。人工智慧相關技術的本質是基於數據的算法。數據是現實世界的數位化反映,可以被收集,但不能被創新,算法的發展決定了智能革命的進程。
  • 第三代人工智慧來了!知識、數據、算法、算力缺一不可
    7月9日,來自國內外人工智慧領域的院士及頂尖科學家們在2020世界人工智慧大會上共話下一代人工智慧新範式,聚焦和探索人工智慧最前沿的科技發展趨勢,圍繞人工智慧算法創新、多學科交叉融合等話題,描繪智能視覺、智能醫療、智能晶片等領域的技術發展路徑。AI也要舉一反三2020年註定是不平凡的一年。
  • 拓撲數據分析與機器學習的相互促進
    【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。
  • 如果AI沒有「黑箱」:顧澤蒼博士做客之江講壇
    在近一小時的講座中,顧澤蒼博士聚焦當前人工智慧深度學習存在的「黑箱問題」等缺陷,提出了新一代人工智慧Super Deep Learning模型(以下簡稱SDL模型)。AlphaGo戰勝頂尖棋手引發了公眾對人工智慧的廣泛討論,甚至有人斷言,AlphaGo大獲全勝標誌著人工智慧已達到極高水平。
  • 加州伯克利新算法:打破AI黑箱 可按人類思維回溯推理 | 重大突破
    但這種情況畢竟是少數,大多數時候,我們都具有自我解釋和自我認知的能力,而這一點也是人類與機器人(或者說人工智慧)最大的區別之一。一般我們所說的人工智慧,其實說到底就是由一段程序代碼組成的複雜運算系統,這個系統能夠根據輸入數據得出一個運算結果,而這個結果的外在體現就是人工智慧。在通常情況下,我們只能看到輸入的數據和最終的運算結果,至於中間的運算過程究竟怎樣,則一概不知。
  • 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附...
    今天,我想強調下在機器學習中拓撲數據分析(TDA,Topological Data Analysis)的力量,並展示如何配合三個Python庫:Gudhi,Scikit-Learn和Tensorflow進行實踐。拓撲數據分析?首先,讓我們談談TDA。
  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。從數學理論的角度來理解並提升機器學習方法,這也是近來非常有潛力的研究方向。
  • 關於人工智慧領域ID3算法分析
    關於人工智慧領域ID3算法分析 工程師飛燕 發表於 2018-06-27 09:57:00 前言:人工智慧機器學習有關算法內容,人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。
  • 人工智慧算法測眼病 或是AI在醫療界首個重大應用
    據英國《金融時報》在線版近日消息稱,繼「阿法狗」之後,谷歌旗下人工智慧子公司
  • 數據算法 | 主要算法的概念、分類及應用
    我請我的博士生元方同學整理了算法的一些基本概念和分類,已經有段時間了,分享給同學們!一、什麼是算法算法是一系列有助於解決問題和實現目標的規則。按照一定步驟建立這些規則時,我們可以使用這些算法,通常也叫做程序或構建人工智慧(其實人工智慧的狹義特指一種電腦程式算法)。
  • 人工智慧的底層邏輯究竟是什麼?是算法還是數據?
    [導讀]對於人工智慧來說,大數據和算法缺一不可。
  • 獨家 | 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附連結&代碼)
    作者:Mathieu Carrière翻譯:孫韜淳校對:和中華本文簡要介紹了機器學習中拓撲數據分析的力量並展示如何配合三個
  • 吳傑:拓撲世界的架構師
    隨著大數據、人工智慧、生物製藥等領域的迅猛發展,作為核心數學工具的代數拓撲,亟須實現更加前沿的突破。2019年全職回國後的吳傑,冀望於推動國內代數拓撲從基礎理論到未來技術的研究網絡,建立產學研一體的團隊,加快培養出一批拓撲領域的年輕人才。「數學文章,也許可以關起門自己寫。但數學要做到真正的應用,僅僅靠數學家做夢是做不出來的。」吳傑說。
  • 通過拓撲學分析,科學家探究樹葉形狀的本質
    圖丨該地圖能通過樹葉形狀預測來源地這一方法能幫助我們探究環境是如何影響樹葉形狀的,並有望通過化石中的形狀推斷古代的氣候狀況。「這份數據意義重大,」貝勒大學的古植物學家 Dan Peppe 表示,「我們離重構古代氣候和植物分類有進了一步。」
  • 數據和算法像人一樣有偏見,你還願意讓人工智慧幫你投票嗎?
    人工智慧:呆板的數據機器AI 個人助手在幾年前已經走進現實,對於我們來說,把履行公民義務的重任交與它們還是顯得有些不合適——即使人工智慧幾乎總是知道在特定的時刻給我們最好的建議。通過足量的數據學習,人工智慧可以為每個人提供準確的,個性化的建議,甚至比你最親密朋友的建議更完美。
  • 【文獻與探索】人工智慧責任:讓算法承擔責任
    在人工智慧的背景下,這樣的論壇可以類似地包括傳統的機構論壇,如法院、議會委員會、監察員等,但也有專門建造的論壇,如人工智慧倫理、標準化機構和審計機構,監測人工智慧系統的設計和運行。人工智慧、算法決策和權力:注意正在出現的問責缺口算法本質上是按照順序實現的任何規則集(無論是計算規則還是其他規則),以達到特定的結果。