拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法

2020-12-05 機器之心Pro

本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。

機器學習和人工智慧都是「黑箱」技術——這是使用機器學習、人工智慧進行數據研究遭受的批評之一。雖然它們能自動提供有用的答案,但是卻不能給人類提供可解讀的輸出。因此,我們往往不能了解它們在做什麼,又是如何做到的。

Ayasdi 對這個問題提出了解決方法,其中利用了該公司的核心技術——拓撲數據分析(TDA)。該方法能夠提供強有力的、具有詳細解釋的輸出。然而,在這篇文章中,我們將把工作擴展到目前 TDA 的「比較」方法之外。當前的方法使用的拓撲網絡由數據集的數據點(行)構建。在這項新的工作中,Ayasdi 將特徵(列)也融合在網絡當中,據此展示了一個改進的、易解釋的結果。

首先介紹一下該解釋方法的工作原理。

假設我們有一個數據集,並且在其中已經辨別出了一些子組。這些子組可能是數據的一個組成部分(例如,某種疾病有許多不同的形式,比如炎症性腸病,或該數據含有一個倖存者/非倖存者的信息),或者說,這些子組是由行集合的某拓撲模型通過分割或熱點分析創建的。

如果選擇其中的兩個子組,Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特徵列表。每個特徵有兩個分布——每個子組各有一個分布。KS 分數衡量兩個子組之間的差異。與本結構相關的也就是標準統計意義上的 P 值。

其解釋是,排列在第一位的變量是最能區分兩個子組的變量,而其餘的特徵是按其區分能力排列的。因此,解釋機制的輸出是一個有序的特徵表。通常,通過查看列表能獲得有用的解釋,即,是何因素導致了不同子組之間的區別。

該列表解釋起來往往很複雜。就像 Google 搜索後會得到一長串回復一樣,人們很可能會發現列表頂部分布不成比例,較低的響應又不為人們所關注。我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?

重要的是,要記住,Ayasdi 構造的拓撲模型假定給出了一個數據矩陣,以及數據集行的差異性或距離函數。通常,該距離函數是歐幾裡得距離,但是也可以選擇其他距離函數,例如相關距離、各種角度距離等。獲得數據矩陣 M 後,人們可以將它轉置為一個新的矩陣 M^T。其中,初始矩陣的列是轉置矩陣的行,反之亦然,如下圖所示。

在完成這個操作之後,可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構建拓撲模型。在集合中,人們可以選擇不同的距離函數。我們不會深入討論這一點,但總而言之,對任何數據矩陣行的通用可選項對於這個新矩陣也適用。

現在,假設我們有一個數據矩陣 M,以及在上述數據集中的一個子組 G。該子組可能通過先驗信息得來,也可能通過在 M 矩陣中行的拓撲模型分割得來。對於矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行),我們現在可以計算子組 G 中每一行的均值,即 c_i 的平均值

我們將把它記為 fi,G。當這個數字包含 i 時,我們在 M^T 的行集合上獲得一個函數。因此,再次重申,M 矩陣中的行的一個子組將在 M^T 的行集合上產生一個函數。Ayasdi 拓撲模型的功能之一是,通過對應於節點的行,能夠利用數據矩陣的行函數的平均值對拓撲模型的節點進行著色。這對於了解數據屬性而言是一個非常有用的方法。尤其地,我們現在可以利用 M^T 矩陣的行集合中子組 G 的著色情況,查看該組的特徵。

請看下例。

荷蘭癌症研究所(NKI)構建了一個數據集,其中包括來自 272 名乳腺癌患者採樣的微陣列分析。本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水平。從這些基因中,我們選擇了 1500 個表達水平最高的基因。我們得到一個 272 x 1500 的矩陣,其中 1500 列對應於數據集中具有最大方差的 1500 個基因,272 行對應於樣本總量。對於這個數據集,數據矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

我們的拓撲模型展示如下。

上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在數據集中,存在一個名為 eventdeath 的二進位變量。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變量 eventdeath 的平均值進行著色。其結果如下所示。

我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變量值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看數據中的哪些特徵與「小枝」的產生有關,從而了解變量 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。

如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。

在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):

我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。了解這些基因組需要使用各種基於網絡的生物學通路分析的工具。

總而言之,我們已經展示了如何對數據集中的特徵空間使用拓撲建模,而不是利用行集合直接從數據集尋找洞察。具有超過 4 個特徵的數據集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的數據集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學數據的分析中存在。

參考文獻

[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013)

相關焦點

  • 中科大潘建偉團隊在光量子處理器上成功實現拓撲數據分析
    我們利用一個六光子量子處理器實現了這個量子算法的原理性實驗演示驗證,成功地分析了一個包含三個數據點的網絡的貝蒂數拓撲特徵,為量子計算領域的數據分析提供了新的探索思路和研究方法。在探索性數據分析和數據挖掘中,我們的收集到的大數據通常編碼了非常有價值的信息,然而,這些數據往往規模很大,並且是非結構化的、帶噪聲的、不完整的,從而使得從數據中提取有用信息變得很有挑戰性。
  • 淺議概率拓撲與數據分析挖掘的關係
    數據挖掘分析,是一種在非結構化、雜亂無章的數據中,通過一定的數學方 法,挖掘出有用信息的過程。本文旨在通過研究一些常用算法的數學原理,並運 用一系列的數學知識加以解釋,從而闡釋一種數據挖掘分析的新思路。一、拓撲學簡介拓撲學,是一門研究幾何圖形不隨形狀改變而改變的性 質的學科,只考慮物體間的位置關係而不考慮其形狀與大小。
  • 數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題
    如今飛速發展的人工智慧(AI)應用中,依賴海量數據、不具有確定性的深度學習算法仍是主旋律。在上周三的2020第三代人工智慧產業論壇上,清華大學人工智慧研究院院長、中國科學院院士張鈸教授的一番言辭發人深省。他提到全球前40個AI獨角獸的估值大約分布在70-500億區間,但銷量均基本不到估值的10%,也就是沒有找到市場,問題出在什麼地方?
  • 誰將為黑箱金融埋單?
    這則法令最重要的兩個原則在於:1、最大限度的保護個人隱私,嚴格限定企業、政府對個人信息數據的使用條件。將科技、人工智慧、數據滲透阻擋於個人隱私之外。2、要求人工審查重要的人工智慧中的算法決策,提供個別算法決策的詳細解釋或關於算法如何做出決定的一般信息。這一條款將大大降低技術黑箱問題的存在。
  • 深度學習和拓撲數據分析的六大驚人之舉
    將深度學習與拓撲數據分析結合在一起完全能夠達到此目的,並且還綽綽有餘。1、它能在幾分鐘內創建一張數據圖,其中每一個點都是一個數據項或一組類似的數據項。基於數據項的相關性和學習模式,系統將類似的數據項組合在一起。這將使數據有唯一的表示方式,並且會讓你更清晰地洞察數據。可視化圖中的節點由一個或多個數據點構成,而點與點之間的連結則代表數據項之間高相似性。
  • 思維誤區,用分子還是用磚頭建造房屋,以及黑箱原理和整體分析
    世界上的絕大多數人都是不知道的,就算是專業的材料方向科學家,也是需要儀器去作分析才知道的。由此展開,想到一個景象,建築工人到底是要用分子粒子去建築房子,還是用磚頭呢?而是按照性味歸經,五行相生相剋,十二經絡的走向,虛實寒熱,來作疾病分析和治療指導的。這裡面涉及到一個現代科學的黑箱理論。
  • 人工智慧無所不能?AI+醫療並非如此神奇,但卻是下一場醫學革命
    人工智慧是計算機科學的一個分支,它企圖了解智能的實質,並生產出一種新的能與人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。用淺顯易懂的話來說,程式設計師創造了一個「黑箱」,這是一個會「思考的機器」,我們從一端塞給他一個問題,它就會從另一端輸出結果。
  • 拓撲數據分析與機器學習的相互促進
    【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。
  • 人工智慧足彩模型太逆天!神奇算法預測輕鬆賺145萬
    神奇算法預測輕鬆賺145萬 1526517402 面對足彩比賽產生的大量數據,人工智慧是如何來處理的呢?澳彩五星指數是前澳彩員工根據多年數據和操盤經驗提供的模型,其原理是根據澳彩的賠率變化判斷澳彩操盤手的真實意圖,算法根據澳彩賠率變化自動推薦比賽盤口。澳門彩票有限公司是世界上最權威的博彩公司之一,澳彩公司抓住機遇發明的亞洲讓球盤,確立了澳門博彩公司在亞洲球市的盟主地位。玩彩票的人都應該知道澳彩賠率的重要性,足彩投注中,澳彩的賠率不能不參考。
  • 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附...
    今天,我想強調下在機器學習中拓撲數據分析(TDA,Topological Data Analysis)的力量,並展示如何配合三個Python庫:Gudhi,Scikit-Learn和Tensorflow進行實踐。拓撲數據分析?首先,讓我們談談TDA。它是數據科學中相對小眾的一個領域,尤其是當與機器學習和深度學習對比的時候。但是它正迅速成長,並引起了數據科學家的注意。
  • 大數據是一個「黑箱」 我們都是透明人
    被套路、被殺熟……這些事情之所以會發生,可能是因為你生活在一個「黑箱」時代!「黑箱」概念由馬裡蘭大學教授弗蘭克·帕斯奎爾提出。將我們當下所處的大數據時代,稱為「黑箱時代」。大數據時代的「黑箱」就像飛機上的黑匣子,可以將所有重要信息記錄清楚,但我們只是信息的生產者,卻不知道這些信息將被用於何處,會產生什麼樣的後果。其實,當你在上網娛樂、學習、瀏覽新聞或從事商業活動時,已經無形中陷入一張數據採集的網絡,這張網的覆蓋面之廣你絕對難以想像。
  • 比阿爾法狗更強大:東大網約車大數據分析算法獲人工智慧領域"世界...
    近日,由東南大學交通學院劉志遠教授指導的參賽隊伍,擊敗1000多家世界人工智慧隊伍,獲得了有著國際人工智慧、數據挖掘領域"世界盃"之稱的KDD CUP大賽的冠軍。   由東南大學交通學院劉志遠教授指導的參賽隊伍把人工智慧最前沿的強化學習算法融入到滴滴派單問題中,對現有方法進行了系統、全面的優化。
  • 人工智慧算法有助於快速分析蛋白質摺疊結構
    近日,英國《自然》雜誌報導,美國哈佛大學醫學院生物學家AlQuraishi開發出新型人工智慧算法,能夠快速分析預測蛋白質三維結構,大大提高蛋白質三維結構預測的效率,將預測時間從若干小時或幾天縮短至幾毫秒
  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。從數學理論的角度來理解並提升機器學習方法,這也是近來非常有潛力的研究方向。
  • ...或依託算法推薦、人工智慧和大數據薈萃分析進行的「隱形」不...
    不得開展濫用市場支配地位「二選一」、商譽詆毀、裹挾交易等違法違規競爭行為,或依託算法推薦、人工智慧和大數據薈萃分析進行的「隱形」不正當競爭行為。* 指導僅供參考,不作為交易依據
  • 算法到底算什麼?
    其中,後半部分的判斷,面臨一個強度有限的挑戰:從屬於人工智慧這個大概念的算法,仍然是對於人的模擬,即人在智力方面比人工智慧更好,這就是弱人工智慧;相反,如果人工智慧和人在這方面一樣好,那麼擁有人工智慧的機器就成為更好的人,這就是強人工智慧。
  • 楊元慶:聯想通過大數據、算法及高性能計算推動人工智慧的發展
    在頒獎儀式上,楊元慶表示,聯想正在通過數據、超算和算法研究,推動人工智慧的發展。以下是楊元慶發言的原文。聯想集團董事長兼CEO楊元慶楊元慶上海交大致辭: 勇立潮頭,成為智慧時代的弄潮兒我們現在所處的時代,因為科技的進步正發生劇變。人類社會已經經歷了三次大的變革,機械化的變革、電氣化的變革、數位化的變革,當年我和我的同學們有幸成為第三次變革的親歷者。
  • 一文看懂tda2822和tda2822m的區別(引腳功能及電路圖)
    打開APP 一文看懂tda2822和tda2822m的區別(引腳功能及電路圖) 發表於 2018-05-30 09:08:42
  • tda2030中文資料匯總(tda2030引腳圖及功能_內部電路及應用電路)
    打開APP tda2030中文資料匯總(tda2030引腳圖及功能_內部電路及應用電路) 發表於 2018-04-28 15:13:08
  • 人工智慧算法、大數據應用分析……為何這些To B項目還有機會?
    路演環節,4位項目負責人依次上臺,通過10分鐘的項目闡述及15分鐘的線上線下投資人提問環節,為我們充分展示了人工智慧算法、大數據應用分析、智能醫美系統、酒店民宿管理系統等熱門領域的創新技術產品。投資人就核心技術支撐、獲客成本及途徑、盈利模式等方面的企業經營發展問題與各項目負責人展開交流。接下來我們就來看看本期路演的項目情況吧!