為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法

2021-01-10 機器之心Pro

機器之心報導

參與:思、一鳴

一位義大利數學家表示,現在我們可以使用一種新數學方法,讓機器學習系統能更高效、快速地學習識別複雜圖像。該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。

從數學理論的角度來理解並提升機器學習方法,這也是近來非常有潛力的研究方向。不論是以前通過常微分方程或偏微分方程形式化神經網絡,還是這一篇從拓撲學的角度強化神經網絡的魯棒性,也許當更多的數學基礎被賦予機器學習時,它的發展與創新就會變得更加有「規律」。

論文地址:https://www.nature.com/articles/s42256-019-0087-3實現地址:https://zenodo.org/record/3264851#.XW3P7lwzaUk

本文介紹了這種基於拓撲學的數學方法,因為具體的推導與證明非常複雜,我們只簡要介紹主體思想與實驗,更多詳細內容可查閱原論文。

目前的 ML 有什麼缺陷

ML 有很多缺陷。首先,機器學習系統的魯棒性一直備受質疑。例如,在識別目標時,如果目標發生旋轉,則 ML 系統不能識別這一目標。此外,研究者提到,即使 ML 系統在性能方面表現良好,人們依然不知道模型內部發生了什麼。

這兩大問題促使研究者探究——是否可以將知識在訓練前輸入模型中,使其在一個更為有限的空間內進行搜索,而不是考慮搜索空間中所有的可能,哪怕是那些在現實中從來不可能出現的。

「我們想要控制模型學習到的特徵所在空間,」論文一作 Mattia Bergomi 表示,「這有點像平庸和大師級象棋選手的差別,前者看到了所有可能的棋路,但是後者只看到那些好的路子。」

據研究者們介紹,他們的研究只集中解決一個問題:「訓練識別路標的深度神經網絡時,如何告訴網絡只需要關注三角形、環形等簡單的幾何形狀即可。」

可以識別圖像旋轉的「機器」。

怎樣解決?

對此,研究者提出了一種名為拓撲數據分析(Topological Data Analysis: TDA)的方法。TDA 可以被視為是一種搜索拓撲特徵這一內部結構的工具,根據拓撲特徵,任意複雜的目標都能表示為一大組數字。而種拓撲特徵只需要通過特定的「鏡頭」,或者過濾器,來對數據進行瀏覽就能得到。

例如,對於人臉數據來說,使用 TDA 可以教會神經網絡在沒有多種角度的人臉數據的情況下進行人臉識別。

為了測試這種方法,研究人員設置了一個教會神經網絡學習識別手寫數字的實驗。根據手寫數字的人的不同,寫出的數字可能是兩個一樣的,或者看起來很不一樣但實際上是一個數字的情況。研究者構建了一系列他們認為有意義的先驗特徵,並要求機器從這些不同的「鏡頭」中選擇,並處理圖像。

研究人員從數學角度介紹了這種通用型框架。他們表示,TDA 是一種可以在數據集上進行運算的算子集合。

具體而言,拓撲學數據分析方法用於描述群等不變非擴張算子(group equivariant nonexpansive operators: GENEO)的空間。GENEO 是函數空間和變換之間的映射。研究人員研究了 GENEO 的拓撲和度量性質,用於評價它們的近似率,並設置了用於初始化的泛化策略。在結合了算子後,研究人員最終將它們以樹狀結構連接,用於組成算子網絡。

研究人員發現,用於識別數字 5 和數字 7 的 TDA 增強神經網絡所需要的訓練數據量和訓練時間都相當程度地減少了。

實驗結果

在這一部分中,研究者測試了該方法在分類數據集中的效果。首先作者構建了一種算法以允許選擇並採樣 GENEO,從而通過一種標註函數學習在數據集上歸納的度量。隨後作者定義了 GENEO 將要使用的目標類別,它們都是 MNIST、fashion-MNIST 和 CIFAR-10 數據集中的類別。

選擇和採樣會用於逼近一個智能體,從而允許表達這些數據集潛在的度量標準,這只要觀察每類別 20 到 40 個樣本就可以完成。最後,研究者可以將選擇和採樣的 GENEO 注入到神經網絡的知識中。

圖 2:整個實驗的 Pipeline。

圖 3:在 MNIST 數據集上選定的 IENEO。通過考慮在 GENEO 空間上定義的度量,我們可以選擇能識別 MNIST 數據集的運算子。

圖 4:通過 IENEO 選擇和採樣的度量學習。其中 A 為從 MNIST 數據集中採樣的「7」和「5」,B、C、D 表示層級聚類結果。其中層級聚類通過使用不同維度的 IENEO 來度量驗證樣本屬於「7」和「5」的距離。

圖 5:IENEO 在 fashion-MNIST 和 CIFAR-10 上的度量學習。

參考連結:

https://cosmosmagazine.com/mathematics/novel-maths-could-bring-ai-to-next-levelhttps://www.eurekalert.org/pub_releases/2019-09/ccft-nmc082919.php

相關焦點

  • 淺議概率拓撲與數據分析挖掘的關係
    數據挖掘分析,是一種在非結構化、雜亂無章的數據中,通過一定的數學方 法,挖掘出有用信息的過程。本文旨在通過研究一些常用算法的數學原理,並運 用一系列的數學知識加以解釋,從而闡釋一種數據挖掘分析的新思路。一、拓撲學簡介拓撲學,是一門研究幾何圖形不隨形狀改變而改變的性 質的學科,只考慮物體間的位置關係而不考慮其形狀與大小。
  • 拓撲學原理
    拓撲學起初叫形勢分析學,是德國數學家萊布尼茨1679年提出的名詞。十九世紀中期,德國數學家黎曼在複變函數的研究中強調研究函數和積分就必須研究形勢分析學。從此開始了現代拓撲學的系統研究。在拓撲學裡不討論兩個圖形全等的概念,但是討論拓撲等價的概念。
  • 拓撲學
    拓撲學(topology)是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。它只考慮物體間的位置關係而不考慮它們的形狀和大小。在拓撲學裡,重要的拓撲性質包括連通性與緊緻性。拓撲英文名是Topology,直譯是地誌學,最早指研究地形、地貌相類似的有關學科。拓撲學是由幾何學與集合論裡發展出來的學科,研究空間、維度與變換等概念。這些詞彙的來源可追溯至哥特佛萊德·萊布尼茨,他在17世紀提出「位置的幾何學」(geometria situs)和「位相分析」(analysis situs)的說法。萊昂哈德·歐拉的柯尼斯堡七橋問題與歐拉示性數被認為是該領域最初的定理。
  • 拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法
    本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。
  • 經典拓撲學教程:《一般拓撲學》
    本書是關於一般拓撲的一部經典著作,書中系統介紹了一般拓撲的基本知識。正文共分7章,包括拓撲空間、Moore-Smith收斂、乘積空間和商空間、嵌入和度量化、緊空間、一致空間、函數空間。此外,還有一章預備知識和一個附錄。每章之後有大量問題,作為正文的補充和延伸,有助於讀者更好地理解正文的內容。書末由譯者加寫了一個附錄,介紹了近期拓撲學發展的概貌。
  • 中科大潘建偉團隊在光量子處理器上成功實現拓撲數據分析
    我們利用一個六光子量子處理器實現了這個量子算法的原理性實驗演示驗證,成功地分析了一個包含三個數據點的網絡的貝蒂數拓撲特徵,為量子計算領域的數據分析提供了新的探索思路和研究方法。在探索性數據分析和數據挖掘中,我們的收集到的大數據通常編碼了非常有價值的信息,然而,這些數據往往規模很大,並且是非結構化的、帶噪聲的、不完整的,從而使得從數據中提取有用信息變得很有挑戰性。
  • 拓撲數據分析與機器學習的相互促進
    【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。
  • 一種新的量子材料--拓撲絕緣體
    預言了一類新的強拓撲絕緣體材料系統(Bi2Se3, Bi2Te3 和Sb2Te3),這是最簡單的強拓撲絕緣體,便於理論模型研究,同時非常穩定且容易合成,有可能會成為實現室溫低能耗的自旋電子學器件。本工作於2009年發表在著名科學雜誌自然的子刊自然物理(Nature Physics)。
  • Light: 楊兆舉 | 拓撲分形光子學
    圖片來源:Light:Science & Applications近日,以色列理工學院楊兆舉博士與Mordechai Segev教授提出了拓撲分形光子學的概念,文章發表於國際頂級光學期刊:Light: Science & Applications 。
  • 硬核科普:什麼是拓撲?
    著名的咖啡杯和甜甜圈動畫 | wiki如果你有學到一般拓撲學的本科課程,可能會難以將所學的東西跟熟悉的甜甜圈和咖啡杯動畫聯繫起來。如果我們在拉伸時違反了這些規則,那麼這兩個對象在拓撲上將不再等價。拓撲學家稱這種不破壞既定規則的拉伸為同胚,這只是一種數學上精確地描述如何讓橡皮泥的形狀保持相同拓撲性質的方法。因此,如果我們可以得出兩個拓撲空間之間的同胚性,則這些空間具有相同的拓撲,這就說到了咖啡杯和甜甜圈動畫。
  • 吳傑:拓撲世界的架構師
    在阿里巴巴全球數學競賽頒獎典禮上發言(從左到右依次為:吳傑、劉建亞、包剛、章志飛)人類對宇宙的探索刺激了幾何學與拓撲學的發展,通過與天文學、力學、物理等領域及數學其他分支,如分析與代數的交叉應用,代數拓撲已經成為一個獨立的數學領域
  • 神秘的拓撲學,起源於遊戲的數學,柔軟的數學
    在1847年,J.B.利斯廷根據希臘文τπο和λγο(「位置」和「研究」),提出Topology這一數學名詞,即拓撲學。Topology,直譯是地誌學,最早指研究地形、地貌相類似的有關學科。這是拓撲學的萌芽階段。
  • 物理史上首份「拓撲圖鑑」,鋪平科學家尋找拓撲絕緣體之路
    其實,Bernevig的方法就是把兩種認知模式結合了起來,從而提出了這套「拓撲圖鑑」。清華大學的物理學家李渭對此表示:「這絕對是一個更加有效的尋找新拓撲絕緣體的方法,我相信將會有更多的新材料問世。」圖丨該團隊為判定拓撲絕緣體提出的方法步驟儘管有了「拓撲圖鑑」,科學家仍需在在實驗室繼續探索。
  • Nature Materials:拓撲半金屬光電探測器
    拓撲半金屬材料的應用是近期關於提高半金屬PDs響應率的研究熱點。拓撲半金屬材料是指有拓撲非常規電子能帶結構的非金屬材料。一種直接的方法是用3D Dirac半金屬,如Cd3As2,代替石墨烯(2D Dirac半金屬),在不損失寬帶響應和超高速的前提下改善響應率。
  • 彭海琳丨拓撲絕緣體:基礎及新興應用
    作為一種全新量子物態,拓撲絕緣體的發現被認為是繼石墨烯之後的「Next Big Thing」。拓撲絕緣體對基礎物理的理解和半導體器件的應用都有巨大的價值,因而逐漸成為凝聚態物理和電子學領域的研究熱點,受到全球科學家關注,以期解決摩爾定律即將失效的難題,突破能源、信息等領域面臨的瓶頸。
  • 大規模拓撲學變化抑制腫瘤惡性進展
    然而,儘管重要性眾所周知,可是這些形態學變化的分子基礎仍不明確。結腸癌和正常結腸的拓撲圖與表觀遺傳學、轉錄和成像數據進行整合分析後,發現與傳統觀點「腫瘤相關的表觀基因改變主要是致癌的」相反,腫瘤中的拓撲變化實際上是細胞分裂積累的結果,這些變化不但抑制腫瘤細胞的乾性,而且誘導了抗腫瘤免疫
  • 拓撲學到底有多重要? 在數學中佔據多高的地位?
    從以上簡單的敘述中,大家應該能「粗略」的了解到什麼是拓撲學,或拓撲學主要是做什麼工作。拓撲學,直接點講就是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。大家一定要記住一點:拓撲學只考慮物體間的位置關係而不考慮它們的形狀和大小。拓撲學起初叫形勢分析學,是德國數學家萊布尼茨1679年提出的名詞。
  • 吳國平: 拓撲學到底有多重要? 在數學中佔據多高的地位?
    從以上簡單的敘述中,大家應該能「粗略」的了解到什麼是拓撲學,或拓撲學主要是做什麼工作。拓撲學,直接點講就是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。大家一定要記住一點:拓撲學只考慮物體間的位置關係而不考慮它們的形狀和大小。拓撲學起初叫形勢分析學,是德國數學家萊布尼茨1679年提出的名詞。
  • FOE|光子晶體與拓撲光子學專刊
    ,為在介觀尺度上操縱光提供了一個平臺。基於光子帶結構的拓撲光子學已成為當今研究的熱點。拓撲光子學提供了兩種新的調控自由度,即拓撲態自由度和能谷自由度。可以預見,拓撲光子學不僅可以促進對物理效應和現象的基礎研究,而且可以促進高性能光子器件的研究。
  • Nature刊發華東師大成果!分子拓撲學研究獲突破性進展
    Leigh)教授團隊在分子拓撲學方面取得突破性進展,華東師範大學為該成果第一單位。李大為教授團隊利用單一股線構築不同單分子拓撲結構(Nature2020,584, 562-568.)「這項研究最大的創新點是:我們首次利用單一分子股線,通過模擬分子伴侶蛋白誘導蛋白摺疊的過程,實現了三種不同分子拓撲結構的構築,完全區別於該領域以前報導的一種合成方法對應一種拓撲結構的策略,大大拓展了分子拓撲學在未來研究拓撲類蛋白功能及構象關係的潛力。」