深度學習和拓撲數據分析的六大驚人之舉

2021-01-10 CSDN技術社區

假如你有一個一千列和一百萬行的數據集。無論你從哪個角度看它——小型,中型或大型的數據——你不可能看到它的全貌。將它放大或縮小。使它能夠在一個屏幕裡顯示完全。由於人的本質,如果能夠看到事物的全局的話,我們就會有更好的理解。有沒有辦法把數據都放到一張圖裡,讓你可以像觀察地圖一樣觀察數據呢?

將深度學習與拓撲數據分析結合在一起完全能夠達到此目的,並且還綽綽有餘。

1、它能在幾分鐘內創建一張數據圖,其中每一個點都是一個數據項或一組類似的數據項。

基於數據項的相關性和學習模式,系統將類似的數據項組合在一起。這將使數據有唯一的表示方式,並且會讓你更清晰地洞察數據。可視化圖中的節點由一個或多個數據點構成,而點與點之間的連結則代表數據項之間高相似性。

2、它展示了數據中的模式,這是使用傳統商業智能無法識別的。

下面是個案例,展示的是算法是如何僅僅通過分析用戶行為來識別兩組不同的人群。典型的特徵區分,黃色和藍色點:女性和男性。

如果我們分析行為類型,我們會發現,其中一組大部分是發送信息(男性),而另一組則多為接收信息(女性)。

3、它能在多層面上識別分段數據

分段數據表現在多種層面上——從高層次分類到具有相同數據項的分組。

在一個Netflix數據集的例子中,每個數據項是一部電影。最高層次的一組是音樂,孩子,外交和成人電影。中層次的部分包含不同分段:從印度片和港片到驚悚片和恐怖片。在低層次中是電視連續劇分組,比如「萬能管家」,「辦公室」,「神秘博士」等。

4、它能分析任何數據:文本,圖像,傳感器數據,甚至音頻數據。

任何數據都可以被分段並理解,如果可以將它展現為數字矩陣,其中每一行是一個數據項,列是一個參數。下面這些是最常見的用例:

5、如果你引導它,它能學習更複雜的依賴關係。

選擇一組數據項,將它們分組,算法就會發現所有相關或類似的數據項。重複這個過程數次,那麼神經網絡可以學習到它們之間的差異,比如Mac硬體,PC硬體和一般電子文本的差異。

對20000篇屬於20個不同主題的文章進行了初步分析,得出一個密集的點雲圖(左圖)。在使用深度學習迭代幾次之後,算法會將它們進行分類,錯誤率僅僅1.2%(右圖)。

6、即使沒有監督它也能夠學習

深度學習和自編碼器模擬了人類大腦活動,並且能夠在數據集中自動識別高層次的模式。例如,在谷歌大腦計劃中,自編碼器通過「觀看」一千萬條YouTube視頻截取的數字圖像,成功地學習並識別出人和貓臉:

我最近在使用拓撲數據分析和深度學習,並開發出一套工具,它將這些技術轉換成了一個用戶友好型界面,能夠讓人們觀察數據並發現潛在聯繫。去這個網站看看,並讓我知道你是否願意創建你自己數據的地圖。

原文連結: 6 crazy things Deep Learning and Topological Data Analysis can do with

 your data(譯者/劉翔宇 審校/劉帝偉、朱正貴 責編/周建丁)

關於譯者: 劉翔宇,中通軟開發工程師,關注機器學習、神經網絡、模式識別。

【在線視頻分享預告】10月29日20:30-21:30,CSDN人工智慧用戶群安排技術專家深度分享「Hulu的機器學習實踐」。 

講師簡介:唐邦晟,Hulu研究員,2013年於清華大學獲得博士學位,隨後加入Hulu的推薦團隊工作至今,專注於利用機器學習及相關技術解決面向產品或者面向決策的實際問題。分享內容:本次分享將主要介紹Hulu推薦團隊在實現個性化用戶體驗中的經驗和方法,包括:基本的數據流,預測模型,系統架構(基於Hadoop/Spark生態系統的計算框架),離線和在線的評測指標和方法,如何有效地獲取並且利用標註數據改進相似性的計算以及常用的工具。參與方式:點擊這裡報名,獲取直播間入口連結。更多分享:1.CSDN 人工智慧技術交流QQ群:465538150。2.CSDN 人工智慧用戶微信群,請加微信號「jianding_zhou」或掃下方二維碼,由工作人員邀請入群。 加群請註明「機構名-技術方向-姓名/暱稱」,並按此格式修改群名片。

本文為CSDN編譯整理,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    機器之心報導參與:思、一鳴一位義大利數學家表示,現在我們可以使用一種新數學方法,讓機器學習系統能更高效、快速地學習識別複雜圖像。該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。
  • 拓撲數據分析與機器學習的相互促進
    【編者按】拓撲數據分析(TDA)和機器學習(ML)的區別與聯繫讓不熟悉TDA的人撲朔迷離,本文通過兩個定義,解釋了TDA和ML的不同,以及TDA和ML如何相互促進,為何會相互促進,並通過一個設備故障分析的案例(5000個樣本,複雜度適中,48個連續特徵)來進行證明。
  • 深度學習遇上物理學,更好地識別粒子和分析數據
    深度學習遇上物理學,更好地識別粒子和分析數據 工程師8 發表於 2018-05-11 12:01:00 當你向Facebook上傳了一張你朋友的照片後,這張照片就進入了一個複雜的幕後處理過程
  • 淺議概率拓撲與數據分析挖掘的關係
    數據挖掘分析,是一種在非結構化、雜亂無章的數據中,通過一定的數學方 法,挖掘出有用信息的過程。本文旨在通過研究一些常用算法的數學原理,並運 用一系列的數學知識加以解釋,從而闡釋一種數據挖掘分析的新思路。一、拓撲學簡介拓撲學,是一門研究幾何圖形不隨形狀改變而改變的性 質的學科,只考慮物體間的位置關係而不考慮其形狀與大小。
  • 利用深度學習估計再分析數據集中的大氣重力波參數
    深度學習已經被證明是大氣科學以及天氣和氣候預測應用中的一個強大工具。
  • 在Netflix 評論中做情感分析的深度學習模型
    在我們每天產生2.5萬億字節數據的世界裡,情感分析已經成為理解這些數據的關鍵工具。這使得公司能夠獲得關鍵的洞察力並自動化所有類型的流程。情感分析可以使得無結構的信息,比如民眾關於產品、服務、品牌、政治和其他話題上的意見,自動轉變為結構化的數據。這些數據對如市場分析、公共關係、產品意見、淨推薦值、產品反饋和顧客服務等商業應用非常有用。
  • 深度學習「賦能」光子結構設計
    而實現機器學習的手段之一便是深度學習。 簡而言之深度學習是實現機器學習的一種手段,而機器學習是實現人工智慧的一個研究方向。深度學習,是一種模擬生物中樞神經系統(特別是大腦)的數學模型或計算模型。該模型可以基於外界信息改變內部結構,通俗的講就是具備學習功能。
  • 「深度學習被可微分編程取代?」展望30年後的神經網絡和函數編程
    【新智元導讀】在Yann LeCun「深度學習已死」的驚人發言下,可微分編程的概念引發了廣泛關注。機器學習著名博主colah(Christopher Olah)在2015年展望30年後的深度學習,提到了可微分編程。
  • 中科大潘建偉團隊在光量子處理器上成功實現拓撲數據分析
    自arXiv,作者:黃合良等,機器之心編譯,參與:劉曉坤。Commun. 7, 10138 (2016)],用於計算數據點的貝蒂數(一種拓撲特徵,描述散點圖中各個維度的拓撲洞的總數)。我們利用一個六光子量子處理器實現了這個量子算法的原理性實驗演示驗證,成功地分析了一個包含三個數據點的網絡的貝蒂數拓撲特徵,為量子計算領域的數據分析提供了新的探索思路和研究方法。
  • 針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法
    【導讀】對於機器學習而言,獲取數據的成本有時會非常昂貴,因此為模型選擇一個合理的訓練數據規模,對於機器學習是至關重要的。在本文中,作者針對線性回歸模型和深度學習模型,分別介紹了確定訓練數據集規模的方法。
  • 拓撲數據分析TDA,有望打破人工智慧黑箱的神奇算法
    本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,並指出該方法可以高效地進行可視化分析,有望為人工智慧黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。
  • DeepTables:為結構化數據注入深度學習的洪荒之力
    近年來深度學習在CV、NLP等非結構化領域展現出超強的統治力,突破最高水平的算法層出不窮。深度學習在結構化和非結構化領域表現出來的巨大反差已成為熱門話題,自從以XGBoost、LightGBM為代表的高性能集成樹模型訓練框架的問世,深度學習在結構化領域就一直沒有超越配角的地位。到目前為止,Kaggle結構化數據競賽中,傳統機器學習算法依然是最主要的贏家。
  • 無線傳感器網絡的節點/拓撲結構和特點
    打開APP 無線傳感器網絡的節點/拓撲結構和特點 物聯有深度 發表於 2020-11-16 12:01:03 WSN(wirelesssensornetworks
  • 揭秘深度學習成功的數學原因:從全局最優性到學習表徵不變性
    本文的目的正是要揭示深度學習成功的奧秘。通過圍繞著深度學習的三個核心要素——架構、正則化技術和優化算法,並回顧近期研究,作者為深層網絡的若干屬性,如全局最優性、幾何穩定性、學習表徵不變性,提供了一個數學證明。
  • 淺談AI深度學習之於先進封裝的重要性
    在大會上,聚時科技(上海)有限公司 CEO鄭軍博士受邀出席,分享了深度學習和機器學習運用於封裝質量控制、複雜缺陷檢測與分析方面的技術產品進展和落地案例情況。 聚時科技定位於用AI技術賦能高端製造,而半導體封測領域的AI創新與落地是聚時科技的重要發展方向之一。
  • 社區發現的深度學習方法:進展、挑戰...
    總而言之,處理由圖及其屬性、大規模網絡和動態環境形成的高維數據需要更強大的技術,從而同時兼顧高性能和計算速度。深度學習使計算模型可以學習到具有多層次抽象的數據表徵。許多計算模型和算法都需要對以網絡結構形式存在的數據進行表徵學習。深度學習技術在學習非線性特徵時具有很大的優勢。
  • 機器學習和深度學習最佳作品
    來源:CPDA數據分析師網 機器學習算法的超參數優化:理論與實踐 機器學習算法已廣泛應用於各種應用程式和領域,為了使機器學習模型適應不同的問題,必須調整其超參數,為機器學習模型選擇最佳的超參數配置會直接影響模型的性能,它通常需要對機器學習算法和適當的超參數優化技術有深入的了解
  • 機器學習與深度學習有什麼區別?
    作為人工智慧的核心技術,機器學習和深度學習也變得越來越火。一時間,它們幾乎成為了每個人都在談論的話題。那麼,機器學習和深度學習到底是什麼,它們之間究竟有什麼不同呢? 什麼是機器學習?機器學習(Machine Learning,ML)是人工智慧的子領域,也是人工智慧的核心。它囊括了幾乎所有對世界影響最大的方法(包括深度學習)。
  • 關於深度學習在各個領域的應用分析
    深度學習網絡作為一個功能多樣的工具,雖然最初僅用於圖像分析,但它已逐漸被應用到各種不同的任務和領域中。高準確性和高處理速度,使得用戶無需成為領域專家即可對大型數據集執行複雜分析。 小編邀請 MathWorks 產品經理 Johanna 分享一些深度學習網絡的使用示例以供參考: 文本分析 在本例中,我們將分析推特數據,了解針對特定詞或短語的情感是積極的還是消極的。情感分析有很多實際的應用,如品牌推廣、競選活動和廣告營銷。 過去(目前仍然)進行情感分析通常使用機器學習。
  • 深度學習和經驗主義的勝利
    現在深度學習在許多監督式機器學習的任務中扮演著領頭羊的角色。也可以這樣認為,在近幾十年中,深度學習已經產生了最實用的非監督式機器學習算法。興奮之餘,這也引發了一系列的研究和聳人聽聞的新聞頭條。雖然我警惕這些炒作,但是我也發現了令人興奮的技術,並且最近加入了一個社團,針對回歸神經網絡序列學習發表了 一篇30頁的關鍵評語。