假如你有一個一千列和一百萬行的數據集。無論你從哪個角度看它——小型,中型或大型的數據——你不可能看到它的全貌。將它放大或縮小。使它能夠在一個屏幕裡顯示完全。由於人的本質,如果能夠看到事物的全局的話,我們就會有更好的理解。有沒有辦法把數據都放到一張圖裡,讓你可以像觀察地圖一樣觀察數據呢?
將深度學習與拓撲數據分析結合在一起完全能夠達到此目的,並且還綽綽有餘。
1、它能在幾分鐘內創建一張數據圖,其中每一個點都是一個數據項或一組類似的數據項。基於數據項的相關性和學習模式,系統將類似的數據項組合在一起。這將使數據有唯一的表示方式,並且會讓你更清晰地洞察數據。可視化圖中的節點由一個或多個數據點構成,而點與點之間的連結則代表數據項之間高相似性。
2、它展示了數據中的模式,這是使用傳統商業智能無法識別的。下面是個案例,展示的是算法是如何僅僅通過分析用戶行為來識別兩組不同的人群。典型的特徵區分,黃色和藍色點:女性和男性。
如果我們分析行為類型,我們會發現,其中一組大部分是發送信息(男性),而另一組則多為接收信息(女性)。
3、它能在多層面上識別分段數據分段數據表現在多種層面上——從高層次分類到具有相同數據項的分組。
在一個Netflix數據集的例子中,每個數據項是一部電影。最高層次的一組是音樂,孩子,外交和成人電影。中層次的部分包含不同分段:從印度片和港片到驚悚片和恐怖片。在低層次中是電視連續劇分組,比如「萬能管家」,「辦公室」,「神秘博士」等。
4、它能分析任何數據:文本,圖像,傳感器數據,甚至音頻數據。任何數據都可以被分段並理解,如果可以將它展現為數字矩陣,其中每一行是一個數據項,列是一個參數。下面這些是最常見的用例:
5、如果你引導它,它能學習更複雜的依賴關係。選擇一組數據項,將它們分組,算法就會發現所有相關或類似的數據項。重複這個過程數次,那麼神經網絡可以學習到它們之間的差異,比如Mac硬體,PC硬體和一般電子文本的差異。
對20000篇屬於20個不同主題的文章進行了初步分析,得出一個密集的點雲圖(左圖)。在使用深度學習迭代幾次之後,算法會將它們進行分類,錯誤率僅僅1.2%(右圖)。
6、即使沒有監督它也能夠學習深度學習和自編碼器模擬了人類大腦活動,並且能夠在數據集中自動識別高層次的模式。例如,在谷歌大腦計劃中,自編碼器通過「觀看」一千萬條YouTube視頻截取的數字圖像,成功地學習並識別出人和貓臉:
我最近在使用拓撲數據分析和深度學習,並開發出一套工具,它將這些技術轉換成了一個用戶友好型界面,能夠讓人們觀察數據並發現潛在聯繫。去這個網站看看,並讓我知道你是否願意創建你自己數據的地圖。
原文連結: 6 crazy things Deep Learning and Topological Data Analysis can do with
your data(譯者/劉翔宇 審校/劉帝偉、朱正貴 責編/周建丁)
關於譯者: 劉翔宇,中通軟開發工程師,關注機器學習、神經網絡、模式識別。
【在線視頻分享預告】10月29日20:30-21:30,CSDN人工智慧用戶群安排技術專家深度分享「Hulu的機器學習實踐」。
講師簡介:唐邦晟,Hulu研究員,2013年於清華大學獲得博士學位,隨後加入Hulu的推薦團隊工作至今,專注於利用機器學習及相關技術解決面向產品或者面向決策的實際問題。分享內容:本次分享將主要介紹Hulu推薦團隊在實現個性化用戶體驗中的經驗和方法,包括:基本的數據流,預測模型,系統架構(基於Hadoop/Spark生態系統的計算框架),離線和在線的評測指標和方法,如何有效地獲取並且利用標註數據改進相似性的計算以及常用的工具。參與方式:點擊這裡報名,獲取直播間入口連結。更多分享:1.CSDN 人工智慧技術交流QQ群:465538150。2.CSDN 人工智慧用戶微信群,請加微信號「jianding_zhou」或掃下方二維碼,由工作人員邀請入群。 加群請註明「機構名-技術方向-姓名/暱稱」,並按此格式修改群名片。本文為CSDN編譯整理,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)