人工智慧之ICA算法

2020-11-28 電子產品世界

  人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下ICA算法。 ^_^

本文引用地址:http://www.eepw.com.cn/article/201806/381805.htm

  ICA獨立成分分析是近年來出現的一種強有力的數據分析工具(Hyvarinen A, Karhunen J, Oja E, 2001; Roberts S J, Everson R, 2001)。1994年由Comon給出了ICA的一個較為嚴格的數學定義,其思想最早是由Heranlt和Jutten於1986年提出來的。

  ICA從出現到現在雖然時間不長,然而無論從理論上還是應用上,它正受到越來越多的關注,成為國內外研究的一個熱點。

  ICA獨立成分分析是一種用來從多變量(多維)統計數據裡找到隱含的因素或成分的方法,被認為是PCA主成分分析(請參見人工智慧(46))和FA因子分析的一種擴展。對於盲源分離問題,ICA是指在只知道混合信號,而不知道源信號、噪聲以及混合機制的情況下,分離或近似地分離出源信號的一種分析過程。



  ICA算法概念:

  ICA(IndependentComponent Analysis) 獨立成分分析是一門統計技術,用於發現存在於隨機變量下的隱性因素。ICA為給觀測數據定義了一個生成模型。在這個模型中,其認為數據變量是由隱性變量,經一個混合系統線性混合而成,這個混合系統未知。並且假設潛在因素屬於非高斯分布、並且相互獨立,稱之為可觀測數據的獨立成分。



  ICA與PCA相關,但它在發現潛在因素方面效果良好。它可以應用在數字圖像、檔文資料庫、經濟指標、心裡測量等。

  ICA算法本質:

  ICA是找出構成信號的相互獨立部分(不需要正交),對應高階統計量分析。ICA理論認為用來觀測的混合數據陣X是由獨立元S經過A線性加權獲得。ICA理論的目標就是通過X求得一個分離矩陣W,使得W作用在X上所獲得的信號Y是獨立源S的最優逼近,該關係可以通過下式表示:

  Y = WX = WAS , A = inv(W)

  ICA相比與PCA更能刻畫變量的隨機統計特性,且能抑制高斯噪聲。

  從線性代數的角度去理解,PCA和ICA都是要找到一組基,這組基張成一個特徵空間,數據的處理就都需要映射到新空間中去。



  ICA理論基礎:

  ICA理論基礎如下:

  1)標準正交基

  2)白化

  3)梯度下降

  ICA目標函數:

  ICA的目標函數如下:



  樣本數據 x 經過參數矩陣 W 線性變換後的結果的L1範數,實際上也就是描述樣本數據的特徵。

  加入標準正交性約束(orthonormality constraint)後,ICA獨立成分分析相當於求解如下優化問題:



  這就是標準正交ICA的目標函數。與深度學習中的通常情況一樣,這個問題沒有簡單的解析解,因此需要使用梯度下降來求解,而由於標準正交性約束,又需要每次梯度下降迭代之後,將新的基映射回正交基空間中,以此保證正交性約束。

  ICA優化參數:

  針對ICA的目標函數和約束條件,可以使用梯度下降法,並在梯度下降的每一步中增加投影(projection )步驟,以滿足標準正交約束。過程如下:



  ICA算法流程:

  已知信號為S,經混和矩陣變換後的信號為:X=AS。對交疊信號X,求解混矩陣B,使Y=WX各分量儘量相互獨立。求解W的過程並不一定是近似A的逆矩陣,Y也不是信號S的近似,而是為了使Y分量之間相互獨立。目的是從僅有的觀測數據X出發尋找一個解混合矩陣。

  常見的方法:InfoMax方法(用神經網絡使信息最大化),FastICA方法(固定點算法,尋求X分量在W上投影(W^t)*X)的非高斯最大化。

  主要算法流程如下:

  1、預處理部分:1)對X零均值處理

  2)球化分解(白化)

  乘球化矩陣S,使Z=SX各行正交歸一,即ZZ』=I

  2、核心算法部分: 尋求解混矩陣U,使Y=UZ,Y各道數據儘可能獨立(獨立判據函數G)。

  1)、由於Y獨立,各行必正交。且通常取U保持Y各行方差為1,故U是正交變換。

  2)、所有算法預處理部分相同,以後都設輸入的為球化數據z,尋找正交矩陣U,使Y=Uz獨立。

  由於獨立判據函數G的不同,以及步驟不同,有不同的獨立分量分析法。

  3、Fast ICA算法思路:

  思路:屬於探查性投影追蹤

  目的:輸入球化數據z,經過正交陣U處理,輸出Y=Uz

  1)輸入球化數據z,經過正交陣某一行向量ui處理(投影),提取出某一獨立分量yi。

  2)將此分量除去,按次序依次提取下去,得到所有的yi ,以及ui。

  3)得到獨立的基向量U

  U=WX



  Fast ICA算法程序如下:

  function [Out1, Out2, Out3] =fastica(mixedsig, varargin)

  %FASTICA(mixedsig) estimates theindependent components from given

  % multidimensional signals. Each row ofmatrix mixedsig is one

  % observed signal.

  % = FASTICA (mixedsig); the rows oficasig contain the

  % estimated independent components.

  % = FASTICA (mixedsig); outputs the estimatedseparating

  % matrix W and the corresponding mixingmatrix A.

  mixedsig為輸入向量,icasig為求解的基向量。

  A即為混合矩陣,可以驗證mixedsig=A×icasig。

  W即為解混矩陣,可以驗證icasig=W×mixedsig。

  ICA算法優點:

  1)收斂速度快。

  2)並行和分布計算,要求內存小,易於使用。

  3)能通過使用一個非線性函數g便能直接找出任何非高斯分布的獨立分量。

  4)能夠通過選擇一個適當的非線性函數g而使其達到最佳化。特別是能得到最小方差的算法。

  5)僅需要估計幾個(不是全部)獨立分量,能極大地減小計算量。

  ICA算法缺點:

  1) 特徵矩陣W的特徵數量(即基向量數量)大於原始數據維度會產生優化方面的困難,並導致訓練時間過長;

  2) ICA模型的目標函數是一個L1範數,在 0 點處不可微,影響了梯度方法的應用。

  註:儘管可以通過其他非梯度下降方法避開缺點2),也可以通過使用近似值「平滑」 L1 範數的方法來解決,即使用 ( x2+ε )1/2 代替 |x|,對 L1 範數進行平滑,其中 ε 是「平滑參數」(smoothing parameter)。

  ICA與PCA區別:

  1) PCA是將原始數據降維並提取出不相關的屬性,而ICA是將原始數據降維並提取出相互獨立的屬性。

  2) PCA目的是找到這樣一組分量表示,使得重構誤差最小,即最能代表原事物的特徵。ICA的目的是找到這樣一組分量表示,使得每個分量最大化獨立,能夠發現一些隱藏因素。由此可見,ICA的條件比PCA更強些。

  3) ICA要求找到最大獨立的方向,各個成分是獨立的;PCA要求找到最大方差的方向,各個成分是正交的。

  4) ICA認為觀測信號是若干個統計獨立的分量的線性組合,ICA要做的是一個解混過程。而PCA是一個信息提取的過程,將原始數據降維,現已成為ICA將數據標準化的預處理步驟。



  ICA算法應用:

  從應用角度看,ICA應用領域與應用前景都是非常廣闊的,目前主要應用於盲源分離、圖像處理、語言識別、通信、生物醫學信號處理、腦功能成像研究、故障診斷、特徵提取、金融時間序列分析和數據挖掘等。

  結語:

  ICA是一種常用的數據分析方法,是盲信號分析領域的一個強有力方法,也是求非高斯分布數據隱含因子的方法。從樣本-特徵角度看,使用ICA的前提條件是,認為樣本數據由獨立非高斯分布的隱含因子產生,隱含因子個數等於特徵數,要求的是隱含因子。ICA算法已經被廣泛應用於盲源分離、圖像處理、語言識別、通信、生物醫學信號處理、腦功能成像研究、故障診斷、特徵提取、金融時間序列分析和數據挖掘等領域。

相關焦點

  • 人工智慧之Apriori算法
    人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下Apriori算法。^_^Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法,也是十大經典機器學習算法之一。
  • 莊鎮泉——中國科學技術大學——神經網絡,遺傳算法等計算智能方法...
    所在院校: 中國科學技術大學       所在院系: 電子科學與技術系 職稱: 教授       招生專業: 研究領域: 神經網絡,遺傳算法等計算智能方法及其在圖象處理
  • 人工智慧(59)–BP算法
    人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下BP算法。之前介紹的多層網絡的訓練需要一種強大的學習算法,其中成功的代表就是BP反向傳播算法。1974年Werboss第一次提出了一個訓練多層神經網絡的BP反向傳播算法,由於該算法是在一般網絡中描述的,它只是將神經網絡作為一個特例。
  • 淺談ICA算法的概念、本質和流程
    ICA獨立成分分析是一種用來從多變量(多維)統計數據裡找到隱含的因素或成分的方法,被認為是PCA主成分分析(請參見人工智慧(46))和FA因子分析的一種擴展。對於盲源分離問題,ICA是指在只知道混合信號,而不知道源信號、噪聲以及混合機制的情況下,分離或近似地分離出源信號的一種分析過程。
  • 人工智慧算法可以學習量子力學定律
    人工智慧可以用來預測分子的波函數和電子性質。華威大學、柏林技術大學和盧森堡大學的一個研究小組開發的這種創新人工智慧方法可以用來加速藥物分子或新材料的設計。人工智慧和機器學習算法通常被用來預測我們的購買行為和識別我們的臉或筆跡。
  • 人工智慧之遺傳算法(GA),搜索最優解的方法
    人工智慧之遺傳算法(GA),搜索最優解的方法 工程師8 發表於 2018-05-11 10:35:00 導讀:人們一提到遺傳算法(
  • 人工智慧研學社 · 入門組 | 《終極算法》研習第二期
    可以說,機器學習所代表的人工智慧,已經不再是一個新鮮的概念,科技、醫療、金融、安防,甚至政治、社會研究,都逐漸將這類強大的算法整合到自己的架構中去,以發揮更大的效能。在這樣的浪潮之下,了解人工智慧與機器學習,是每一個關心科技與社會發展的人必做的功課。然而,這並不是一個低門檻的領域,人工智慧也有其漫長的歷史和複雜的發展結構,想要了解事情的全貌,無法一蹴而就。
  • 一起學人工智慧:推薦算法並不難,相似性是基礎,來看看相似算法
    啤酒與奶布,這兩種看起來毫不相關的東西,卻發現有一定的關聯性,在以前,發現物品的相關性需要一定的機緣巧合,但是在大數據時代,找到物品的相關性卻是非常的簡單,這也是人工智慧的一個分支。今天我們來講一講,常見的物品/用戶相似性的評分算法。
  • 人工智慧和算法已在象棋和圍棋等領域上擊敗人類
    人工智慧和算法已在象棋和圍棋等領域上擊敗人類 讀芯術微信公眾號 發表於 2020-11-16 14:16:34 世界西洋棋冠軍賽始於1886年。
  • 人工智慧算法有助於快速分析蛋白質摺疊結構
    近日,英國《自然》雜誌報導,美國哈佛大學醫學院生物學家AlQuraishi開發出新型人工智慧算法,能夠快速分析預測蛋白質三維結構,大大提高蛋白質三維結構預測的效率,將預測時間從若干小時或幾天縮短至幾毫秒
  • 如何用人工智慧算法檢測皮膚病變的方式訓練醫生?
    ILLUSTRATION: ARIEL DAVIS十幾年來,維也納醫科大學教授的皮膚科醫生哈拉爾德·基特勒一直用醫學經驗教授學生如何診斷皮膚病變,今年下學期開始,他將加入利用人工智慧算法診斷皮膚病變的課程。這一算法系統來源於基特勒幫助組織過的一場比賽,在比賽中,圖像分析算法在診斷某些皮膚瑕疵方面的表現可以超過人類專家。
  • 院士說丨戴瓊海院士:人工智慧——算法·算力·交互
    >以下是戴瓊海院士演講實錄:人工智慧是一個很交叉的學科,要關注的問題很多。大家看,圖靈獎獲得者有研究心理學的,有研究認知的,有研究人工智慧的,還有做數學的。我聚焦算法、算力和交互這三個方面和大家討論。算力就需要有力量。說到力量,我們先回顧一下歷史。
  • 圖靈獎得主姚期智:人工智慧算法還需突破兩個瓶頸
    人工智慧在最近幾年得到了迅猛的發展,最重要的幾個領域是:人臉識別、自動駕駛、語音識別,以及語義理解。在應用方面,安防、交通、醫療、教育、智能製造等都有了實際的應用落地。人工智慧從提出到現在發展了大半個世紀,看起來,現在已經欣欣向榮,但是,作為一項可能與人類大腦PK的技術,還遠遠談不上成熟,甚至還存在一些仍需努力突破的地方。
  • 圖靈獎得主姚期智:人工智慧算法還需突破哪些瓶頸
    人臉識別、自動駕駛、語音識別、語義理解,人工智慧已經在醫療、教育、交通等領域有了很好的應用落地。看上去,如今的人工智慧已經取得了巨大突破。但回到技術本身,在姚期智看來,人工智慧仍有自己的發展限制和需要突破的地方。在上海舉辦的第三屆世界頂尖科學家「科學前沿與顛覆性技術」論壇上,圖靈獎得主、中國科學院院士姚期智就講到上述話題。人工智慧需要突破的第一個瓶頸是如何保證算法的穩健性。
  • 圖靈獎得主姚期智:人工智慧算法的有限性有哪些
    巔峰贅婿原標題:圖靈獎得主姚期智:人工智慧算法的有限性有哪些「人工智慧(AI)對我們人類的生活帶來的巨大影響,已經非常顯而易見,但實際上AI還有一些目前無能為力的領域。我們需要思考的是,現在AI算法的限制是什麼,它的有限性在哪裡?接下來在機器學習以及AI的發展之中,還有哪些需要實現突破的地方?」
  • 算法已經能繪畫,能作曲,能寫詩,真正的人工智慧還有多遠?
    人工智慧、深度學習、算法是近幾年高新科技領域的熱門話題。前幾年,阿爾法狗和李世石的人機大戰給人留下了深刻印象。圍棋世界冠軍李世石以1:4的比分敗給機器人阿爾法狗,讓人們直觀地看到了人工智慧的強大能力,並對其應用前景滿懷熱望。我們難免好奇,現在的人工智慧有哪些更強大的功能?
  • 楊元慶:聯想通過大數據、算法及高性能計算推動人工智慧的發展
    在頒獎儀式上,楊元慶表示,聯想正在通過數據、超算和算法研究,推動人工智慧的發展。以下是楊元慶發言的原文。聯想集團董事長兼CEO楊元慶楊元慶上海交大致辭: 勇立潮頭,成為智慧時代的弄潮兒我們現在所處的時代,因為科技的進步正發生劇變。人類社會已經經歷了三次大的變革,機械化的變革、電氣化的變革、數位化的變革,當年我和我的同學們有幸成為第三次變革的親歷者。
  • 人工智慧足彩模型太逆天!神奇算法預測輕鬆賺145萬
    人工智慧足彩模型太逆天!在另一邊的歐洲戰場,也迎來了一場焦點之戰。今天凌晨,歐聯杯決賽火熱開戰。格列茲曼梅開二度,加比鎖定勝局,最終馬德裡競技3-0完勝馬賽,獲得了歐聯杯冠軍。
  • 人工智慧大顯神通,實現用機器學習算法:簡化粒子加速器的操作!
    現在,SLAC國家加速器實驗室的研究人員,開發了一種使用人工智慧機器學習的新工具,與以前的方法相比,它可能會使部分調優過程快五倍,其研究發表在《物理評論快報》期刊上。 人工智慧機器學習 生產直線加速器相干光源強大的X射線束,首先要準備高質量的電子束。
  • 從人工智慧到群體智慧,人機協作之未來
    以2007年在哥倫比亞商學院的實驗為例,糖果實際數目為1116顆,73個學生參加實驗,73人的個人答案有多有少,但都離1116相差甚遠,而73人個人答案的平均值卻為1115顆,與糖果真實數量僅1顆之差。這本質上是個預測問題,其結果正體現了群體的智慧。