1 引言
智能計算技術是一門涉及物理學、數學、生理學、心理學、神經科學、計算機科學和智能技術等的交叉學科。目前,智能計算技術在神經信息學、生物信息學、化學信息學等交叉學科領域得到了廣泛應用。這項技術所取得的些許進步,都會進一步促進神經信息學、生物信息學、化學信息學等交叉學科的發展,反過來,後者的深入研究和進一步發展,也將大大促進智能計算技術的長足進步。所以,深入開展智能計算技術研究具有重要意義,應引起我們的高度關注。
智能計算技術是將問題對象通過特定的數學模型進行描述,使之變成可操作、可編程、可計算和可視化的一門學科。它運用其所具有的並行性、自適應性、自學習性來對信息、神經、生物和化學等學科中的海量數據進行規律挖掘和知識發現。由於其在整個計算過程中自始至終考慮計算的瞬時性和敏捷性,因而對於複雜的問題對象能夠通過任務分解或變換方法,使得問題對象能夠在有限的時間內獲得令人滿意的解。
過去,智能計算技術的進步總是離不開人工智慧,特別是人工神經網絡技術的發展,但是以符號推理為特徵的人工智慧技術由於過於依賴規則,以至被認為缺少數學支持而遭到質疑;而以自學習、自適應、高度並行性為特徵的人工神經網絡技術,雖有堅實的數學支撐但又無法精確處理實際問題中的各種小樣本集事件,這些大大限制了智能計算技術的進一步發展。近年來,由於支撐向量機(Support Vector Machine:SVM)、核(Kernek)方法和徵戰模型(Divide-and-Conquer:DAC)等新方法的相繼出現,使智能計算技術發展成不但能處理海量數據等大樣本集的問題對象,同時也能自適應地處理小樣本事件集的數據,從而使該項技術更切合實際需求,更受人們的廣泛青睞。
2 國際發展現狀及趨勢
2.1 智能計算模型
信息技術的發展離不開經典數理統計學,而智能計算技術的每一進步更以數理統計學為靈魂。眾所周知,數理統計學的本質是以Bayes理論為基礎、對隨機事件或過程進行規律統計或挖掘,其中事件或樣本的概率密度函數是Bayes理論得以廣泛應用的基石。由Bayes理論為基礎,進一步出現了各種提取有用信息或信號的估計方法,如著名的Weiner濾波器、Kakman濾波器等等。一般來說,在以Bayes理論為框架的信息處理方法中,最基本的一個假設是,所要解決的問題對象的樣本數必須具有一定的規模,以至在信號傳輸或處理過程中能夠估計或近似估計有用信號的概率密度函數,而且理論證明,基於Bayes理論的有用信號的無偏估計誤差能夠達到克拉美·羅Cramer-Rao 的下界。儘管如此,這是一個非常理想的情況,因為很多實際的問題對象很難得到大樣本的數據集,如手寫籤名識別、信用卡防偽驗證、人臉識別和語音識別等等。
以人工神經網絡為代表的非線性「黑箱」處理模型,儘管對無法用數學模型精確描述的問題的處理具有其獨特的優勢,但對小樣本數據集問題卻很難訓練網絡收斂,且網絡求解或描述問題的精度非常低,即使對大樣本數據集問題能夠使網絡訓練收斂,但往往會出現過擬合情況,而且有時需要設計非常龐大的網絡結構來適應。即便如此,網絡收斂後的輸出也只是近似Bayes後驗概率估計。也就是說,在極限情況下,神經網絡能夠逼近Bayes理論的估計。
近年來,以Vapnik的支撐向量機為代表的統計學習理論是專門研究小樣本情況下的機器學習規律,它採用結構風險最小化準則,在最小化經驗風險的同時最小化推廣誤差的上界,並採用凸二次規劃技術使所求問題的解具有全局最優性。SVM不僅能保證在小樣本條件下仍具有較好的推廣性,而且基本消除了「維數災難」、「過學習」和「欠學習」等傳統機器學習方法難以解決的問題,在複雜系統的建模、優化、分類與預測等方面顯示出強大的優勢,使得SVM理論成為當前學術界研究的熱點問題,受到普遍關注和重視。不過,SVM在應用中存在兩個突出的問題,即SVM核函數的選擇和SVM用於多類問題的學習算法設計。此外,實際應用中很難獲得高質量、大規模的數據樣本,數據樣本中或包含不完整數據、或樣本數很少、或蘊含模式多樣性的情況。如何充分利用有限數據樣本和不完整數據樣本中包含的有限信息,構造高精度的SVM分類器是一個有待深入研究的問題。
近年來,圍繞上述三大模型應用的主要發展趨勢是:(1)先驗信息的充分利用。即根據所求解問題的先驗信息來選擇確定具體的統計模型,或者是將問題的先驗信息耦合到具體模型中以構造約束模型來求得問題的解。如在神經網絡輸出誤差代價函數中將問題的先驗信息通過拉格郎日乘子耦合進來,以構造一種新的約束學習算法來加快問題的求解;(2)任務分解和輸出集成。即對於複雜問題,先將整個問題分解成若干個子問題,並由具有較大差異的模型來分別處理,然後通過集成方法把每個子任務對應的模型的輸出進行綜合,以獲得問題的滿意解。如在分類器集成研究中,我們擬尋找差異性較大的單個分類器,然後使用Boosting算法進行集成,以獲得最佳的分類效果。
2.2 特徵提取
在實際應用中,我們所得到的數據不但非常龐大,而且非常複雜,有時甚至存在各種冗餘,因此在選擇具體模型進行處理(如分類或預測)前,有必要首先對這些數據進行一定的分析,如進行一定的變換以提取數據中的主要特徵,以利於後面的分析與處理。
Fisher線性判別分析(FLDA)是由Fisher於1936年提出的用於兩類問題特徵提取的一種有效方法,其基本思想是尋找一投影方向,使訓練樣本投影到該方向時儘可能具有最大類間距離和最小類內距離。後來,人們又將兩類問題的FLDA方法推廣到多類情況,其基本原理是通過尋找一投影矩陣使得訓練樣本經投影變換後儘可能具有最大類間散射和最小類內散射。不過,由於LDA是線性特徵提取方法,因此一般只適用於線性可分的模式。但實際應用中,許多模式並非線性可分,因此,LDA方法並不理想。為了解決非線性模式的有效特徵提取問題,一種可能的辦法是對LDA方法進行相應的非線性擴展。近年來,隨著統計學習理論,特別是支撐向量機SVM 方法的問世,通過再生核理論對一些線性算法進行非線性擴展已成為研究非線性特徵提取方法的一種非常重要的手段。
繼Schokkopf等人提出了核主成份分析(KPCA)以及Mika等人針對兩類的FLDA問題提出了核Fisher判別分析KFDA 之後,Baudat等人利用核技巧推廣了多類的LDA方法,提出了廣義判別分析GDA 方法。目前,GDA方法已廣泛用於指紋、虹膜、人臉等生物特徵識別領域,並取得甚至比SVM更好的實驗結果。此外,同神經網絡、SVM等其它智能計算方法相比,GDA方法具有計算簡單、推廣性能好等諸多優點。由於GDA本質上是LDA在Hikbert再生核空間上的擴展,因此LDA方法存在的某些本質問題同樣會出現在GDA中,而且還可能更加突出,其中主要的問題包括奇異性問題、秩限制問題和簡併特徵值擾動問題。通常解決這些問題的辦法是分階段的方法,亦即通過兩種或多種組合技術來解決,如PCA+LDA,PCA+GDA等等。
此外,近年來在神經信息學、生物信息學、化學信息學等學科領域還出現了典型相關分析(CCA)、偏最小二乘PLS 、Logistic回歸等多元統計數據處理技術,而且它們也被推廣用來實現判別分析。
隨著支持向量機理論的提出,基於核的學習方法已逐漸受到人們的重視。核學習已經遠遠超越SVM範疇,形成了一個相對獨立的研究方向,並走向更為廣闊的舞臺。目前已出現了Kernek based PCA KPCA Kernek based CCA KCCA 、Kernek based LDA KLDA 以及 Kernek based CkusteringKC 等特徵提取算法。模式分析核方法的中心思想是,在進行分類等數據處理時,對於線性不可分樣本,首先通過一個非線性映射將原空間樣本映射到高維特徵空間(也稱核空間)中,使核空間中的樣本變得線性可分,或者近似線性可分,然後在核空間中用線性方法對其進行處理,從而實現相對於原空間進行非線性的處理,其效果相當好。
目前,核方法中的核函數主要包括徑向基函數(RBF)核、多項式(Pokynomiak)核和Sigmoidak核等。不過,在實際應用中,到底選擇什麼樣的核函數才能最好地變換或表達該問題,還是一個尚未解決的問題。
2.3 模型估計
在實際問題中還經常會遇到來自多個總體並按一定比例混合的數據,這種數據的建模和分析一直是模式識別、聚類分析和信號處理等領域中的一個重要內容,在神經信息學、生物信息學、化學信息學等交叉學科領域有著廣泛的應用。對於有限混合體模型參數估計的研究可追溯到19世紀末Pearson的工作。但從Pearson開始到上世紀60年代,人們所使用的主要是矩方法和最大似然法等經典方法。這些方法僅僅對一些特殊混合體分布的參數估計有效。直到1977年,Dempster等建立的期望最大(EM)算法才為一般混合體分布的參數估計提供了一種統一的理論框架。近年來,人們沿著這個方向做了很多努力並建立了許多改進的算法。然而,這些方法的前提是混合體模型中分量個數的選擇必須正確,否則將導致錯誤的參數估計結果。不過,在許多情況下數據的分量個數是未知或難於準確地知道,這時該模型的參數估計就變得異常困難。
在上世紀70年代,Akaike針對有限混合體模型中分量個數的選擇問題提出了著名的Akaike信息準則。隨後,人們對這一準則進行了多種推廣。這種方法是相當耗時的,因為需要對每一個可能的k值進行一次參數估計,並根據這些估計結果計算信息或價值函數以選擇最優的k值。這種大量重複計算特別是對於高維大批量數據的情況就更困難。因此,在實際應用過程中人們一直在呼籲自動模型選擇方法,也就是通過一次優化過程達到參數估計和模型選擇的雙重目的,這種方法在速度上將大大優於過去的信息或價值準則方法。該方法將對模式識別、聚類分析和信號處理等領域產生重要的影響,並給實際應用帶來方便和快捷。
本質上,有限混合體模型的自動模型選擇問題是從觀察數據直接推測模型階數和參數的技術,而目前正在蓬勃發展的獨立分量分析ICA 技術是一種從觀察數據的角度探索發射(送)源獨立信號個數並分離的技術,它們在圖象特徵提取、基因微陣數據分析等方面正得到廣泛應用。特別是,如果信號傳輸的信道存在非線性環節,對應的ICA就變成了盲源分離BSS 技術。目前ICA或BSS發展的「瓶頸」是如何解決高度非線性混合模式的解混,以及如何求解混合矩陣是奇異矩陣、源信號的個數大於觀察信號的個數(即overcompkete問題)等問題。
2.4 學習算法
學習算法是對問題解的尋優過程。現實中幾乎所有的系統或模型在實際應用前都需要根據輸入數據樣本來對自身進行學習或訓練,以便系統或模型能記住或熟悉所訓練的輸入模式,然後對未知的樣本模式進行測試和評判等。因此,學習算法研究是智能計算技術研究中的一個非常重要的環節。
自1944年Hebb提出改變神經元連接強度的Hebb規則開始,即首次出現了「學習算法」的概念。1957年,Rosenbkatt首次引進了感知器Perceptron 的概念,並正式引進了「學習算法」。1962年,Widrow提出了自適應線性元件ADLINE ,並提出了自適應最小均方LMS 學習算法。1974年,Werbos在其博士論文中第一次提出了能夠實現多層網絡訓練的反向傳播(BP)算法,可以說是「學習算法」史上的一次革命。不過,由於BP算法本質上就是LMS算法,因而其存在局部極小值、訓練速度慢等缺陷。隨後,出現了大量改進的BP算法,以及一些變型的學習算法等。上世紀80年代初又出現了遺傳算法(GA)和模擬退火算法(SAA)等,從而部分解決了局部極小值問題,並大大加快了算法的收斂速度。特別是,GA還能用來解決非數值問題的全局尋優問題,因而推廣了學習算法的應用範圍。近年來,又出現了一些新的群體學習算法,如黃蜂優化算法SOA 、免疫算法IA 、粒子群優化算法PSOA 以及小生境niche 技術等等。這些算法都是基於群體的隨機搜索技術,實際上也是一種進化計算技術。它起源於對魚群、鳥群的捕食行為和社會認知模式的模擬。同遺傳算法相比,這些算法相對簡單和更容易實現,並且沒有太多參數需要調整,這些算法近年來得到國內外學者的廣泛重視和研究,並獲得了一定範圍的應用。現在國際上每年舉辦一屆群智能研討會,專門討論群體學習與優化理論及應用方面的研究進展。
3 我國研究進展
我國特別是中科院非常重視智能計算技術的理論與應用研究,並採取措施推動這項技術在我國的發展。2003年由合肥智能機械研究所、自動化研究所聯合清華大學在北京舉辦了「生物信息學與進化計算」第81次青年科學家論壇,吸引了全國30多名生物信息學和智能計算領域的青年科學家參會並做專題報告。論壇還專門邀請了清華大學李衍達院士做了大會報告,他介紹了生物信息學與智能計算學科的發展趨勢。2005年由合肥智能機械研究所、中國科技大學,聯合香港浸會大學舉辦了第一屆國際智能計算學術會議,會議吸引了39個國家和地區的2400多名學者踴躍投稿,專門邀請了美國、英國和香港等著名學者做關於國際上智能計算領域最新發展趨勢的大會報告,另外還特別邀請了中科院半導體研究所王守覺院士就智能仿生模式識別問題做了專題演講。此次大會的成功召開,標誌著我國在智能計算相關領域的學術研究已處於國際先進水平。
3.1 模型估計
關於有限混合體模型的混合數自動確定的問題(或稱為自動模型選擇問題),香港中文大學的徐雷於1993年提出一種被稱作「對手懲罰競爭學習RPCL 」算法。RPCL算法本質上是一種競爭學習算法,可用於數據的聚類分析。它不同於以往的競爭和其它聚類分析方法,能夠在估計模型參數的過程中自動確定出數據中的類別個數。隨後,徐雷教授還提出了「貝葉斯陰陽學習系統」理論,建立了另一個衡量有限混合體模型建模的和諧函數。通過優化這種和諧函數得到模型參數的估計,同樣能夠實現有限混合體數據的自動模型選擇。但是目前這種方法及其改進形式只在高斯有限混合的情況下才有效,其基本理論問題還遠遠沒有解決,有效的目標代價函數和學習算法還沒有尋找到,如何獲得一種有效的學習算法來實現參數估計和分量個數的自動確定是自動模型選擇問題的一個重要研究方向。
3.2 特徵提取
在數據或樣本處理領域,近年來,南京理工大學楊靜宇教授等在主成份分析(PCA)的基礎上提出了一種時間更快、計算效率更高的二維PCA(簡稱2DPCA)。實驗結果表明2DPCA特徵提取效果至少要好於PCA,不過,2DPCA要求的內存比PCA大。該工作發表在IEEE Transaction on Pattern Anakysis and Machine Intekkigence(Vok 26,No1,2004)上。隨後,在2DPCA的啟發下,北京交通大學袁保宗教授等又提出了二維LDA(簡稱2DLDA)。該工作發表在PRL(No3,2005)上。2DPCA和2DLDA給人的啟發是,一些看似很古老的問題仍然可以找到較新的解決途徑,此外2D技術更加適合圖像(或者矩陣)數據的處理,因為它本身是處理二維數據的,因此對於指紋、虹膜、人臉等圖像特徵提取是有較大意義的。事實上,一維推廣到二維的本質是由向量到向量的投影變成矩陣到向量的投影。因此,我們也可能基於這一思想將CCA、 PLS等推廣到2DCCA、2DPLS,以及其它更為複雜的情況。
在模式識別領域,中科院半導體所王守覺院士領導的研究小組從另一角度進行了探索。王院士認為,人類是基於對同類事物的共同屬性的認識區分不同事物的。近年來他們以「認識」事物而不是「區分」事物為目的研究了模式識別問題,提出了仿生模式識別理論。與傳統的以「最佳劃分」為目標的統計模式識別相比,該理論更接近於人類「認識」事物的特性,他們稱之為「仿生模式識別」。該理論認為,同類樣本在特徵空間中的分布具有數學連續性(不能分裂成兩個彼此不鄰接的部分),即所謂同源連續性原理。採用「仿生模式識別」理論及「高維空間複雜幾何形狀覆蓋神經網絡」的識別方法,能得到很高的識別率。
2005年中科院合肥智能機械研究所黃德雙領導的小組在智能計算方面的研究成果,以封面文章的形式發表在Digitak Signak Processing A Review JournakVok15 No4 2005 上。這篇文章主要是討論使用模糊c-均值聚類FCMC 和核主分量分析(KPCA)方法,對該實驗室於2003年從美國喬治·華盛頓大學帶回來的用U2飛機拍攝的地面「7通道多頻譜遙感彩色圖像數據」進行特徵提取和對比度增強處理所取得的重要結果。評審人認為,這是一項漂亮的工作,它把FCMC和KPCA結合起來,能夠很好地實現圖像數據中非線性模式變量的特徵提取,而且計算量大為減少。特別是,所提取的非線性特徵的個數可以多於主分量分析提取的線性特徵的個數,從而可以有效提取圖像中的弱信息,即分布數量較少的目標信息。另外,通過對比度增強方法,能明顯提高非線性特徵圖像的質量。
3.3 數學機械化
上世紀70年代後期,中科院吳文俊院士提出了使用機器幫助人們實現數學定理自動證明的思想,這為數學機械化奠定了堅實的基礎。由機器來代替人實現自動化智能化處理,是人類孜孜以求的目標。吳文俊院士在這方面做出許多創新性研究成果,如非線性代數方程組求解的吳方法、偏微分代數方程組的整序方法等等,這些成果已經應用到包括機器人機構的位置分析、智能計算機輔助設計、圖像壓縮等領域。
實際上我們還可以進一步將「機器證明」推廣到更一般的「機器解題」領域。考慮現實中的每個問題總蘊涵一定的先驗信息,機器解題中的一個關鍵問題是,如何使得機器在求解問題時能自動運用來自問題中的先驗信息,以幫助機器解題並加快求解速度。事實上我們可以借鑑神經網絡中權值的自適應學習辦法來解決這一問題。如果將對應的先驗信息通過某種形式,耦合到所定義的誤差代價函數中,則所推導出來的算法在空間搜索時,必將沿著問題先驗信息所指定的方向前進,直至預定的誤差。結果所花的搜索時間必然要比未考慮任何先驗信息的算法快得多。目前,大量的實驗研究已經證實我們的想法。
2004年中科院合肥智能機械研究所黃德雙領導的研究小組在先驗信息編碼的約束學習算法方面的工作,以封面文章的形式發表在Neurak ComputationVok16 No8 2004 上。這篇文章介紹了用一種新的基於問題先驗信息的約束學習算法,來加快神經網絡求根器訓練速度所取得的重要結果。評審人認為,所提出的約束學習算法是對神經計算領域的重要貢獻,它不但對一類求根問題有潛在影響,而且對一類神經計算問題的實時求解也具有重要意義。
4 結語
智能計算技術是信息技術、神經信息學、生物信息學、化學信息等學科發展的核心和基礎,它的突破將可能對其它交叉學科產生深遠的影響。目前我院在這個領域的研究水平基本處於國內領先地位,已經逐漸成為我國發展智能計算技術最重要、最活躍的研究基地。