【導讀】作者從薛丁格的「滾」講到世界的量子性、神經網絡的最大似然等等,用頗具趣味的方式呈現了深度學習中無處不在的物理本質。
最近朋友圈裡有大神分享薛丁格的滾,一下子火了,「當一個妹子叫你滾的時候,你永遠不知道她是在叫你滾還是叫你過來抱緊」,這確實是一種十分糾結的狀態,而薛丁格是搞不清楚的,他連自己的貓是怎麼回事還沒有弄清楚。雖然人們對於薛丁格頭腦中那隻被放射性物質殘害的貓的生死一直眾說紛紜,斯特恩·蓋拉赫卻在實驗中,實實在在看到了,我們身處的這個物理世界的量子性,也就是既生又死、既真又假、既夢又醒、既粒又波、既此又彼的存在,按照老子的說法是,玄之又玄,眾妙之門。
量子性是這個世界已知的基本特徵,未來的世界是我們的,也是你們的,但歸根結底是量子的:通訊將是量子的,計算將是量子的,人工智慧也將是量子的。這個物理世界運行的基本邏輯,決定了我們身邊的一切。不要再糾結是莊周做夢變成了蝴蝶、還是蝴蝶做夢變成了莊周,不要再迷惑南科大朱老師的物質意識的雞與蛋的問題,拿起你的手機使勁往地上一摔,你就知道這個世界是客觀的還是主觀的了。
當然量子性不一定是終極真理,還有許多神秘的現象需要解釋,比如有鬼魅般超距作用的量子糾纏。但要相信,從牛頓到麥克斯韋,從愛因斯坦到波爾,人類不斷了解和認知這個世界的本質,比如能量守恆,比如不可逆的熵增,比如質能方程,比如量子性。這些物理的本質滲透到周遭的方方面面,而火熱的深度學習,學的就是現實生活的事物,通過觀測推演獲取這些事物的內在邏輯,因而是處處遵從這些物理原理的。
大部分的現代神經網絡算法都是利用最大似然法(Maximum Likelyhood)訓練的,IanGoodfellow 與Yoshua Bengio更是在他們著的《深度學習》一書中詳述了利用香農的信息熵構建深度學習損失函數的通用形式:
這些神經網絡「似」的什麼「然」呢?損失函數中的條件概率、信息熵向我們傳達一個怎樣的思想呢?在《迷人的數據與香農的視角》(http://mp.weixin.qq.com/s/qgWU6qbEsgXP6GKTVvE6Hg)一文中,我曾經討論過香農熵與熱力學熵的關係:「每一個熱力學系統對外表現出宏觀的特徵,溫度、壓力、體積等」,「而其內部卻是由無數不確定位置、速度、形態的分子原子組成」,「那些無約束,充分發展了的隨機變量,達到了勢能最低的穩定狀態」,對外展現的信息由此勢能最低狀態的概率分布決定。換種形式,可以將該狀態的概率分布的對數,定義為此系統攜帶的信息量,也就是香農熵。所以這裡「似」的「然」就是一種最低勢能狀態,或者說對外展現出最大信息熵的狀態。
而這個最大似然,不是沒有條件的,注意到「充分發展」這個說法了嗎?「充分發展」的系統是一種相對穩定的系統。我在《站在香農與玻爾茲曼肩上,看深度學習的術與道》(http://mp.weixin.qq.com/s/T6YWQY2yUto4eZa3lEgY3Q)文中強調過,「通過訓練尋找這些概率分布函數,其中隱含著一個基本假設,就是系統是處於相對穩定狀態的,一個急速演進中的開放系統,概率的方法應該是不適合的」,「又比如玻爾茲曼機,基於哈密爾頓自由能的分布其實都是有隱含的系統相對穩定假設的(玻爾茲曼分布是「平衡態」氣體分子的能量分布律)。對於非穩定系統,就得求助於普利高津了」。所以使用諸如RBM(Restricted Boltzmann Machines)之類的深度學習算法的時候,我們首先需要研究一下問題域是不是相對穩定的。
上文中提到的「玻爾茲曼分布」,是描述理想氣體在受保守外力作用、或保守外力場的作用不可忽略時,處於熱平衡態下的氣體分子按能量的分布規律:
這裡的 q 叫做配分函數(Partition Function),就是系統中粒子在不同能量級上的分布,它是連接微觀粒子狀態與宏觀狀態的橋梁,是整個統計力學的核心。不僅對於氣體粒子,玻爾茲曼分布同樣被證實適用其他微觀到宏觀的狀態演化,比如著名的Ising Model。Ising Model最初是用來解釋鐵磁物質的相變(磁鐵加熱到一定溫度以上出現磁性消失)的,模型標定每個小磁針兩個狀態(+1 -1),所有N個粒子的狀態組合是一個"配置",則系統共有2的N次方個"配置",該系統的數量眾多「配置」的不同能量級分布服從「玻爾茲曼分布」:
因模型簡單與高度抽象,IsingModel被廣泛應用於自然科學與社會科學等眾多領域。如果將小磁針看作神經元,磁針狀態看作激發與抑制,Ising Model 也可以用來構建深度學習的Hopfield模型,或者玻爾茲曼機 。Hopfield Associative Memory (HAM)是經典的神經網絡,它僅包含顯式神經單元,給這些單元賦予能量,經過推導,我們可以得到這個神經網絡的配分函數和自由能表達式,看起來是不是似曾相識?
不過HAM模型有不少顯而易見的缺點(無法一層層提取潛變量的信息),Hinton因而創造了有隱含神經元的RBM。
在《迷人的數據與香農的視角》與《站在香農與玻爾茲曼肩上,看深度學習的術與道》兩文中,我反覆介紹了自己的「頓悟」:「事物由不同層次的隨機變量展現出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決於該隨機變量的條件概率分布」。如果要給這個「頓悟」找個科學的解釋,最合適就是尺度重整化(ScaleRenormalization)了。Charles H Martin博士2015年在其文章 《Why Deep Learning Works II: theRenormalization Group》提到,在神經網絡中引入隱含節點就是尺度重整化。
每次尺度變換後,我們計算系統有效的哈密爾頓能量,作用在新的特徵空間(潛變量空間),合理的尺度重整化保持了系統哈密爾頓自由能的不變性。注意這裡的能量守恆,它確保了尺度重整化的合理性。每一次尺度變換後,自由能保持不變。F =-lnZ, 這裡Z是配分函數(上文的q),是一個能量(不同能級上粒子數)的概率分布,Z不變,即能量的概率分布不變,就是要求潛變量的特徵空間中的大尺度「粒子」能滿足原來能量的概率分布。重整化群給出了損失函數,也就是不同層的F自由能的差異, 訓練就是來最小化這個差異。
這麼多的基礎理論,展現了深度學習中的無處不在的物理本質。我還可以舉幾個大家熟悉的例子,激發思考:CNN 中卷積的意義是什麼,平滑輸入特徵對最終的模型為什麼是有效的,為什麼池化(pooling)很實用?動量(Momentum)優化方法為什麼比普通的SGD快,而且適用高曲率的場合? 為什麼Dropout是高效、低能耗的 規則化(Regularization)方法?為何Lecun新提出的EBGAN有更好的收斂模式和生成高解析度圖像的可擴展性?不一而足,深度學習實驗室應該多歡迎一些物理背景的學者參與進來啊!
人法地,地法天,天法道,道法自然。在女生節、女神節裡,對身邊可愛、聰慧、善良、溫婉、賢惠與偉大的女性同胞多一聲祝福,衷心希望男同胞不要收到「薛丁格的滾」!用智慧的頭腦,不斷重整化我們的認知、態度,讓和諧與美好成為最大似然。
作者簡介
王慶法,陽光保險集團大數據中心副總經理兼首席架構師、平臺部總經理,首席數據官聯盟專家組成員,16年在資料庫、分布式系統、機器學習以及雲計算等領域,從事軟體開發、架構設計、產品創新與管理。熱衷於基於市場的數據產品的創新與落地。