薛丁格的滾與深度學習中的物理

2021-03-01 算法與數學之美

【導讀】作者從薛丁格的「滾」講到世界的量子性、神經網絡的最大似然等等,用頗具趣味的方式呈現了深度學習中無處不在的物理本質。

最近朋友圈裡有大神分享薛丁格的滾,一下子火了,「當一個妹子叫你滾的時候,你永遠不知道她是在叫你滾還是叫你過來抱緊」,這確實是一種十分糾結的狀態,而薛丁格是搞不清楚的,他連自己的貓是怎麼回事還沒有弄清楚。雖然人們對於薛丁格頭腦中那隻被放射性物質殘害的貓的生死一直眾說紛紜,斯特恩·蓋拉赫卻在實驗中,實實在在看到了,我們身處的這個物理世界的量子性,也就是既生又死、既真又假、既夢又醒、既粒又波、既此又彼的存在,按照老子的說法是,玄之又玄,眾妙之門。

 

量子性是這個世界已知的基本特徵,未來的世界是我們的,也是你們的,但歸根結底是量子的:通訊將是量子的,計算將是量子的,人工智慧也將是量子的。這個物理世界運行的基本邏輯,決定了我們身邊的一切。不要再糾結是莊周做夢變成了蝴蝶、還是蝴蝶做夢變成了莊周,不要再迷惑南科大朱老師的物質意識的雞與蛋的問題,拿起你的手機使勁往地上一摔,你就知道這個世界是客觀的還是主觀的了。

 

當然量子性不一定是終極真理,還有許多神秘的現象需要解釋,比如有鬼魅般超距作用的量子糾纏。但要相信,從牛頓到麥克斯韋,從愛因斯坦到波爾,人類不斷了解和認知這個世界的本質,比如能量守恆,比如不可逆的熵增,比如質能方程,比如量子性。這些物理的本質滲透到周遭的方方面面,而火熱的深度學習,學的就是現實生活的事物,通過觀測推演獲取這些事物的內在邏輯,因而是處處遵從這些物理原理的。

 

大部分的現代神經網絡算法都是利用最大似然法(Maximum Likelyhood)訓練的,IanGoodfellow 與Yoshua Bengio更是在他們著的《深度學習》一書中詳述了利用香農的信息熵構建深度學習損失函數的通用形式:

這些神經網絡「似」的什麼「然」呢?損失函數中的條件概率、信息熵向我們傳達一個怎樣的思想呢?在《迷人的數據與香農的視角》(http://mp.weixin.qq.com/s/qgWU6qbEsgXP6GKTVvE6Hg)一文中,我曾經討論過香農熵與熱力學熵的關係:「每一個熱力學系統對外表現出宏觀的特徵,溫度、壓力、體積等」,「而其內部卻是由無數不確定位置、速度、形態的分子原子組成」,「那些無約束,充分發展了的隨機變量,達到了勢能最低的穩定狀態」,對外展現的信息由此勢能最低狀態的概率分布決定。換種形式,可以將該狀態的概率分布的對數,定義為此系統攜帶的信息量,也就是香農熵。所以這裡「似」的「然」就是一種最低勢能狀態,或者說對外展現出最大信息熵的狀態。

 

而這個最大似然,不是沒有條件的,注意到「充分發展」這個說法了嗎?「充分發展」的系統是一種相對穩定的系統。我在《站在香農與玻爾茲曼肩上,看深度學習的術與道》(http://mp.weixin.qq.com/s/T6YWQY2yUto4eZa3lEgY3Q)文中強調過,「通過訓練尋找這些概率分布函數,其中隱含著一個基本假設,就是系統是處於相對穩定狀態的,一個急速演進中的開放系統,概率的方法應該是不適合的」,「又比如玻爾茲曼機,基於哈密爾頓自由能的分布其實都是有隱含的系統相對穩定假設的(玻爾茲曼分布是「平衡態」氣體分子的能量分布律)。對於非穩定系統,就得求助於普利高津了」。所以使用諸如RBM(Restricted Boltzmann Machines)之類的深度學習算法的時候,我們首先需要研究一下問題域是不是相對穩定的。

 

上文中提到的「玻爾茲曼分布」,是描述理想氣體在受保守外力作用、或保守外力場的作用不可忽略時,處於熱平衡態下的氣體分子按能量的分布規律:

這裡的 q 叫做配分函數(Partition Function),就是系統中粒子在不同能量級上的分布,它是連接微觀粒子狀態與宏觀狀態的橋梁,是整個統計力學的核心。不僅對於氣體粒子,玻爾茲曼分布同樣被證實適用其他微觀到宏觀的狀態演化,比如著名的Ising Model。Ising Model最初是用來解釋鐵磁物質的相變(磁鐵加熱到一定溫度以上出現磁性消失)的,模型標定每個小磁針兩個狀態(+1 -1),所有N個粒子的狀態組合是一個"配置",則系統共有2的N次方個"配置",該系統的數量眾多「配置」的不同能量級分布服從「玻爾茲曼分布」:

因模型簡單與高度抽象,IsingModel被廣泛應用於自然科學與社會科學等眾多領域。如果將小磁針看作神經元,磁針狀態看作激發與抑制,Ising Model 也可以用來構建深度學習的Hopfield模型,或者玻爾茲曼機 。Hopfield Associative Memory (HAM)是經典的神經網絡,它僅包含顯式神經單元,給這些單元賦予能量,經過推導,我們可以得到這個神經網絡的配分函數和自由能表達式,看起來是不是似曾相識?

不過HAM模型有不少顯而易見的缺點(無法一層層提取潛變量的信息),Hinton因而創造了有隱含神經元的RBM。

 

在《迷人的數據與香農的視角》與《站在香農與玻爾茲曼肩上,看深度學習的術與道》兩文中,我反覆介紹了自己的「頓悟」:「事物由不同層次的隨機變量展現出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決於該隨機變量的條件概率分布」。如果要給這個「頓悟」找個科學的解釋,最合適就是尺度重整化(ScaleRenormalization)了。Charles H Martin博士2015年在其文章 《Why Deep Learning Works II: theRenormalization Group》提到,在神經網絡中引入隱含節點就是尺度重整化。

 

每次尺度變換後,我們計算系統有效的哈密爾頓能量,作用在新的特徵空間(潛變量空間),合理的尺度重整化保持了系統哈密爾頓自由能的不變性。注意這裡的能量守恆,它確保了尺度重整化的合理性。每一次尺度變換後,自由能保持不變。F =-lnZ,  這裡Z是配分函數(上文的q),是一個能量(不同能級上粒子數)的概率分布,Z不變,即能量的概率分布不變,就是要求潛變量的特徵空間中的大尺度「粒子」能滿足原來能量的概率分布。重整化群給出了損失函數,也就是不同層的F自由能的差異, 訓練就是來最小化這個差異。

 

這麼多的基礎理論,展現了深度學習中的無處不在的物理本質。我還可以舉幾個大家熟悉的例子,激發思考:CNN 中卷積的意義是什麼,平滑輸入特徵對最終的模型為什麼是有效的,為什麼池化(pooling)很實用?動量(Momentum)優化方法為什麼比普通的SGD快,而且適用高曲率的場合? 為什麼Dropout是高效、低能耗的 規則化(Regularization)方法?為何Lecun新提出的EBGAN有更好的收斂模式和生成高解析度圖像的可擴展性?不一而足,深度學習實驗室應該多歡迎一些物理背景的學者參與進來啊!

 

人法地,地法天,天法道,道法自然。在女生節、女神節裡,對身邊可愛、聰慧、善良、溫婉、賢惠與偉大的女性同胞多一聲祝福,衷心希望男同胞不要收到「薛丁格的滾」!用智慧的頭腦,不斷重整化我們的認知、態度,讓和諧與美好成為最大似然。

 


作者簡介

王慶法,陽光保險集團大數據中心副總經理兼首席架構師、平臺部總經理,首席數據官聯盟專家組成員,16年在資料庫、分布式系統、機器學習以及雲計算等領域,從事軟體開發、架構設計、產品創新與管理。熱衷於基於市場的數據產品的創新與落地。

相關焦點

  • 薛丁格方程
    在1925年,瑞士蘇黎世每兩周會舉辦一場物理學術研討會。有一次,主辦者彼得·德拜邀請薛丁格講述關於德布羅意的波粒二象性博士論文。那段時期,薛丁格正在研究氣體理論,他從閱讀愛因斯坦關於玻色-愛因斯坦統計的論述中,接觸德布羅意的博士論文,在這方面有很精深的理解。在研討會裡,他將波粒二象性闡述的淋漓盡致,大家都聽的津津有味。
  • 7 Papers & Radios | AI求解薛丁格方程;陶大程等深度學習理論進展綜述
    研究者重點探究了深度網絡對某些類型的多元函數的近似,這些函數避免了維數災難現象,即維數準確率與參數量成指數關係。在應用機器學習中,數據往往是高維的。高維數據的示例包括面部識別、客戶購買歷史、病人健康檔案以及金融市場分析等。深度網絡的深度是指計算的層數——計算層數越多,網絡越深。為了闡明自己的理論,三位研究者檢驗了深度學習的近似能力、動態優化以及樣本外性能。
  • Nat Chem|用深度學習方法求解薛丁格方程
    引言理論上,通過求解給定原子體系電子的不含時薛丁格方程可以獲得任意化學性質。儘管目前只能精確計算出簡單孤立氫原子體系的解析解,但固態物理和量子化學領域都已經發展出了許多成功的數值近似方法。近日,來自德國柏林自由大學的研究者們報導了一種新的深度學習QMC方法——PauliNet,它用功能更強大的深度神經網絡(DNN)表示替代了目前在標準Jastrow factor和backflow transformation中使用的函數形式。除了在表示能力上的增強,該網絡架構是專門為編碼有效波函數而設計的並使用多參考HF方法作為基線。
  • Nat Chem | 用深度學習方法求解薛丁格方程
    理論上,通過求解給定原子體系電子的不含時薛丁格方程可以獲得任意化學性質。儘管目前只能精確計算出簡單孤立氫原子體系的解析解,但固態物理和量子化學領域都已經發展出了許多成功的數值近似方法。 近日,來自德國柏林自由大學的研究者們報導了一種新的深度學習QMC方法——PauliNet,它用功能更強大的深度神經網絡(DNN)表示替代了目前在標準Jastrow factor和backflow transformation中使用的函數形式。除了在表示能力上的增強,該網絡架構是專門為編碼有效波函數而設計的並使用多參考HF方法作為基線。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來|Nature...
    最近,來自柏林自由大學(Freie Universität Berlin) 的科學團隊取得了突破性進展,他們發表的一篇名為《利用深度神經網絡解電子薛丁格方程》的論文,登上了《Nature Chemistry》子刊。
  • 量子力學的核心部分薛丁格的波函數及其物理意義
    薛丁格方程薛丁格提出薛丁格方程後,理論量子物理學者大致分為兩個陣營。第一個陣營的成員主要為路易·德布羅意和埃爾溫·薛丁格等等,他們使用的數學工具是微積分,他們共同創建了波動力學。最後薛丁格證明了兩種方法是等價的,而且因為微積分比較容易理解,所以大家都使用薛丁格方程去解決量子問題。薛丁格通過數學的邏輯推理把方程推導出來了,但是它在物理上表示什麼意義呢?薛丁格一直找不出來,找了很多類似的方程,比如流體力學的方程,最後量子力學的大神級人物提出了概率幅的概念。
  • 最新研究:人工智慧解了薛丁格方程
    科學家開發出了一種人工智慧方法,用於計算量子化學中薛丁格方程的基態。量子化學的目標是僅基於原子在空間中的排列來預測分子的化學和物理性質,而無需進行資源密集和費時的實驗室實驗。原則上,這可以通過求解薛丁格方程來實現,但實際上這是極其困難的。
  • 物理達人or情場浪子,哪一面才是真正的薛丁格?
    智商高啊跟量子力學中的大佬玻爾和普朗克比起來,薛丁格簡直是一股泥石流般的存在。嚴肅是絕對不可能嚴肅的,富二代+學霸才是他的真實畫風。2年後,就與R.W.F.科爾勞施合寫關於大氣中鐳 A(即Po)含量測定的實驗物理論文,獲得了奧地利帝國科學院的海廷格獎金。1926年,他更是提出了薛丁格方程,奠定了波動力學的基礎,在物理學界聲名鵲起。因為卓越的貢獻,他與P.A.M.狄拉克一起獲得了1933 年諾貝爾物理學獎。
  • 埃爾溫·薛丁格
    生平早年薛丁格1887年出生在奧地利維也納附近的埃德伯格,1898年進入了文理高中,從1906年至1910年在維也納大學學習物理與數學並在1910年取得博士學位。薛丁格幾乎是在同一個時間學習英語和德語,因為他的父母二人都在家講這兩種語言。他的父親是一位天主教的信徒,而母親是一位路德教派的信徒。在1911年薛丁格成為埃克斯納的助理。在薛丁格幼年時期,他深受叔本華的影響,因此,他廣泛閱讀叔本華的作品,他的一生對色彩理論、哲學、東方宗教深感興趣。中年薛丁格在1914年至1918年參加了第一次世界大戰。
  • 薛丁格的貓是物理問題還是哲學問題?
    剛才網上回答了一個問題:薛丁格的貓是物理問題還是哲學問題?薛丁格是這樣設想的:一隻貓被封在一個密室裡,密室裡有食物有毒藥。毒藥瓶上有一個錘子,錘子由一個電子開關控制,電子開關由放射性原子控制。如果我們不揭開密室的蓋子,根據我們在日常生活中的經驗,可以認定,貓或者死,或者活。這是它的兩種本徵態。如果我們用薛丁格方程來描述薛丁格貓,則只能說,它處於一種活與不活的疊加態。我們只有在揭開蓋子的一瞬間,才能確切地知道貓是死是活。此時,貓構成的波函數由疊加態立即收縮到某一個本徵態。
  • AI求解薛丁格方程,兼具準確度和計算效率,登上《自然-化學》
    機器之心報導編輯:杜偉、魔王、小舟作為量子力學的基礎方程之一,薛丁格方程一直廣受關注。去年,DeepMind 科學家開發一種新的神經網絡來近似計算薛丁格方程,為深度學習在量子化學領域的發展奠定了基礎。今年九月份,柏林自由大學的幾位科學家提出了一種新的深度學習波函數擬設方法,它可以獲得電子薛丁格方程的近乎精確解。相關研究發表在 Nature Chemistry 上。即使並非物理學界人士,我們也對薛丁格這個名字並不陌生,比如「薛丁格的貓」。
  • 波函數與薛丁格方程
    量子力學中最基本的物理概念是刻畫系統狀態的波函數,其時間演化由薛丁格方程確定,相應地,各種物理量的具體數量是對應物理量在該狀態的期待值
  • 彩色薛丁格
    埃爾溫·薛丁格(1887-1961),奧地利著名物理學家,波動力學的創立者,諾貝爾物理獎得主。
  • 什麼是薛丁格的貓?
    歐文·薛丁格是20世紀初的物理學家,對量子理論方面有很大的貢獻,並在1933年被授予諾貝爾物理學獎。相信物理系的朋友對他不會陌生,薛丁格方程會貫穿整個量子力學課程學習。不過,他最著名的還是是「薛丁格的貓」,這是他為了反對哥本哈根學派關于波函數的觀點而用一隻貓做的思想實驗,但後來,被廣泛應用於形象描述宏觀和微觀物理體系的不同之處。
  • 【物理思辨】量子:生命的「原子核」——對話埃爾溫·薛丁格(諾貝爾獎物理學獎獲得者).
    當代最高學府叫「大學」,英語是「university」,含義就是「普遍性」,一種理論只有升華到放之四海而皆準的水平,才是唯一可以打滿分的。遺憾的是,隨著當代知識各個學科分支在廣度和深度上的拓展,諸學科之間的隔閡越來越大。絕大多數科學家不願意跨出這一步,不願意去超越學科進行普遍性研究。這是很危險的。你應該知道在經濟學中有一個叫做「格雷欣法則」的理論吧?
  • 世界上十大偉大公式之一:薛丁格方程,它顛覆了整個物理世界
    薛丁格方程的誕生首先就論證了氫原子的離散能量譜。在玻爾的原子模型中,電子被限制在某些能量級上,薛丁格將他的方程用於氫原子,發現他的解精確地重現了玻爾的能量級。堪稱是對量子力學發展的神助攻~薛丁格方程可以說在物理史上具有極偉大的意義,被譽為「十大經典公式」之一,是世界原子物理學文獻中應用最廣泛、影響最大的公式。他本意是為了反擊海森堡的,然而這個公式卻成為量子力學最基本的方程之一。
  • AI學會解薛丁格方程了!精度和速度不遜色最流行的數學工具
    AI學會解薛丁格方程了!量子化學是一門以量子視角研究化學的學問,其主要目標是跳過費時費力又費錢的實驗,僅僅通過組成分子的原子們的空間分布情況就能預測出分子的化學和物理性質,以及化學反應的結果。這理論上可以通過求解薛丁格方程來實現,但實際上異常困難。到目前為止,科學家們還沒有找到對任意分子進行精確求解的高效方法。
  • 微分萬物:深度學習的啟示
    深度學習技術的快速發展為微分編程提供了趁手的工具,也為計算物理開闢了一番新天地。文章介紹微分編程的基本概念,並舉例說明它在建模、優化、控制、反向設計等物理問題中的應用。關鍵詞  微分編程,自動微分,計算物理深度學習在做什麼?對於這個問題,人們的第一反應往往是「訓練人工神經網絡」。
  • 【物理學家】 埃爾溫·薛丁格,你所不知道的事
    不過布洛赫覺得吧,估計德拜是後悔了,當時就不該給薛丁格提建議去做這個方程,而應該自己幹。不管怎麼說吧,德拜轉頭又問布洛赫:「我這麼做應該是對的吧?」 二、薛丁格紙幣 曾經有一個物理專業的博士後跟我說:「物理中沒有金錢」。這也許是對的。不過金錢中卻有物理!
  • 「猜」出來的薛丁格方程
    我估計,文科生一看到這個方程立馬會倒吸一口冷氣,即便是學過《高等數學》的理科生也會感到有點茫然,但是對於學過《數學物理方程》的同學來講,這個方程有點眼熟。是的,從形式上來看,有點像擴散方程,但薛丁格方程的實質是波動方程。很奇怪是吧,但更奇怪的是,這樣一個複雜的方程竟然是薛丁格「猜」出來的!